:::: MENU ::::

Posts Tagged / Big Data

  • Mar 08 / 2019
  • Comments Off on Seputar Big Data edisi #64
Apache, Big Data, Medical Analytics

Seputar Big Data edisi #64

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Maret 2019.

Artikel dan berita

  1. Data Lakes Take Healthcare Analytics to the Next Level
    Pada dasarnya, data lake adalah arsitektur yang digunakan untuk menyimpan data bervolume besar, memiliki kecepatan tinggi, bervariasi tinggi, sebagaimana adanya data dalam repositori terpusat untuk Big Data dan analisa real-time. Organisasi layanan kesehatan dapat mengakses data dalam jumlah besar – terstruktur, semi terstruktur, dan tidak terstruktur – secara real time melalui data lake, dari mana saja.
  2. Kembangkan Pariwisata, Grab Bangun Big Data
    Baru-baru ini, Otoritas Pariwisata Thailand (TAT) dan Grab Thailand mengumumkan kerjasama strategis untuk membangun sistem data yang merupakan bagian dari proyek.
    Dengan sistem yang telah dimiliki oleh GrabTaxi Thailand, TAT bisa mengembangkan sistem lebih cerdas untuk pariwisata, yang akan mendukung strategi dan rencana pemasaran TAT
  3. How AI/ML Help Secure the US Power Grid Infrastructure
    Jaringan listrik Amerika Serikat adalah salah satu sistem paling kompleks di seluruh dunia. Pemerintah A.S. dan perusahaan-perusahaan listrik dan gas mulai fokus terhadap teknologi-teknologi masa depan di mana ilmu-ilmu baru seperti AI dan machine learning dapat dimanfaatkan untuk membantu mengamankan jaringan listrik, infrastrukturnya, dan pelanggan nasional.

Tutorial dan pengetahuan teknis

  1. A Gentle Introduction to Learning Curves for Diagnosing Machine Learning Model Performance
    Kurva model pembelajaran sering digunakan untuk mendeteksi masalah dalam proses learning, seperti misalnya apakah model underfit atau overfit, ataupun apakah dataset yang digunakan telah cukup representatif. Artikel ini membahas mengenai bagaimana melakukan evaluasi terhadap kinerja model, memvisualisasikan hasil evaluasi untuk mendapatkan kurva belajarnya, serta memanfaatkan kurva tersebut untuk mendeteksi permasalahan dalam proses learning itu sendiri.
  2. Journey to Event Driven – Part 3: The Affinity Between Events, Streams and Serverless
    Kunci dari desain sistem event-first adalah memahami bahwa serangkaian event menunjukkan perilaku. Dengan menyimpan aliran event di Kafka, kita memiliki catatan semua aktivitas sistem, dan juga mekanisme untuk mendorong reaksi. Artikel ini juga akan mengeksplorasi bagaimana karakteristik runtime FaaS (Function as a Service) cocok untuk berbagai jenis pemrosesan, karena dalam beberapa kasus, masalah latensi atau konkurensi perlu dipenuhi.
  3. Text Mining 101: What it Is and How it Works
    Sebuah pengantar yang bagus untuk bidang teks mining, yang mencakup kasus penggunaan populer, algoritma, dan implikasinya dalam AI dan ML.
  4. Spark Streaming and Kafka, Part 2 – Configuring a Kafka Connector
    Dalam posting sebelumnya, dibahas mengenai pengembangan Kafka Source Connector kustom, yang ditulis dalam Scala. Posting kali ini adalah mengenai konfigurasi dan setting Konektor tersebut.

Rilis Produk

  1. Apache Kafka 2.1.1
    Versi ini adalah bugfix rilis untuk Kafka 2.1.0. Perubahan yang tercakup dalam rilis ini dapat ditemukan dalam rilis note berikut ini :
    https://www.apache.org/dist/kafka/2.1.1/RELEASE_NOTES.html.
  2. Apache NiFi 1.9.0 release
    Selain lebih dari 100 perubahan, perbaikan bugs dan peningkatan, rilis ini juga mencakup fitur yang memudahkan integrasi dengan Apache Kudu dan Impala, serta memperkuat integrasi dengan Google BigQuery dan AWS. Komponen dan ekstensi baru dapat di-load secara runtime, sehingga meminimalisir downtime operasional.
  3. Apache Trafodion 2.3.0 is released
    Apache Trafodion adalah solusi SQL-on-Hadoop solution yang memungkinkan operasi transaksional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 21 / 2019
  • Comments Off on Seputar Big Data edisi #63
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #63

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga Februari 2019.

Artikel dan berita

  1. New AI fake text generator may be too dangerous to release, say creators
    OpenAI, sebuah perusahaan riset nirlaba merilis model bahasa alami yang disebut GPT-2. GPT-2 dilatih dengan sampel 40 gigabytes teks internet, untuk memprediksi kata selanjutnya dari sepotong teks input. Hasil akhirnya adalah sistem yang dapat menghasilkan teks yang realistis dan koheren. OpenAI menyatakan bahwa sistem ini bekerja dengan sangat baik, sehingga dikhawatirkan akan disalahgunakan untuk tujuan negatif seperti misalnya membuat ‘fake-news’. Hal ini mendorong OpenAI untuk membuka sebagian kecil saja dari keseluruhan model tersebut.
  2. How does NASA use big data?
    Istilah “big data” pertama kali digunakan dalam makalah tahun 1997 oleh para ilmuwan di NASA. Volume data yang harus dikelola NASA sangat besar. Menurut Kevin Murphy, Eksekutif Program NASA untuk Sistem Data Ilmu Bumi, NASA – salah satu penghasil data terbesar – menghasilkan 12,1TB data setiap hari dari hampir 100 misi aktif saat ini dan ribuan sensor dan sistem di sekitar Bumi dan luar angkasa. Bagaimana NASA menangani dan mengelola data tersebut?
  3. Google to Spend $13B on US Data Center and Office Construction This Year
    Google akan membangun empat fasilitas data center baru tahun ini, dengan ekspansi besar di tiga lokasi lain. CEO Alphabet, Sundar Pichai mengatakan bahwa setelah menghabiskan $9 miliar pada tahun 2018 untuk pembangunan kantor dan data center, perusahaan akan menaikkan investasi pada 2019 menjadi US $13 miliar.
  4. China’s big data sector to expand rapidly in 2019
    Sektor big data China akan mempertahankan pertumbuhan yang pesat pada 2019. Industri inti di sektor ini diperkirakan bernilai lebih dari 720 miliar yuan (sekitar 106,3 miliar dolar AS) tahun ini, menurut sebuah laporan tentang prospek sektor yang dirilis oleh think tank CCID.
  5. Big Data in the Renewable Energy Sector
    Bagaimana big data dan AI dapat digunakan untuk meningkatkan efisiensi produksi energi terbarukan dan menawarkan peluang untuk mengurangi konsumsi listrik?
  6. Top 10 Data Science Use Cases in Telecom
    Artikel ini menyajikan 10 use case data sains yang paling relevan dan efisien dalam bidang telekomunikasi.
  7. Here Technologies to fund a $28 million research institute that applies machine learning to geolocation data
    Here Technologies, perusahaan di balik platform pemetaan dan lokasi yang populer, mengungkapkan bahwa mereka melakukan investasi sebesar 25 juta Euro (28 juta dolar AS) untuk sebuah lembaga penelitian machine learning baru yang akan mengolah data geolokasi dalam skala industri.

Tutorial dan pengetahuan teknis

  1. Backpropagation for people who are afraid of math
    Backpropagation adalah salah satu konsep terpenting dalam pembelajaran mesin, namun memahami konsepnya bisa jadi cukup menantang bagi banyak orang. Artikel ini berusaha menjabarkan backpropagation dengan jelas dan sederhana, lengkap dengan contoh program, terutama untuk mereka yang ‘alergi’ dengan persamaan matematis yang rumit.
  2. Neural Networks seem to follow a puzzlingly simple strategy to classify images
    Artikel ini membahas bahwa ternyata Deep Neural Networks masih dapat mengenali dengan baik gambar yang diacak dan bagaimana hal ini menunjukkan bahwa DNN ternyata menggunakan strategi yang cukup “sederhana” untuk melakukan klasifikasi gambar, serta beberapa konsekuensinya.
  3. Error Handling for Apache Beam and BigQuery (Java SDK)
    Pernahkah anda berurusan dengan error yang membingungkan dan membuat frustasi ketika bekerja dengan Apache Beam dan BigQuery? Artikel ini mencoba mengupasnya beserta langkah yang perlu dilakukan untuk mengatasinya.
  4. Are BERT Features InterBERTible?
    Setelah word2vec kini muncul teknik baru dalam word embedding, yaitu BERT (Bidirectional Encoder Representations from Transformers) yang diperkenalkan Google pada Oktober lalu. Artikel ini mencoba mengulas BERT dari sisi interpretabilitasnya.
  5. Journey to Event Driven – Part 2: Programming Models for the Event-Driven Architecture
    Setelah pada bagian 1 membahas mengapa “event-first thinking” perlu, artikel ini menjelaskan mengenai berbagai gaya arsitektur yang bersifat event-driven dan membandingkan model skala, persistensi dan model runtimenya, serta contoh high-level dataflow untuk melakukan desain sistem payment processing menggunakan pendekatan ini.

Rilis Produk

  1. SMM 1.2 Released with Powerful New Alerting and Topic Lifecycle Management Features with Schema Registry Integration
    Streams Messaging Manager (SMM) 1.2 menghadirkan tiga fitur yang paling banyak ditunggu SMM user : Topic Lifecycle Management, Alerting dan Integrasi skema registry.
  2. Introducing Nauta: A Distributed Deep Learning Platform for Kubernetes
    Intel merilis platform baru yang dinamai Nauta, yang memungkinkan para ilmuwan dan pengembang data menggunakan Kubernetes dan Docker untuk melakukan deep learning terdistribusi berskala besar. Nauta menyediakan “lingkungan komputasi terdistribusi multi-pengguna” untuk menjalankan eksperimen training model DL pada sistem berbasis prosesor Intel Xeon, menggunakan antarmuka command line, web dan/atau TensorBoard dan didukung oleh Kubeflow dan Docker.
  3. Introducing AresDB: Uber’s GPU-Powered Open Source, Real-time Analytics Engine
    AresDB adalah engine analitik realtime open source yang dikembangkan Uber, memanfaatkan unit pemrosesan grafis (GPU) untuk memungkinkan pengembangan analitik berskala besar.
  4. Apache Flink 1.7.2 released
    Apache Flink 1.7.2 adalah rilis perbaikan bug yang kedua dalam seri 1.7.
  5. Apache Beam 2.10.0 released!
    Rilis 2.10 ini mencakup beberapa perbaikan bug, fitur, dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2019
  • Comments Off on Seputar Big Data edisi #62
Artificial Intelligece, Big Data, IoT, Spark

Seputar Big Data edisi #62

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan Februari 2019.

Artikel dan berita

  1. Databricks’ Recent $250 Mn Funding Shows How The Spark Creators Are Ahead In The AI Game
    Ali Ghodsi dan Matei Zaharia, penemu Spark dan pendiri Databricks, memanfaatkan perubahan tren dan kebutuhan Big Data dengan menyediakan platform analitik terpadu.
    Bahkan minggu lalu perusahaan yang berbasis di San Francisco tersebut kembali memperoleh putaran pendanaan blockbuster sebesar $250 juta, yang menjadikan nilai dari Databricks sekitar $2,75 miliar.
  2. How to Become a Data Engineer: A Guide
    Salah satu pekerjaan yang paling menarik dan diminati di seluruh dunia saat ini: big data engineer. Big data engineer adalah para profesional yang memproses kumpulan data besar untuk memberikan analisis pada organisasi atau perusahaan, yang selanjutnya dapat digunakan untuk membuat keputusan di masa depan untuk menghindari kesalahan.
  3. Pizza Delivery Businesses Turn to Big Data Analytics for Record Growth
    Big data analytic untuk bisnis pengiriman pizza ternyata memiliki dampak yang luar biasa. Akibatnya, banyak perusahaan pengiriman pizza berkembang pesat.
  4. Toyota’s moonshot: Self-driving car for sale — in a year
    Mereka menyebutnya sebagai Toyota’s moonshot: hanya dalam satu tahun, pembuat mobil terbesar di Jepang ingin mulai menjual kendaraan self-driving yang dikatakannya akan “most powerful supercomputer on wheels”. Milestone pertama yaitu pada tahun 2020, ketika Toyota berencana untuk memperkenalkan kendaraan yang mampu mengemudi sendiri di jalan raya.
  5. Contrasting Hortonworks (HDP) and Dropbox (DBX)
    Dropbox (NASDAQ: DBX) dan Hortonworks (NASDAQ: HDP) keduanya adalah perusahaan komputer dan teknologi, tetapi mana yang merupakan saham unggulan?
  6. Here’s How Big Data Is Transforming Augmented Reality
    Big data benar-benar mengubah fungsi AR dan VR. Artikel berikut menceritakan bagaimana perusahaan modern mengubah AR dari mimpi menjadi kenyataan dengan memanfaatkan kekuatan kumpulan data yang sangat luas.
  7. Here’s What Cybersecurity Experts Worry About This Year
    “Ancaman keamanan big data berikutnya sedang berlangsung,” demikian diungkapkan Jason Hong, associate professor dari the human computer interaction institute, Carnegie Mellon University.
  8. Why Cloudera Stock Gained 22.1% in January
    Saham Cloudera (NYSE: CLDR) naik 22,1% pada Januari, menurut data dari S&P Global Market Intelligence. Saham perusahaan ini sempat mengalami penurunan sekitar 35% dalam tiga bulan terakhir tahun 2018, tetapi diuntungkan dari rebound pasar saham di awal tahun 2019 dan beberapa klarifikasi tentang strateginya setelah merger dengan Hortonworks.

Tutorial dan pengetahuan teknis

  1. Perfume Recommendations using Natural Language Processing
    Doc2Vec, Latent Semantic Analysis, and Sentiment Analysis dapat digabungkan untuk membuat rekomendasi yang tepat dalam sebuah antarmuka chatbot.
  2. Best Public Datasets for Machine Learning and Data Science: Sources and Advice on the Choice
    Ribuan kumpulan data publik tentang berbagai topik – mulai dari tren kebugaran teratas dan resep bir hingga tingkat keracunan pestisida – tersedia online. Untuk menghabiskan lebih sedikit waktu dalam pencarian dataset yang tepat, kita harus tahu di mana mencarinya.
  3. Learning from Graph data using Keras and Tensorflow
    Ada banyak data yang dapat direpresentasikan dalam bentuk graph seperti di jejaring sosial, jaringan biologis atau telekomunikasi. Penggunaan fitur graph dapat meningkatkan kinerja model. Namun, merepresentasikan data graf tidak mudah. Artikel ini mengeksplorasi beberapa cara untuk menangani graf generik untuk melakukan klasifikasi node berdasarkan representasi graf yang dipelajari langsung dari data.
  4. Introduction to Apache Spark’s Core API (Part II)
    Dalam bagian kedua dari serial pengenalan Spark API ini dibahas mengenai fungsi dan method yang dapat digunakan untuk bekerja dengan pair RDD, dilengkapi beberapa contoh dalam Python.
  5. KubernetesExecutor for Airflow
    Dalam rilis 1.10 Airflow memperkenalkan executor baru untuk menjalankan worker secara terskala: Kubernetes executor. Artikel ini membahas mengenai apa itu Airflow dan masalah apa yang dipecahkannya, Kubernetes executor dan bagaimana perbandingannya dengan Celery executor, serta contoh penerapannya di minikube.

Rilis Produk

  1. Microsoft announces general availability of Azure Data Explorer and Azure Data Lake Storage Gen2
    Microsoft mengumumkan ketersediaan umum Azure Data Explorer (ADX) dan Azure Data Lake Storage Gen2 (ADLS Gen2) – dua layanan yang dikatakan akan memberi pelanggan Azure fleksibilitas yang lebih besar dalam mengelola data yang tidak terstruktur, atau data yang dihasilkan dari interaksi di web, software-as-a-service, media sosial, aplikasi seluler, dan perangkat iot.
  2. Black Knight Launches Rapid Analytics Platform, a Premier Cloud-Based Virtual Lab for Working with Big Data and Complex Analytics
    Black Knight, Inc. (NYSE: NYSE: BKI), penyedia terkemuka perangkat lunak, data, dan analisis terintegrasi untuk industri hipotek dan real estat, mengumumkan peluncuran Rapid Analytics Platform (RAP), sebuah lab analitik virtual interaktif yang inovatif dan interaktif di mana pengguna dapat menggunakan dan mengunggah data, mengeksekusi SQL query, melakukan analitik kompleks dan melatih model machine learning – semua dalam satu ruang kerja tunggal.
  3. Apache Solr 7.7.0 released
    Apache Solr 7.7.0 mencakup 7 fitur baru, 20 bug fixes, 15 peningkatan dan 8 perubahan lain. Pengguna Solr versi sebelumnya sangat disarankan melakukan upgrade ke versi ini terkait isu security, yaitu mekanisme whitelist pada manajemen “shards”.
  4. Introducing Ludwig, a Code-Free Deep Learning Toolbox
    Uber merilis Ludwig, “toolbox” open source yang dibangun di atas kerangka kerja TensorFlow Google yang memungkinkan pengguna untuk melatih dan menguji model AI tanpa harus menulis kode. Dengan menggunakan Ludwig, para ahli dan peneliti dapat menyederhanakan proses prototyping dan merampingkan pemrosesan data sehingga mereka dapat lebih fokus pada pengembangan arsitektur deep learning daripada data wrangling.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 07 / 2019
  • Comments Off on Seputar Big Data edisi #61
Artificial Intelligece, Big Data

Seputar Big Data edisi #61

Edisi kali ini menyajikan beberapa topik menarik, mulai dari kegagalan perusahaan menuju “data-driven”, bagaimana AI menentukan dosis kemoterapi sekaligus mengubah regulasi privasi dalam data kesehatan, API baru dari Alexa untuk melacak aktivitas bayi, dan bagaimana bias dapat muncul dalam AI. Dari sisi teknis, terdapat tutorial mengenai data scaling untuk deep learning, tutorial python, testing aplikasi Kafka, kesalahan umum dalam data sains, serta dataset baru untuk pengenalan wajah yang berisi 1 juta foto wajah ter-anotasi.

Seputar Big Data #61 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Februari 2019.

Artikel dan berita

  1. Companies Are Failing in Their Efforts to Become Data-Driven
    Menjadi sebuah perusahaan yang “data-driven” adalah target dari banyak perusahaan, terutama dalam beberapa tahun terakhir ini. Namun menurut survey yang dibuat oleh NewVantage Partners terhadap 64 eksekutif tingkat teknologi dan bisnis yang mewakili perusahaan besar seperti American Express, General Electric, Johnson & Johnson, dll, tujuan ini masih jauh dari pencapaian yang memuaskan. Salah satu hasilnya adalah, sebanyak 72% menyatakan belum berhasil menciptakan “budaya data”, bahkan 53% belum memperlakukan data sebagai aset.
  2. AI able to predict chemotherapy dosages developed
    Penetapan dosis kemoterapi merupakan tantangan tersendiri dalam penatalaksanaan terapi kanker. Para peneliti dari Rumah Sakit Universitas Stanford telah berhasil menggunakan teknologi AI untuk menyesuaikan dosis kemoterapi secara akurat dengan mengidentifikasi pasien yang membutuhkan dosis lebih rendah bahkan sebelum pengobatan dimulai, menurut sebuah penelitian yang diterbitkan dalam Nature Scientific Reports.
  3. Playing Pictionary against computers could help AI learn common sense
    Salah satu hal yang sulit diajarkan kepada mesin adalah mengenai “common-sense”. Pertanyaan semacam “Dapatkah kita makan spaghetti dengan sedotan?”, misalnya, kita bisa menjawabnya dengan : bisa, tapi perlu banyak kesabaran. Peneliti dari Allen Institute for Artificial Intelligence (AI2) merilis permainan online semacam tebak gambar yang menurut mereka dapat membantu mesin mempertajam “common-sense”.
  4. New Advances in AI Could Have a Significant Impact on Health Data Privacy
    Perubahan di bidang kecerdasan buatan semakin cepat sehingga regulator dan legislator mengalami kesulitan untuk mengimbangi. Hal ini sangat dirasakan dalam industri kesehatan, di mana kemajuan yang cepat dalam teknologi AI mulai membuat para profesional kesehatan memikirkan kembali efektivitas dari Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA) yang dirumuskan tahun 1996 dan mempertimbangkan kemungkinan peraturan baru untuk privasi data kesehatan.
  5. Amazon’s Baby Activity Skill API lets Alexa developers build apps that track tots’ activities
    Amazon merilis Baby Skill Activity API, yang memungkinkan pengembang untuk membangun aplikasi pihak ketiga yang membantu pelanggan melacak aktivitas bayi – misalnya mencatat waktu penggantian popok. Dengan Baby Skill Activity API, pengembang dapat membangun keterampilan Alexa dan yang memungkinkan pelanggan untuk dengan mudah login dan menanyakan informasi aktivitas hanya dengan menggunakan suara mereka.
  6. The new AI frontier: Hyperpersonalized automated advertising
    Saat ini banyak iklan otomatis berbasis AI digunakan untuk menghubungkan konsumen ke produk untuk meningkatkan penjualan. Teknologi AI membantu pengiklan memberikan promosi yang lebih relevan yang menghubungkan merek dengan konsumen melalui iklan otomatis yang sangat personal.
  7. This is how AI bias really happens—and why it’s so hard to fix
    Akhir-akhir ini deep learning menjadi dasar dari banyak aplikasi berbasis AI, yang mempengaruhi kehidupan banyak orang. Namun penggunaan data dalam deep learning ini rawan bias, yang dapat berakibat pada ketidakadilan dalam berbagai proses : rekrutmen, penjualan, keamanan dan bahkan dalam sistem hukum pidana. Untuk dapat mengatasinya, kita perlu memahami mekanisme munculnya bias dalam AI, seperti yang diuraikan dalam artikel ini.
  8. Databricks Clinches Microsoft Backing, Plans European Expansion on $250m Series E
    Databricks, spesialis manajemen data dan pembelajaran mesin yang berbasis di San Francisco, telah memperoleh $250 juta dalam putaran pendanaan Seri E dengan Microsoft sebagai investor. CEO Ali Ghodsi mengatakan fokus mereka adalah pada pertumbuhan yang berkelanjutan, dengan investasi di Eropa termasuk peningkatan tim teknis mereka di Belanda, serta peningkatan penjualan.

Tutorial dan pengetahuan teknis

  1. How to Improve Neural Network Stability and Modeling Performance With Data Scaling
    Penggunaan angka bernilai kecil untuk weight dan error dalam deep neural network menjadikan penentuan skala input dan output yang digunakan untuk training menjadi faktor yang penting. Penentuan variabel input yang kurang tepat menyebabkan proses training menjadi lambat atau tidak stabil, dan pada variabel target dapat mengakibatkan meledaknya gradien sehingga proses training menjadi gagal.
    Salah satu yang dapat dilakukan adalah persiapan data menggunakan teknik-teknik normalisasi dan standarisasi input, salah satunya adalah penskalaan data seperti yang dijelaskan dalam tutorial ini.
  2. Guidelines for human-AI interaction design
    Kemajuan dalam kecerdasan buatan (AI) menghasilkan peluang dan tantangan terhadap desain antarmuka pengguna. Prinsip-prinsip interaksi manusia-AI telah dibahas dalam komunitas interaksi manusia-komputer selama lebih dari dua dekade, namun diperlukan lebih banyak penelitian dan inovasi. Dalam tulisan ini diusulkan 18 pedoman desain yang berlaku umum untuk interaksi manusia-AI. Pedoman ini divalidasi melalui beberapa putaran evaluasi termasuk studi pengguna dengan 49 praktisi desain yang menguji 20 produk populer yang berbasis AI.
  3. Getting Your Feet Wet with Stream Processing – Part 2: Testing Your Streaming Application
    Memastikan bahwa suatu solusi berfungsi sama pentingnya dengan mengimplementasikannya. Hal ini menjamin aplikasi berfungsi sesuai rancangan, dapat menangani peristiwa yang tak terduga, dapat berkembang tanpa merusak fungsi yang ada, dll. Pada bagian kedua dari rangkaian artikel ini dijelaskan bagaimana melakukan testing terhadap proses stream yang sudah dibuat sesuai tutorial pada bagian terdahulu.
  4. Python Functions Tutorial: Working With Functions in Python, Part 3
    Dalam tutorial bagian 3 ini dijelaskan mengenai bagaimana membuat fungsi yang ditentukan pengguna, fungsi rekursif, beserta contoh aplikasinya.
  5. From Good to Great Data Science, Part 1: Correlations and Confidence
    Seorang data saintis handal perlu memiliki dasar matematis dan intuisi yang memadai, agar tidak mudah terjerumus dalam berbagai kesalahan dalam interpretasi data. Dalam bagian pertama dari rangkaian artikel ini dijelaskan secara menarik mengenai 2 kesalahan umum yang sering ditemui, dengan menggunakan contoh data dari bidang kesehatan.
  6. [DATASET] IBM Research releases ‘Diversity in Faces’ dataset to advance study of fairness in facial recognition systems
    Tantangan dalam training AI model tergambar dengan jelas dalam teknologi pengenalan wajah, terutama dalam hal fairness. Agar sistem pengenalan wajah dapat bekerja seperti yang diinginkan, data pelatihan harus beragam dan memberikan cakupan yang luas. Gambar harus mencerminkan distribusi fitur di wajah yang kita lihat di seluruh dunia.
    IBM Research merilis dataset besar dan beragam yang disebut Diversity in Faces (DiF) untuk mendukung studi tentang keadilan dan akurasi dalam teknologi pengenalan wajah. DiF menyediakan dataset 1 juta gambar wajah manusia ter-anotasi.

Rilis Produk

  1. Introducing Scylla Open Source 3.0
    Scylla adalah basis data NoSQL open source yang menawarkan skala horisontal dan toleransi kesalahan sebagaimana Apache Cassandra, dengan 10X throughput dan latensi yang rendah dan stabil. Diimplementasikan dalam C ++, desain Scylla yang lebih dekat dengan perangkat keras mengurangi jumlah node basis data yang anda butuhkan secara signifikan untuk beban kerja yang dinamis dengan berbagai kombinasi perangkat keras.
  2. Apache BookKeeper 4.9.0 released
    Rilis 4.9.0 ini adalah milestone baru untuk komunitas Apache BookKeeper. Beberapa update penting diantaranya adalah : perubahan besar dalam manajemen metadata, seperti refactoring metadata ledger untuk membuatnya immutable, menyimpan metadata ledger dalam format biner dan implementasi driver metadata baru berdasarkan Etcd. Selain itu, ada peningkatan besar dalam manajemen memori, tooling, dan dokumentasi.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2018
  • Comments Off on Cloudera dan Hortonworks Sepakat Untuk Merger
Big Data, Hadoop, Implementation

Cloudera dan Hortonworks Sepakat Untuk Merger

Cloudera dan Hortonworks, dua perusahaan penyedia Big Data Platform berbasiskan Hadoop, menyatakan akan bergabung dalam merger dengan kesepakatan senilai $ 5,2 miliar.

Tom Reilly, CEO dari Cloudera mengatakan bahwa dengan penggabungan investasi Hortonworks dalam end-to-end data management dengan investasi Cloudera dalam data warehouse dan machine learning akan memudahkan pelanggan untuk melakukan transformasi digital.

Sementara itu, Rob Bearden, CEO dari Hortonworks menyatakan bahwa penggabungan ini akan membantu perusahaan berinvestasi lebih banyak untuk terus berkembang dan bersaing dalam pasar streaming dan IoT, manajemen data, data warehouse, machine learning/AI dan cloud hybrid.

Pemegang saham Cloudera akan memiliki 60 persen dari perusahaan gabungan, sedangkan pemegang saham Hortonworks yang akan memperoleh 40 persennya. Pemegang saham Hortonworks akan mendapatkan 1.305 saham Cloudera untuk setiap saham yang dimiliki.

Dalam perusahaan baru yang akan dibentuk ini akan memiliki komposisi:

  • Chief Executive Officer:  Tom Reilly – CEO Cloudera
  • Chief Operating Officer: Scott Davidson – COO Hortonworks
  • Chief Finance Officer: Jim Frankola – CFO Cloudera.
  • Chief Product Officer: Arun C.Murthy – CPO Hortonworks.

Sedangkan  Rob Bearden, CEO dari Hortonworks akan menjadi anggota dari board of director yang akan dipimpin oleh Marty Cole dari Cloudera

Sumber:
https://www.businesswire.com/news/home/20181003005869/en/

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Nov 16 / 2017
  • Comments Off on Seputar Big Data Edisi #38
Apache, Big Data, Forum Info, Hadoop, Storm

Seputar Big Data Edisi #38

Beberapa tema yang tersaji minggu ini adalah mencegah diminishing return big data, Bill Gates yang mendonasikan USD 50 juta untuk riset Alzheimer, bagaimana menghitung nilai ekonomi informasi sebagai aset, dan meledaknya nilai investasi big data di bidang energi. Pada bagian teknis ditampilkan tutorial TensorFlow Core API, membangun ekosistem mikroservis menggunakan Kafka dan KSQL, tutorial setting dan aktivasi Kerberos di cluster HDFS dengan Ambari, dan Free Ebook mengenai data sains. Rilis minggu ini Apache Phoenix 4.13 dan Apache CouchDB 2.1.1 serta 1.7.1.

Seputar Big Data edisi #38 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan November 2017

Artikel dan Berita

  1. What to do when big data gets too big
    Produksi data yang begitu besar pada suatu ketika mungkin mencapai titik jenuh, di mana manfaat yang didapat dari data akan mulai menurun. Ada dua pemicu utama permasalahan ini, yaitu data diproduksi tanpa tujuan atau business case yang jelas, atau data disajikan dengan kompleksitas yang sangat tinggi sehingga user kesulitan dalam penggunaannya. Artikel ini membahas langkah-langkah yang dapat diambil untuk tetap memaksimalkan manfaat data.
  2. Gates Bets on Big Data in Alzheimer’s Fight
    Bill Gates mengumumkan donasi sebesar USD 50 juta untuk mempelajari dan mengembangkan pengobatan Alzheimer, dengan menekankan pada peran big data dalam pencegahan dan pengendalian penyakit tersebut. Dana tersebut akan disalurkan ke Dementia Discovery Fund (DDF), sebuah kerja sama antara pemerintah, badan amal dan industri kesehatan.
  3. Turn Your Big Data into a Valued Corporate Asset
    Meskipun dunia telah memasuki era informasi dan banyak eksekutif dan pengambil keputusan menyadari bahwa informasi adalah salah satu aset terpenting dalam menjalankan bisnis, namun dari sisi akunting informasi masih belum dianggap sebagai aset. Hal ini berpengaruh terhadap cara pandang dan kedisiplinan dalam mengumpulkan, mengolah dan memanfaatkan informasi. Untuk itu saat ini terdapat sebuah bidang yang disebut infonomics, yaitu sebuah teori dan bidang ilmu yang menekankan dan menentukan pentingnya nilai ekonomi dari informasi. Artikel ini menjelaskan secara singkat mengenai 6 model valuasi informasi yang baru-baru ini dirumuskan Gartner bersama dengan para ahli valuasi, akuntan, dan ekonom.
  4. Big Data and Artificial Intelligence Deals in the Energy Sector Are Up Tenfold in 2017
    Investasi sektor energi di bidang big data dan AI meningkat sampai 10 kali lipat tahun ini. Laporan yang dirilis oleh BDO, sebuah perusahaan akuntansi global, menunjukkan bahwa merger dan akuisisi yang melibatkan perusahaan energi dan startup AI meningkat dari USD 500 juta di kuartal pertama 2017, ke USD 3.5 milyar pada kuartal kedua.

Tutorial dan Pengetahuan Teknis

  1. TensorFlow: What Parameters to Optimize?
    Mempelajari TensorFlow Core API, yang merupakan API level paling rendah, adalah langkah yang tepat untuk mulai mempelajari TensorFlow, karena kita dapat memahami kernel library TensorFlow. Berikut ini contoh paling sederhana dari TensorFlow Core API, di mana kita membuat dan melatih model regresi linear.
  2. Apache Storm: The Hadoop of Real-Time
    Pada dasarnya, Hadoop dan Storm digunakan untuk menganalisis data yang besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sementara Hadoop bagus dalam segala hal kecuali dalam perhitungan real-time.
  3. Building a Microservices Ecosystem with Kafka Streams and KSQL
    Saat ini proses bisnis dijalankan sebagai gabungan dari berbagai ekosistem : kumpulan aplikasi dan servis yang saling berinteraksi mencapai sebuah tujuan bisnis. Ada beberapa keuntungan membuat ekosistem tersebut menjadi event-driven.
    Artikel ini menjelaskan dengan baik motivasinya, dan bagaimana membangun sistem transaksional asynchronous di atas Kafka stream dan KSQL.
  4. Ambari Kerberos support for HBase Part 1
    Seri pertama dari serangkaian artikel yang menjelaskan mengenai langkah demi langkah aktivasi autentikasi Kerberos untuk cluster yang menggunakan Ambari. Blog ini secara khusus akan membahas bagaimana cara men-deploy cluster Hadoop (HDFS + YARN) dengan Kerberos aktif yang kemudian akan digunakan untuk men-deploy cluster HBase dengan Kerberos yang diaktifkan pada posting-posting berikutnya.
  5. [FREE EBOOK] Data Science Live: An Open-Source Book About Data Science, Analytics, and More
    Online ebook untuk membantu mempelajari data sains, machine learning dan data analytics, disertai berbagai contoh kasus nyata dalam R. Mencakup di antaranya : Exploratory data analysis, data preparation, pemilihan variabel, kinerja model, dan

Rilis Produk

  1. Apache Phoenix 4.13 released
    Apache Phoenix 4.13, yang mencakup perbaikan bug kritikal terkait penulisan SYSTEM.CATALOG pada saat connecting, beberapa bug fixes terkait row deletion handling, dan lain-lain.
  2. Apache CouchDB 2.1.1 and 1.7.1 released
    Apache CouchDB mengumumkan rilis 2.1.1 dan 1.7.1, yang merupakan security release yang memperbaiki beberapa isu kritikal. Update ke versi ini bersifat mandatory.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 02 / 2017
  • Comments Off on Seputar Big Data Edisi #36
Apache, Big Data, Blockchain, Hadoop, Implementation, Spark

Seputar Big Data Edisi #36

Beberapa artikel teknis menarik mengenai Keras – sebuah Python Deep Learning library, pemanfaatan Apache Flink untuk risk engine, perbandingan antara Apache Arrow, Parquet dan ORC, serta tutorial mengenai penggunaan Spark dan SparkSQL untuk memproses file csv. Dari segmen news ditampilkan penerapan big data analytics oleh PT Pos Indonesia, MIT yang membangun FeatureHub untuk crowdsourcing big data analytics, dan implikasi blockchain bagi industri asuransi. Tidak ketinggalan juga beberapa rilis open source, diantaranya yaitu Apache Spark 2.1.2. Hive, Pandas, dan OpenNLP.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 4 bulan Oktober 2017.

Artikel dan Berita

  1. The Amazing Ways Spotify Uses Big Data, AI And Machine Learning To Drive Business Success
    Spotify, layanan musik on-demand terbesar di dunia, dikenal sebagai pendobrak batas teknologi. Perusahaan musik digital dengan lebih dari 100 juta pengguna ini terus meningkatkan kemampuan layanan dan teknologinya melalui beberapa akuisisi serta pemanfaatan big data, kecerdasan buatan dan machine learning.
  2. Crowdsourcing big-data analysis
    Langkah pertama dalam proses analisis big data dalah identifikasi fitur, yaitu data poin yang memiliki nilai prediktif, yang berguna dalam proses analisis. Langkah ini biasanya memerlukan intuisi manusia. Peneliti MIT membangun sebuah sistem kolaborasi, yang diberi nama FeatureHub. Dengan alat ini diharapkan proses identifikasi fitur dapat dilakukan secara efisien dan efektif. Dengan FeatureHub, para data saintis dan domain expert dapat masuk ke dalam sebuah situs untuk mereview permasalahan dan mengajukan fitur yang akan digunakan. FeatureHub kemudian akan melakukan pengetesan berbagai kemungkinan kombinasi fitur tersebut terhadap target data, untuk menentukan kombinasi mana yang paling tepat untuk permasalahan tertentu.
  3. Keuangan Inklusif, PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  4. What PredictionIO does for machine learning and Spark
    Apache PredictionIO dibangun di atas Spark dan Hadoop, dan menyediakan template yang dapat dikustomisasi untuk task-task yang umum.
    Aplikasi mengirimkan data ke server event untuk melakukan training model, kemudian meng-query engine untuk mendapatkan prediksi berdasarkan model tersebut. Kemudahan apa yang ditawarkan oleh Apache PredictionIO?
  5. Blockchain Implications Every Insurance Company Needs To Consider Now
    Teknologi blockchain sangat berpotensi mengguncang industri asuransi dan mengubah cara berbagi data, memproses klaim dan mencegah fraud. Namun implementasinya di industri asuransi saat ini masih dalam tahap eksplorasi awal. Untuk dapat merealisasikan potensi blockchain yang sangat besar implikasinya tersebut, Industri asuransi perlu secara aktif bekerja sama dengan para pionir, regulator, dan pakar-pakar industri. Perusahaan-perusahaan asuransi pun harus mulai mencoba memanfaatkan blockchain dalam proses internal mereka untuk mendapatkan pembelajaran guna memanfaatkan teknologi ini.

Tutorial dan Pengetahuan Teknis

  1. 7 Steps to Mastering Deep Learning with Keras
    Apakah anda tertarik untuk mempelajari Keras? Apakah Anda sudah memiliki pemahaman tentang bagaimana neural network bekerja? Artikel berikut ini menyajikan tujuh langkah praktis untuk menguasai dasar-dasar Keras dengan mudah dan cepat.
  2. StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
    Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.
  3. Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
    Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.
  4. ETL Pipeline to Transform, Store and Explore Healthcare Dataset With Spark SQL, JSON and MapR-DB
    Tutorial ini menjelaskan cara menggunakan Spark untuk membaca data dari file CSV, mengubahnya menjadi skema yang terdefinisi dengan baik (dalam hal ini Scala Case Class), dan melakukan query menggunakan SparkSQL. Ada juga contoh kode untuk menyimpan data di MapR-DB dan membacanya kembali.

Rilis Produk

  1. Spark Release 2.1.2
    Spark 2.1.2 baru saja dirilis. Ada lebih dari 100 perbaikan bug dan berbagai penyempurnaan pada versi ini.
  2. Pandas v0.21.0
    Ini adalah major rilis dari 0,20,3 mencakup sejumlah perubahan, deprecation, fitur baru, penyempurnaan, dan peningkatan kinerja API serta sejumlah besar perbaikan bug. User sangat disarankan melakukan upgrade ke versi ini.
  3. Hive – Version 2.3.1
    Hive versi 2.3.1 dirilis minggu lalu dengan beberapa bug fixing dan penyempurnaan.
  4. Apache OpenNLP 1.8.3
    Rilis ini memperkenalkan beberapa fitur baru, perbaikan bug, dan penyempurnaan. Versi ini memerlukan Java 1.8 dan Maven 3.3.9.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 31 / 2017
  • Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri
Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.


Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :


Vinka
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:123
Tertarik dengan Big Data beserta ekosistemnya? Gabung