:::: MENU ::::

Seputar Big Data Edisi #10

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan april 2017

Artikel dan Berita

  1. UK government using R to modernize reporting of official statistics
    UK Government Digital Service, sebuah badan pemerintah Inggris, meluncurkan project untuk mengotomasi proses pelaporan statistik pemerintah dengan menggunakan R. Project ini bertujuan untuk menyederhanakan pelaporan dengan cara mengotomasi proses ekstraksi data, analisis dan pembuatan dokumen.
  2. Hadoop in finance: big data in the pursuit of big bucks
    Bagaimana Hadoop dan teknologi big data membantu industri keuangan untuk meminimalisir resiko transaksi dan memaksimalkan keuntungan.
  3. How GoDaddy powers its team with big data analytics
    GoDaddy, penyedia layanan web hosting dan registrasi domain name internet yang memiliki 14.7 juta pelanggan, memproses lebih dari 13 terabytes data. GoDaddy membangun online self service analytics dalam rangka memperbaiki layanan dan mengantisipasi berbagai issue.
  4. Predictive analytics can stop ransomware dead in its tracks
    Ransomware menjadi salah satu ancaman yang serius di era digital ini. Data penting dapat terancam hilang begitu saja jika tuntutan penjahat saiber yang menyanderanya tidak dipenuhi. Kerugian yang ditimbulkan sangatlah besar, baik dari sisi biaya, waktu, maupun reputasi. Seperti yang hampir dialami oleh pemerintah kota Livingston, Michigan 2 tahun yang lalu, ketika mereka terancam kehilangan data perpajakan selama 3 tahun. Predictive analytics dan machine learning menjadi salah satu solusi untuk mengantisipasi ancaman keamanan semacam ini.
  5. Look before you leap: 4 hard truths about IoT
    Internet of Things membuka berbagai peluang yang menarik dan disruptive, sehingga menjadi salah satu teknologi yang paling berkembang dan banyak diadopsi saat ini. Namun ada beberapa hal yang perlu diperhatikan untuk dapat memanfaatkan teknologi ini dengan maksimal, di antaranya adalah kualitas data, keamanan, dan standard yang masih terus berubah.
  6. How companies and consumers benefit from AI-powered networks
    Sebagai pemegang 12.500 lebih paten, 8 Nobel, dan pengalaman 140 tahun dalam pengembangan dan ujicoba berbagai ide 'liar', tidaklah mengherankan jika AT&T menjadi salah satu pemain penting dalam bidang AI. Apa saja penerapan AI dan machine learning dalam bisnis AT&T dan apa keuntungan yang dirasakan perusahaan maupun konsumen?

Tutorial dan pengetahuan teknis

  1. Must-Read Free Books for Data Science
    Beberapa free E-book yang berkaitan dengan data science, yang jangan sampai anda lewatkan.
  2. Python Pandas Tutorial: DataFrame Basics
    DataFrame adalah struktur data yang paling umum digunakan dalam Python Pandas. Karena itu, sangat penting untuk mempelajari berbagai hal tentang penggunaan DataFrame tersebut. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.
  3. How can I bulk-load data from HDFS to Kudu using Apache Spark?
    Seperti yang disebutkan dalam judulnya, video tutorial ini menjelaskan mengenai penggunaan Spark untuk mengunggah data secara bulk dari HDFS ke Kudu.
  4. Federated Learning: Collaborative Machine Learning without Centralized Training Data
    Google research memperkenalkan metode machine learning terbaru yaitu federated learning. Dengan metode ini, tidak perlu lagi mengumpulkan data dari device yang digunakan oleh user untuk digunakan sebagai data training. Saat ini federated learning sedang diujicobakan melalui Gboard on Android.
  5. Accordion: HBase Breathes with In-Memory Compaction
    Aplikasi-aplikasi yang menggunakan Apache HBase dituntut untuk dapat memenuhi kebutuhan kinerja dalam read-write prosesnya. Idealnya, aplikasi tersebut dapat memanfaatkan kecepatan in-memory database, dengan tetap mempertahankan jaminan reliabilitas persistent storage. Accordion adalah sebuah algoritma yang diperkenalkan dalam HBase 2.0, yang ditujukan untuk dapat memenuhi tuntutan tersebut.
  6. Feature Engineering for Churn Modeling
    Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

Rilis produk

  1. Apache Zeppelin Release 0.7.1
    Beberapa perbaikan yang dilakukan dalam rilis ini adalah stabilitas proses restart interpreter, perbaikan interpreter python, perbaikan bug untuk table/chart rendering. 24 kontributor menyumbangkan lebih dari 80 patch, dan lebih dari 70 issue berhasil diselesaikan.
  2. Storm 1.1.0 released
    Rilis ini mencakup supports native Streaming SQL, perbaikan integrasi ke Apache Kafka, PMML support, Druid Integration, OpenTSDB Integration, AWS Kinesis Support, HDFS spout, Flux Improvements, dll.
  3. MapR Releases New Ecosystem Pack with Optimised Security and Performance for Apache Spark
    MEP (MapR Ecosystem Pack) adalah sekumpulan project ekosistem open source yang memungkinkan aplikasi big data untuk berjalan di atas MapR Converged Data Platform dengan kompatibilitas internal. MEP Versi 3.0 mencakup perbaikan dari sisi Spark security, konektor Spark ke MapR-DB dan HBase, update dan integrasi dengan Drill, dan versi Hive yang lebih cepat.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Tertarik dengan Big Data beserta ekosistemnya? Gabung