Seputar Big Data edisi #3 - idBigData idBigData

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga dan keempat bulan Januari 2017.

Artikel dan Berita

Scourge of unsecure database deletions spreading : Hadoop instances deleted with no ransom sought.
Serangan ransomware yang mulai sejak akhir tahun lalu, dan pada awalnya menimpa MongoDB, kemudian ElasticSearch, minggu lalu kembali meluas. Kali ini melibatkan juga server-server CouchDB dan Hadoop. Berbeda dengan serangan sebelumnya, serangan ke Hadoop cluster ini tidak disertai tuntutan tebusan atau catatan apapun. Ahli security Victor Gevers menyebutkan bahwa insiden ini sepertinya vandalisme. Serangan ini dikhawatirkan masih akan meluas, mengingat sampai tanggal 20 Januari lalu terhitung 34500 MongoDB, 4600 Elasticsearch, dan 126 Hadoop instances dihapus. Kejadian ini adalah akibat dari instalasi database tanpa mengaktifkan security, pada cluster yang terhubung ke internet.
How MTV And Nickelodeon Use Real-Time Big Data Analytics To Improve Customer Experience
Viacom, pemegang merk-merk ternama seperti Comedy Central, Nickelodeon dan MTV, merupakan salah satu perusahaan media terbesar di dunia, yang menyajikan lebih dari 170 saluran di 160 negara. Untuk dapat bersaing dalam kompetisi global, Viacom berusaha memposisikan diri sebagai perusahaan yang 'data driven', dengan memaksimalkan penggunaan data dalam pengambilan keputusan. Dan Morris, direktur senior product analytics Viacom, menguraikan mengenai bagaimana mereka menggabungkan berbagai data yang mereka miliki dengan teknik real-time analytics yang mutakhir, untuk memperbaiki viewer experience dan meningkatkan customer retention.
Using Big Data to predict talent
Kathleen Yu, salah satu pemenang Mansmith Young Market Masters Awards (YMMA) 2017, akan berbagi pengalaman mengenai bagaimana penggunaan analisa big data bagi sebuah talent management.
5 Solid Use Cases of IOT Analytics that Makes it Truly Innovative!
IoT adalah teknologi dimana perangkat terhubung satu sama lainnya, dan dimana data dari semua perangkat ini dikumpulkan untuk suatu kebutuhan. IoT Analytics adalah kunci yang akan membantu untuk memperoleh nilai yang terkandung didalamnya dari data-data yang mengalir setiap harinya.
How These Banking, Energy, and Pharma Firms Use Spark
Spark merupakan salah satu framework yang banyak diadopsi kalangan industri, dan menjadi salah satu teknologi yang banyak digunakan untuk kebutuhan analytics. Beberapa perusahaan besar yang memanfaatkan Spark adalah perusahaan kartu kredit Capital One, raksasa obat Roche, dan DNV GL, sebuah perusahaan consulting di bidang energi. Berikut ini pengalaman mereka dalam memanfaatkan Spark untuk kebutuhan analytics mereka.
4 Ways Uber Movement Data Can Be Used
Awal bulan ini Uber merilis Uber Movement, layanan data yang menyajikan data pergerakan armada Uber. Langkah ini disambut dengan sangat antusias oleh para pengelola kota dan pengambil kebijakan, sebab meskipun dipandang masih sangat terbatas dan teragregasi, data tersebut dapat memberi manfaat pada perencanaan kota. Berikut ini beberapa cara data Uber tersebut dapat dimanfaatkan.
Text analysis of Trump's tweets confirms he writes only the (angrier) Android half
David Robinson, data scientist di Stack Overflow menganalisis tweet dari account Donald Trump (@therealdonaldtrump), dan menemukan pola bahwa tweet-tweet tersebut dibuat oleh 2 orang yang berbeda, dengan 2 device berbeda : android dan iphone. Dalam tulisannya David menunjukkan analisis yang dilakukan, lengkap dengan contoh tweet, source code dan library R yang digunakannya.
The State of Big Data 2017
Di awal tahun 2017 ini banyak artikel yang menulis mengenai perkiraan posisi atau status big data dan teknologinya di tahun 2017 ini. Artikel ini salah satu yang memaparkan beberapa prediksi mengenai perkembangan dan adopsi big data di tahun 2017.

Tutorial dan pengetahuan teknis

6 areas of AI and Machine Learning to watch closely
Artificial Intelligence adalah teknologi yang berkembang sangat pesat, dan melibatkan banyak bidang ilmu dalam implementasinya. Artikel ini menjelaskan mengenai definisi umum AI dan apa saja 6 bidang yang perlu kita cermati dalam perkembangan teknologi ini di masa depan.
Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
Anda tertarik untuk memahami dan mengimplementasikan sendiri algoritma machine learning? Perlu contoh-contoh untuk mengimplementasikannya? Beberapa alasan mengapa kita mungkin ingin mengimplementasikan sendiri sebuah algoritma adalah : a) memahami cara kerja sebuah algoritma, b) mengimplementasikannya dengan cara yang lebih efisien, c) menambahkan fitur, d) mengatasi isu lisensi maupun platform, e) mengintegrasikan secara lebih 'natural' ke dalam software library, dan lain sebagainya. Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.
Exploring Apache Spark 2.1 and Zeppelin in Hortonworks
Apache Spark 2.1 telah dirilis pada bulan Desember 2016 lalu. Fokus utama dari rilis ini adalah perbaikan dalam Structured Streaming dan Machine Learning.
CRAN now has 10,000 R packages. Here's how to find the ones you need.
CRAN yang merupakan repositori global paket open source untuk menambah kemampuan R, telah mencapai sebuah tonggak sejarah. Lebih dari 10.000 paket R tersedia untuk di download.
Performance Tuning of an Apache Kafka/Spark Streaming System
Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.
A Visual Introduction to Machine Learning
Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Menggunakan kumpulan data tentang perumahan, dibuatlah model machine learning untuk membedakan antara pemukiman di New York dan San Francisco. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.
Pandas Cheat Sheet: Data Science and Data Wrangling in Python
Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

Rilis produk

The Apache Software Foundation Announces Apache® Eagle™ as a Top-Level Project
The Apache software Foundation (ASF) pada 10 Jan 2017 lalu mengumumkan bahwa Apache Eagle telah meningkat dari status incubating menjadi TLP (top level project). Apache Eagle adalah solusi monitoring dan alerting untuk mengidentifikasi isu-isu yang terkait dengan security dan performance dalam platform-platform big data seperti Hadoop, Spark, dan lain sebagainya.
Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark
ntel meng-opensource-kan BigDL, sebuah library deep learning terdistribusi yang berjalan di atas Apache Spark. BigDL memanfaatkan cluster Spark untuk menjalankan perhitungan deep learning dan menyederhanakan data loading dari dataset besar yang disimpan di Hadoop. Library BigDL mendukung Spark versi 1.5, 1.6 dan 2.0 dan memungkinkan deep learning untuk dimasukkan ke dalam program berbasis Spark yang sudah dibuat. BigDL berisi metode untuk mengkonversi RDDS Spark ke BigDL DataSet dan dapat digunakan langsung dengan Spark ML Pipelines.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂