Seputar Big Data Edisi #9 - idBigData idBigData

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2017

Artikel dan Berita

Amid Shortages in Apache Spark Skillsets, Training Options Proliferate
Salah satu teknologi yang paling ‘hot’ di bidang big data adalah Apache Spark. Saat ini kebutuhan terhadap implementasi Spark sangat tinggi, namun ketersediaan tenaga-tenaga ahli di bidang tersebut masih sangat terbatas. Hal ini menjadi pendorong munculnya banyak training mengenai Spark, yang banyak diantaranya adalah free training.
Microsoft moves ahead on cloud, data, AI fronts
Dalam ajang Hadoop Summit 2017, Microsoft meluncurkan beberapa hal terkait big data. Di antaranya adalah konektor Spark ke DocumentDB. DocumentDB adalah distributed data store yang mendukung SQL dan kompatibel dengan antarmuka query MongoDB. Microsoft juga mengumumkan peningkatan dukungan security untuk Hive LLAP (melalui HDP 2.6) dan Spark, peningkatan dukungan streaming dari Spark ke Azure Event Hub, dan lain sebagainya.
How Adobe used its huge data bank to build Sensei, an AI tool for creatives
Tak mau ketinggalan dengan raksasa teknologi seperti Google, Amazon dan Microsoft dalam pengembangan AI dan bots, Adobe meluncurkan layanan AI dan virtual assistant, yang diberi nama Sensei. Melengkapi fitur yang telah ada di Creative Cloud, Sensei menyediakan kemampuan mengedit ekspresi wajah menggunakan fitur Face Aware Editing di Photoshop. Sensei akan dapat ‘berbicara’ dan memandu penggunanya seperti guru profesional, berkat jutaan sesi editing foto dan video yang direkam oleh Adobe. Sensei juga akan mendukung teknologi Adobe yang lain, seperti melukis dalam VR dengan Project Dali, dan photo restyling dengan Artistic Tool.
Abundant Data: The Currency for the Digital Transformation
Beberapa poin penting mengenai berlimpahnya data dan perannya dalam mendorong transformasi digital, dari Gartner Data and Analytics Summit, yang diselenggarakan awal Maret 2017 lalu di Texas.
Government Sponsored Data Analytics in Healthcare and Life Sciences
Data analytics di bidang kesehatan dan life science menjadi sebuah kebutuhan yang tidak terhindarkan. Pemerintah memegang peran yang penting dalam implementasi project-project terkait data analytics di bidang tersebut. Artikel ini mengulas beberapa di antaranya.
MIT-Stanford project uses LLVM to break big data bottlenecks
Salah satu permasalahan dalam memaksimalkan penggunaan multicore system adalah, semakin mudah sebuah big data framework digunakan, akan semakin sulit pipeline yang dihasilkan untuk dijalankan secara paralel sebagai sebuah unit. Untuk itu para peneliti CSAIL MIT bekerja sama dengan Infolab Stanford membangun Weld, yang men-generate code untuk workflow data analisis yang dapat berjalan secara efisien menggunakan framework compiler LVVM.
On computational ethics
Tulisan mengenai etika dan filosofi dalam bidang komputasi dan AI. Mungkinkah etika diterapkan dalam komputasi? Bagaimana?
Slides and videos Spark Summit East, Boston
Video dan presentasi yang menarik dari pembicara-pembicara terkemuka, di acara Spark Summit East, Boston, Februari 2017.

Tutorial dan Pengetahuan Teknis

Finding Influencers on Twitter
Menjelaskan secara singkat langkah menentukan influencer di Twitter.
Data science for Doctors: Inferential Statistics Exercises (part-2)
Data sains memperbaiki kualitas pengambilan keputusan. Dokter serta peneliti perlu membuat keputusan penting hampir tiap hari, sehingga data sains akan sangat membantu mereka. Tulisan ini adalah bagian dari serangkaian tutorial data sains yang ditujukan khususnya untuk para dokter dan tenaga medis.
Big Data Processing Using Apache Spark - Part 6: Graph Data Analytics with Spark GraphX
Bagian ke 6 dari serangkaian artikel mengenai pemrosesan data dalam Spark. Dari artikel ini kita dapat mempelajari tentang :
- pengolahan dan analisis data grafis dan library Apache Spark GraphX sebagai solusinya
- algoritma seperti PageRank, Connected Components dan Triangle Counting
- komponen dan API dari Spark GraphX
- contoh aplikasi menggunakan Spark GraphX
Python & R vs. SPSS & SAS
Artikel ini membandingkan empat bahasa (Python & R vs. SPSS & SAS) dalam hal : metode dan teknik, kemudahan belajar, visualisasi, support dan biaya. Pembahasan difokuskan pada aspek bahasa, sedangkan antarmuka pengguna pada SAS Enterprise Miner dan SPSS Modeler tidak tercakup dalam ruang lingkup pembahasan.
Neural Networks: How they work, and how to train them in R
Dengan meningkatnya perhatian pada penerapan deep learning, maka neural network kembali menjadi bahasan yang menarik. Neural network adalah engine prediktif yang mendasari deep learning, namun tidak mudah untuk memahami cara kerjanya. Artikel ini menyebutkan beberapa sumber yang dapat memberikan penjelasan dan contoh mengenai neural network dan penerapannya dalam R.

Rilis produk

Apache Drill 1.10.0
Beberapa fitur tambahan adalah perintah 'create temporary table as..', peningkatan dukungan untuk timestamp dalam file Parquet, perbaikan fault tolerance di atas JDBC, dukungan untuk autentikasi Kerberos, dan lain sebagainya.
Python SDK released in Apache Beam 0.6.0
Selain dukungan Python SDK, rilis Apache Beam minggu ini juga menambahkan dukungan untuk Apache HBase, meningkatkan support untuk model Beam dalam implementasi runner, dan lain-lain.
release of Kudu 1.3.0.
Apache Kudu 1.3 adalah rilis minor yang menambahkan berbagai fitur baru, perbaikan, perbaikan bug, dan optimasi di atas Kudu 1.2.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂