:::: MENU ::::

Posts Categorized / Storm

  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung