:::: MENU ::::

Posts Categorized / Storm

  • Apr 26 / 2019
  • Comments Off on Seputar Big Data edisi #70
Apache, Artificial Intelligece, Hadoop, Spark, Storm

Seputar Big Data edisi #70

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan April 2019.

Artikel dan berita

  1. EU votes to create gigantic biometrics database
    Parlemen Eropa minggu lalu memilih untuk menghubungkan serangkaian sistem kontrol perbatasan, migrasi, dan penegakan hukum ke dalam database raksasa, yang berisi data biometrik dari warga negara UE dan non-UE. Sistem ini akan menjadi salah satu basis data pelacakan orang terbesar di dunia setelah sistem yang digunakan oleh pemerintah Cina dan sistem Aadhaar di India.
  2. MongoDB extends into a new mobile Realm
    MongoDB mengumumkan akuisisi terhadap Realm, database lightweight yang dioptimalkan untuk perangkat seluler. Realm adalah database embedded berbasis objek yang sering diposisikan sebagai alternatif dari SQLite yang berusia 20 tahun.
  3. Harvard Medical School’s AI estimates protein structures up to a million times faster than previous methods
    Resep pembentukan protein (komponen dasar dari jaringan, enzim dan antibodi) tercantum dalam DNA. Namun DNA hanya menunjukkan komponen apa saja yang membentuknya, bukan struktur atau bentuk akhir dari protein tersebut. Para ahli memperkirakan bahwa diperlukan 13.8 miliar tahun untuk mencari tahu semua konfigurasi yang mungkin dari ribuan amino acid untuk menentukan struktur yang paling tepat. Para peneliti di Harvard Medical School berhasil membuat sebuah program yang dapat memberikan prediksi struktur protein tersebut hingga jutaan kali lebih cepat dari sistem yang ada sekarang, tanpa mengurangi akurasi.
  4. How Can Artificial Intelligence Help Fintech Companies?
    Teknologi keuangan dan perusahaan fintech berada di ujung tombak perkembangan teknologi industri keuangan. Salah satu teknologi yang banyak digunakan adalah kecerdasan buatan. Dengan AI, perusahaan di seluruh dunia mulai melakukan hal-hal luar biasa. Apa saja pemanfaatan AI dalam bidang fintech?
  5. Using AI to Make Knowledge Workers More Effective
    Berbagai kemampuan baru AI membuka kemungkinan kolaborasi antara mesin dan manusia. Dengan AI, mesin dapat memperluas keahlian manusia dan menghasilkan tenaga ahli baru. Sistem semacam ini diperkirakan mempengaruhi 48% tenaga kerja Amerika yang termasuk knowledge-worker, dan lebih dari 230 juta knowledge-worker di dunia. Berikut ini beberapa cara memanfaatkan AI untuk meningkatkan efektifitas tenaga kerja tersebut.
  6. Become a Vital Asset to an Organization: Get a Big Data Hadoop and Apache Spark Developer Certification
    Dalam dunia yang semakin bergantung pada data dan teknologinya, kebutuhan terhadap tenaga yang memiliki kemampuan dalam pengolahan dan analisis data sangat besar. Oleh karenanya, salah satu cara untuk menjadi ‘aset’ penting yang banyak dibutuhkan adalah dengan mendapatkan sertifikasi di bidang teknologi big data, di antaranya Hadoop dan Spark developer.

Tutorial dan pengetahuan teknis

  1. Data Visualization in Python: Matplotlib vs Seaborn
    Seaborn dan Matplotlib adalah dua library Python untuk visualisasi yang paling terkenal. Seaborn menggunakan lebih sedikit sintaks dan memiliki tema default yang memukau dan Matplotlib lebih mudah disesuaikan dengan mengakses kelas-kelasnya.
  2. Fine-Grained Authorization with Apache Kudu and Impala
    Apache Impala memungkinkan otorisasi tingkat object (fine-grained) terhadap semua tabel yang dikelolanya, termasuk tabel Apache Kudu, melalui Apache Sentry. Dalam artikel ini dijelaskan bagaimana menggabungkan otorisasi tersebut dengan otorisasi fine-grained yang dimiliki Apache Kudu untuk mendapatkan deployment multi-tenant yang aman.
  3. Apache Storm Tutorial
    Tutorial dasar mengenai Apache Storm beserta contoh implementasinya.
  4. Architectural Innovations in Convolutional Neural Networks for Image Classification.
    CNN terdiri dari dua elemen yang sangat sederhana, yaitu layer convolutional dan layer pooling. Meskipun sederhana, terdapat hampir tak terbatas cara untuk mengatur layer ini. Dalam tutorial ini Anda akan menemukan beberapa arsitektur kunci untuk penggunaan jaringan saraf convolutional untuk menyelesaikan permasalahan klasifikasi gambar.
  5. [DATASET] Stanford ML Release MRNet Knee MRI Dataset
    Stanford ML Group yang dipimpin oleh Andrew Ng telah merilis MRNet Dataset, yang berisi lebih dari 1000 hasil pemindaian MRI lutut beranotasi serta mengumumkan kompetisi terbuka untuk pembuatan model yang secara otomatis dapat menginterpretasikan data tersebut.

Rilis Produk

  1. Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation
    Dalam proses membangun kembali platform Big Data-nya, Uber menciptakan library Spark open-source bernama Hadoop Upserts dan Incremental (Hudi). Pustaka ini memungkinkan pengguna untuk melakukan operasi seperti memperbarui, menyisipkan, dan menghapus data Parquet yang ada di Hadoop. Setelah meng-opensource-kan Hudi pada 2017 lalu, baru-baru ini Uber menyerahkan Hudi kepada Apache Software Foundation untuk memperluas jangkauan dan dukungan opensource terhadap Hudi.
  2. Apache Accumulo 1.9.3
    Apache Accumulo 1.9.3 mengandung perbaikan bug untuk log write-ahead, compactions, dan lain sebagainya. Pengguna versi sebelumnya disarankan untuk mengupgrade ke versi ini (lihat rilis note untuk keterangan lebih detail).
  3. Apache Kylin 3.0.0-alpha released
    Rilis ini adalah versi alpha dari Kylin v3.0, yang memperkenalkan fitur Real-time OLAP. Seluruh perubahan dalam rilis ini dapat ditemukan di: https://kylin.apache.org/docs/release_notes.html

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on Seputar Big Data Edisi #52
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, Spark, Storm

Seputar Big Data Edisi #52

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Maret 2018

Artikel dan Berita

  1. Cambridge Analytica harvested data from millions of unsuspecting Facebook users
    Cambridge Analytica, perusahaan yang melakukan profiling pemilih dalam kampanye Donald Trump, diduga mengumpulkan informasi pribadi milik lebih dari 50 juta profil Facebook, yang kemudian mereka gunakan untuk mempengaruhi dan melakukan ‘perang budaya’ dalam pemilu 2016 lalu.
  2. How Machine Learning is Revolutionizing Cybersecurity
    Machine learning telah terbukti bermanfaat dalam berbagai penerapan analisis data. Machine learning is particularly useful in various applications of data analysis. Kemampuan untuk belajar dari data, mengidentifikasi pola, mengotomasi pembuatan model, dan pengambilan keputusan, sangat bermanfaat untuk bidang keamanan saiber (cybersecurity), yang memanfaatkan data besar serta analisa pola perilaku.
  3. Is Your Company Ready For AI? Ask Yourself These Nine Questions
    Statista memprediksi bahwa pasar AI secara global akan bernilai lebih dari $ 10,5 miliar pada tahun 2020, dan bisnis akan menerapkan AI ke dalam operasi sehari-hari mereka dalam bentuk otomatisasi dan chatbots layanan pelanggan. Menurut CIOs, CTOs dan technology executive anggota Forbes Technology Council, berikut adalah sembilan pertanyaan untuk menentukan apakah AI adalah investasi cerdas untuk bisnis Anda saat ini.
  4. Hortonworks, Confluent and Waterline attempt to make Big Data easier
    Big data dan produk yang menyertainya memiliki kompleksitas yang seringkali tidak terhindarkan. Beberapa vendor besar menyadari hal ini, dan menawarkan berbagai solusi untuk memudahkan implementasi dan adopsi teknologi mereka untuk bisnis. Hortonwork, Confluent dan Waterline adalah beberapa di antaranya.
  5. Deep Learning Achievements Over the Past Year
    Pada musim natal lalu, tim statbot melakukan beberapa review terhadap pencapaian dari berbagai produk machine learning dalam setahun terakhir
  6. Top 5 Reasons Most Big Data Projects Never Go Into Production
    Pada akhir tahun 2016, Gartner merilis sebuah laporan yang menyatakan : “Hanya 15 persen dari proyek big data yang diimplementasikan ke dalam sistim produksi”. Pada kenyataannya hingga saat ini pun masih terjadi kendala-kendala yang dihadapi dalam implementasi big data.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka for Real-Time Event Processing
    Bagaimana implementasi Apache Kafka dalam mendukung pemrosesan secara reltime? Dalam posting ini, diperlihatkan bagaimana membangun pipeline pemrosesan aliran data menggunakan Apache Kafka.
  2. Top 5 Best Jupyter Notebook Extensions
    Ekstensi Notebook adalah plug-in yang dapat dengan mudah ditambahkan ke notebook Jupyter Anda. Berikut 5 Jupyter Extension yang paling sering digunakan.
  3. Managing isolated Environments with PySpark
    Melakukan konfigurasi node dalam cluster Hadoop/Spark dengan dependensi non-JVM biasanya cukup menyulitkan. Artikel ini menguraikan contoh solusi dan memberikan beberapa contoh code untuk menjalankan PySpark dengan Pandas dan library python lainnya.
  4. Data infrastructure at GO-JEK
    Dengan 100M order per bulan, 700ribu pengemudi aktif, dan 125 ribu merchant, GO-JEK memerlukan sistem yang handal. Mari ‘mengintip’ ke dalam infrastruktur data milik perusahaan terkemuka di Indonesia ini.
  5. [DATASET] Mozilla Common Voice
    Sekitar 400.000 rekaman dari 20.000 orang yang berbeda, menghasilkan total sekitar 500 jam rekaman suara. Saat ini merupakan koleksi dataset suara terbesar ke dua, dan jumlahnya masih terus bertambah.

Rilis Produk

  1. Apache PredictionIO 0.12.1 Release
    Apache PredictionIO adalah machine learning server yang dibangun di atas open source stack. Rilis 0.12.1 mencakup penambahan support untuk Spark 2.2, CleanupFunctions untuk Python, dan beberapa perubahan.
  2. Altair 2.0
    Altair adalah library Python untuk visualisasi statistik deklaratif berbasis Vega dan Vega-Lite. Kandidat untuk versi 2.0 sudah tersedia, dengan support untuk visualisasi interaktif Vega-Lite di Python.
  3. Tensorflow 1.6.0 released
    Tensorflow 1.6.0 mendukung CUDA 9.0 dan cdDNN 7, beserta beberapa fitur tambahan perbaikan bugs lainnya
  4. R 3.4.4 is released
    Rilis ini direncanakan merupakan rilis terakhir dari seri 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 16 / 2017
  • Comments Off on Seputar Big Data Edisi #38
Apache, Big Data, Forum Info, Hadoop, Storm

Seputar Big Data Edisi #38

Beberapa tema yang tersaji minggu ini adalah mencegah diminishing return big data, Bill Gates yang mendonasikan USD 50 juta untuk riset Alzheimer, bagaimana menghitung nilai ekonomi informasi sebagai aset, dan meledaknya nilai investasi big data di bidang energi. Pada bagian teknis ditampilkan tutorial TensorFlow Core API, membangun ekosistem mikroservis menggunakan Kafka dan KSQL, tutorial setting dan aktivasi Kerberos di cluster HDFS dengan Ambari, dan Free Ebook mengenai data sains. Rilis minggu ini Apache Phoenix 4.13 dan Apache CouchDB 2.1.1 serta 1.7.1.

Seputar Big Data edisi #38 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan November 2017

Artikel dan Berita

  1. What to do when big data gets too big
    Produksi data yang begitu besar pada suatu ketika mungkin mencapai titik jenuh, di mana manfaat yang didapat dari data akan mulai menurun. Ada dua pemicu utama permasalahan ini, yaitu data diproduksi tanpa tujuan atau business case yang jelas, atau data disajikan dengan kompleksitas yang sangat tinggi sehingga user kesulitan dalam penggunaannya. Artikel ini membahas langkah-langkah yang dapat diambil untuk tetap memaksimalkan manfaat data.
  2. Gates Bets on Big Data in Alzheimer’s Fight
    Bill Gates mengumumkan donasi sebesar USD 50 juta untuk mempelajari dan mengembangkan pengobatan Alzheimer, dengan menekankan pada peran big data dalam pencegahan dan pengendalian penyakit tersebut. Dana tersebut akan disalurkan ke Dementia Discovery Fund (DDF), sebuah kerja sama antara pemerintah, badan amal dan industri kesehatan.
  3. Turn Your Big Data into a Valued Corporate Asset
    Meskipun dunia telah memasuki era informasi dan banyak eksekutif dan pengambil keputusan menyadari bahwa informasi adalah salah satu aset terpenting dalam menjalankan bisnis, namun dari sisi akunting informasi masih belum dianggap sebagai aset. Hal ini berpengaruh terhadap cara pandang dan kedisiplinan dalam mengumpulkan, mengolah dan memanfaatkan informasi. Untuk itu saat ini terdapat sebuah bidang yang disebut infonomics, yaitu sebuah teori dan bidang ilmu yang menekankan dan menentukan pentingnya nilai ekonomi dari informasi. Artikel ini menjelaskan secara singkat mengenai 6 model valuasi informasi yang baru-baru ini dirumuskan Gartner bersama dengan para ahli valuasi, akuntan, dan ekonom.
  4. Big Data and Artificial Intelligence Deals in the Energy Sector Are Up Tenfold in 2017
    Investasi sektor energi di bidang big data dan AI meningkat sampai 10 kali lipat tahun ini. Laporan yang dirilis oleh BDO, sebuah perusahaan akuntansi global, menunjukkan bahwa merger dan akuisisi yang melibatkan perusahaan energi dan startup AI meningkat dari USD 500 juta di kuartal pertama 2017, ke USD 3.5 milyar pada kuartal kedua.

Tutorial dan Pengetahuan Teknis

  1. TensorFlow: What Parameters to Optimize?
    Mempelajari TensorFlow Core API, yang merupakan API level paling rendah, adalah langkah yang tepat untuk mulai mempelajari TensorFlow, karena kita dapat memahami kernel library TensorFlow. Berikut ini contoh paling sederhana dari TensorFlow Core API, di mana kita membuat dan melatih model regresi linear.
  2. Apache Storm: The Hadoop of Real-Time
    Pada dasarnya, Hadoop dan Storm digunakan untuk menganalisis data yang besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sementara Hadoop bagus dalam segala hal kecuali dalam perhitungan real-time.
  3. Building a Microservices Ecosystem with Kafka Streams and KSQL
    Saat ini proses bisnis dijalankan sebagai gabungan dari berbagai ekosistem : kumpulan aplikasi dan servis yang saling berinteraksi mencapai sebuah tujuan bisnis. Ada beberapa keuntungan membuat ekosistem tersebut menjadi event-driven.
    Artikel ini menjelaskan dengan baik motivasinya, dan bagaimana membangun sistem transaksional asynchronous di atas Kafka stream dan KSQL.
  4. Ambari Kerberos support for HBase Part 1
    Seri pertama dari serangkaian artikel yang menjelaskan mengenai langkah demi langkah aktivasi autentikasi Kerberos untuk cluster yang menggunakan Ambari. Blog ini secara khusus akan membahas bagaimana cara men-deploy cluster Hadoop (HDFS + YARN) dengan Kerberos aktif yang kemudian akan digunakan untuk men-deploy cluster HBase dengan Kerberos yang diaktifkan pada posting-posting berikutnya.
  5. [FREE EBOOK] Data Science Live: An Open-Source Book About Data Science, Analytics, and More
    Online ebook untuk membantu mempelajari data sains, machine learning dan data analytics, disertai berbagai contoh kasus nyata dalam R. Mencakup di antaranya : Exploratory data analysis, data preparation, pemilihan variabel, kinerja model, dan

Rilis Produk

  1. Apache Phoenix 4.13 released
    Apache Phoenix 4.13, yang mencakup perbaikan bug kritikal terkait penulisan SYSTEM.CATALOG pada saat connecting, beberapa bug fixes terkait row deletion handling, dan lain-lain.
  2. Apache CouchDB 2.1.1 and 1.7.1 released
    Apache CouchDB mengumumkan rilis 2.1.1 dan 1.7.1, yang merupakan security release yang memperbaiki beberapa isu kritikal. Update ke versi ini bersifat mandatory.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung