Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019
Artikel dan berita
- Here’s why Databricks is one of the fastest growing big-data startups
Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini. - Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda. - 7 Disastrous Cybersecurity Mistakes In A Big Data World
Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya. - Is Your Data Ready for AI?
Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.
Tutorial dan pengetahuan teknis
- Exploratory Data Analysis: A Practical Guide and Template for Structured Data
Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”. - Introducing Apache Flink’s State Processor API
Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream. - BoW to BERT
Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi. - How to Unlock the Full Potential of Kafka Producers
Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.
Rilis Produk
- Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks. - This New Open Source Toolkit Aims to Give Chatbots Character
Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning. - [ANNOUNCE] Apache Ignite 2.7.6 Released
Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi. - Waltz: A Distributed Write-Ahead Log
Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.
Contributor :
Tim idbigdata
always connect to collaborate every innovation 🙂
always connect to collaborate every innovation 🙂