Seputar Big Data edisi #76 - idBigData idBigData

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Oktober 2019.

Artikel dan berita

Industry 4.0: Railways to integrate Big Data, AI
Kementerian Perkerataapin India berkerja sama dengan Departemen Sains & Teknologi dan IIT-Kanpur, menginisiasi project Industri 4.0, yang mencakup sejumlah teknologi digital seperti AI, Big Data, Machine Learning dan Komputasi Awan.
Big data as graphs
Infografis 2019 mengenai data yang dihasilkan oleh sosial media, chat platform, music stream dan lainnya.
Google AI’s ALBERT claims top spot in multiple NLP performance benchmarks
Para peneliti dari Google AI (sebelumnya Google Research) dan Toyota Technological Institute of Chicago telah menciptakan ALBERT, sebuah model AI yang dapat mencapai hasil mutakhir melebihi kinerja manusia. ALBERT saat ini memuncaki peringkat kinerja NLP utama untuk tolok ukur seperti GLUE dan SQuAD 2.0, dan skor kinerja RACE yang tinggi.

Tutorial dan pengetahuan teknis

A lightweight machine learning architecture for IoT streams
Menjalankan model pembelajaran mesin pada data streaming frekuensi tinggi tidak harus berbiaya mahal. Dengan mempertimbangkan kebutuhan realtime yang kita miliki, kita dapat merancang arsitektur efisien yang dapat ditingkatkan dengan mudah.
Know Your Data: Part 1
Data cleansing dan ekstraksi fitur adalah pekerjaan yang paling membosankan tetapi harus benar-benar dikuasai untuk membuat model yang akurat. Langkah pertama dalam pemrosesan data adalah mengenal data itu sendiri.
Artikel ini akan memperkenalkan berbagai jenis data set, objek data dan atribut.
Analyse Kafka messages with SQL queries using Apache Drill
Pada posting sebelumnya telah dibahas cara menghubungkan MongoDB dengan Apache Drill dan kueri data menggunakan SQL. Dalam posting ini akan dijelaskan bagaimana kita dapat menggunakan kueri SQL yang serupa untuk menganalisis Kafka message.
YARN Capacity Scheduler and Node Labels Part 1
Bagian pertama dari serial mengenai manajemen antrian YARN, yang bertujuan untuk memberikan gambaran umum tentang cara mengontrol pekerjaan YARN secara otomatis.
Bagian ini mengeksplorasi bagaimana YARN bekerja dengan antrian, dan berbagai mekanisme yang tersedia untuk mengontrolnya.
Mapping the Underlying Social Structure of Reddit
Bagaimana mengolah dan menganalisis data untuk mengungkap “struktur sosial” dalam Reddit, situs populer untuk sharing opini dan agregat berita, menggunakan bahasa pemrograman R.
Spark Tutorial: Validating Data in a Spark DataFrame Part Two
Bagian kedua dari tutorial mengenai berbagai teknik validasi Spark DataFrame. Kali ini berfokus pada konversi User Defined Function (UDF).

Rilis Produk

Google launches TensorFlow 2.0 with tighter Keras integration
Google akhirnya mengumumkan rilis TensorFlow 2.0 hari ini.
TensorFlow 2.0 hadir dengan sejumlah perubahan yang dibuat dalam upaya meningkatkan kemudahan penggunaan, seperti penghapusan beberapa API yang dianggap redundant dan integrasi yang ketat dan mengandalkan tf.keras sebagai API tingkat tinggi pusatnya.
Amazon Releases New Public Data Set to Help Address “Cocktail Party” Problem
Amazon mengumumkan rilis data baru kepada publik yang akan membantu para ilmuwan pidato mengatasi masalah sulit dalam memisahkan sinyal suara di ruang-ruang dengan banyak pembicara.
Introducing Hypothesis GU Funcs, an Open Source Python Package for Unit Testing
Uber memperkenalkan Hypothesis GU Func, ekstensi untuk paket Hypothesis, yang memungkinkan pengujian berbasis properti dari fungsi NumPy yang di-vektorisasi.
GitHub Releases Dataset of Six Million Open-Source Methods for Code Search Research
GitHub pekan lalu mengumumkan CodeSearchNet Challenge, yang bertujuan untuk mendorong penhembangan riset dalam bidang pencarian kode. Dataset yang besar dan beberapa model dasar yang menunjukkan kondisi terkini dalam pencarian kode telah dirilis untuk membantu para ilmuwan membangun model untuk tantangan tersebut.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂