Seputar Big Data Edisi #35 - idBigData idBigData

Berita minggu ini adalah mengenai CDLA, yaitu lisensi open source untuk data yang digagas Linux Foundation, penggunaan big data oleh kepolisian, beberapa artikel teknis mengenai Kafka dan KSQL, streaming SQL engine untuk Apache Kafka, tips kombinasi PySpark dengan Pandas dan library lainnya, serta beberapa rilis open source.

Seputar Big Data edisi #35 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Oktober 2017

Artikel dan Berita

Open-sourcing data will make big data bigger than ever
Software open source telah menjadi penggerak kemajuan teknologi informasi masa kini. Pesatnya perkembangan big data pun tidak bisa dilepaskan dari pengaruh open source. Setelah software open source, kini Linux Foundation menciptakan sebuah framework lisensi terbuka serupa untuk data, yaitu CDLA (Community Data License Agreement). Dengan adanya CDLA ini diprediksikan akan semakin mendorong big data dan artificial intelligence untuk tumbuh semakin pesat. Artikel ini menjelaskan latar belakang dan isi dari lisensi CDLA tersebut.
The rise of big data policing
Di tengah kontroversi seputar privacy dan bias dalam penggunaan data dalam pencegahan dan penanggulangan kejahatan, tidak bisa dipungkiri lagi bahwa big data telah mulai digunakan secara luas oleh kepolisian di berbagai negara. Salah satunya adalah dibentuknya divisi RACR (Real-Time Analysis Critical Response) di Kepolisian Los Angeles. Bekerja sama dengan Palantir, mereka menggabungkan dan menganalisis berbagai petunjuk yang tersembunyi dari berbagai data source dari berbagai organisasi penegak hukum.
Why Space Data Is The New Big Data
Dengan semakin terjangkaunya biaya layanan satelit, muncul pula kebutuhan penggunaan 'data angkasa' dalam berbagai bidang industri. Misalnya dalam bidang pertanian, data satelit digunakan untuk memonitor faktor-faktor yang mempengaruhi hasil panen, dalam bidang real estat, digunakan untuk mengenali area yang rawan banjir. Dalam bidang retail, lalu lintas pejalan kaki di sekitar pusat perbelanjaan dapat dimonitor secara real time, untuk mendapatkan gambaran perilaku konsumen secara nyata.
How AI Will Affect the Travel Industry
Artificial Intelligence (AI) sepertinya akan merubah wajah industri perjalanan dan pariwisata. AI dapat membantu konsumen dan perusahaan penyedia jasa untuk dapat menyederhanakan pembuatan pengaturan perjalanan dan memperlancar proses bisnis.

Tutorial dan Pengetahuan Teknis

Efficient UD(A)Fs with PySpark
Menggabungkan PySpark dengan Pandas atau python library lainnya bisa menjadi tantangan tersendiri. Artikel berikut ini menjelaskan mengapa, dan menyediakan beberapa code untuk mengonversi data dari tipe numpy ke tipe yang kompatibel dengan PySpark, dan sebaliknya, untuk implementasi custom function. Artikel ini juga mengupas PySpark dengan cukup mendalam.
Predicting Flight Arrivals with the Apache Kafka Streams API
Membangun machine learning model yang dapat beradaptasi secara real time kini dapat dilakukan dengan lebih mudah. Kafka Streams memungkinkan kita untuk menggunakan code yang sama untuk training online dan offline. Artikel ini menunjukkan langkah-langkah membangun evaluasi dan training pipeline real time.
KSQL: Streaming SQL for Apache Kafka
Intro yang komprehensif dan menarik mengenai KSQL untuk Apache Kafka. Artikel ini menyajikan sebuah contoh agregasi data Twitter dengan SQL dan melakukan penggabungan stream. Terdapat pula beberapa diagram yang menjelaskan mengenai semantik KSQL.
Top 10 Machine Learning Algorithms for Beginners
Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.
Getting Started with Cloudera’s Cybersecurity Solution
Cloudera telah bermitra dengan Arcadia Data dan StreamSets agar lebih mudah bagi Chief Information Security Officers (CISOs) untuk mengambil langkah awal dalam penerapan studi kasus dengan memanfaatkan sumber data yang umum di berbagai sumber.

Rilis Produk

Apache Pulsar 1.20.0-incubating Released
Apache Pulsar versi 1.20.0-incubating dirilis, mencakup enkripsi end-to-end, support untuk event time, deduplikasi pesan, dan lain sebagainya.
Introducing the Natural Language Processing Library for Apache Spark
The John Snow Labs NLP library adalah framework open source untuk pemrosesan bahasa alami di atas Apache Spark. Artikel ini menjelaskannya dengan detail, termasuk bagaimana library tersebut melengkapi library-library ML Spark dan memberikan performance yang lebih baik.
The Apache Software Foundation Announces Apache® PredictionIO™ as a Top-Level Project
Apache PredictionIO, server Machine Learning open source yang memungkinkan developer memanage dan mendeploy servis-servis prediktif untuk berbagai macam pekerjaan Machine Learning. Project ini menyediakan koleksi template engine, di mana developer dapat memilih template dan mempersiapkan solusi machine learning untuk use case mereka secara cepat. Tiap template didesain untuk skenario machine learning tertentu.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂