Halo temans! Setelah absen sekian lama, Seputar Big Data hadir kembali nih. Masih menyajikan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan Artificial Intelligence yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2021.
Artikel dan berita
- BPK Terapkan Analisa Big Data dalam LKPP 2020
Ketua Badan Pemeriksa Keuangan (BPK) Agung Firman Sampurna mengatakan bahwa lembaganya menerapkan analisa data besar atau big data analytics dalam pemeriksaan Laporan Keuangan Pemerintah Pusat (LKPP) tahun 2020. Metode ini memanfaatkan data-data keuangan dan nonkeuangan yang saat ini tersimpan di BPK. - Elon Musk’s Neuralink: We taught a monkey to play Pong with its mind
Neuralink, startup milik Elon Musk yang bergerak dalam bidang implan otak, merilis video seekor monyet bernama Pager yang telah disambungkan dengan chip, yang memungkinkannya memainkan Pong dengan otaknya. Disebutkan bahwa iPhone dapat dipasangkan dengan perangkat Neuralink di otak monyet untuk mengamatinya, “Seperti saat Anda memasangkan ponsel ke speaker Bluetooth”. Tujuan awal dari teknologi ini adalah untuk membantu orang-orang dengan kondisi neurologis yang mengakibatkan ketidakmampuan mengontrol gerakan tangan dan lengan. - Meteorologists Aim to Use AI To Get an Edge on Natural Hazards and Disasters
Ahli meteorologi berencana menggunakan AI untuk membantu dalam deteksi dini dan mitigasi bencana, yang akhir-akhir ini semakin sering terjadi dan sulit diprediksi karena dampak perubahan iklim. Dalam kaitannya, International Telecommunication Union (ITU) bersama dengan Organisasi Meteorologi Dunia (WMO) dan Lingkungan PBB, telah meluncurkan Kelompok Fokus AI untuk Penanggulangan Bencana Alam. Ilmuwan ITU melihat bahwa Al menunjukkan potensi besar untuk mendukung pengumpulan dan pemantauan data, rekonstruksi dan prakiraan peristiwa ekstrim, serta komunikasi yang efektif yang dapat diakses sebelum dan selama terjadinya bencana. - Researchers detail systemic issues and risk to society in language models
Peneliti di DeepMind Google mengungkapkan kelemahan dari output model bahasa besar seperti GPT-3, dan memperingatkan bahwa hal ini dapat menimbulkan akibat yang serius. Efek negatif ini dapat menyebar secara tidak sengaja, karena kesalahan dalam apa yang harus dipelajari maupun dalam proses pelatihan model. Disebutkan bahwa, “Saat ini kami tidak memiliki banyak pendekatan untuk memperbaiki kesalahan spesifikasi ini dan masalah perilaku yang ditimbulkan.” Beberapa hal negatif yang mungkin terjadi adalah penyebaran informasi berbahaya seperti misalnya cara membuat senjata, atau hasutan untuk melakukan kekerasan. Salah satu contoh yang terjadi dalam sebuah pengujian adalah ketika model tersebut justru menyarankan seseorang yang berkonsultasi untuk melakukan bunuh diri. - Building a data stream to assist with COVID-19 research
Twitter membuat sebuah produk data terkait COVID-19 dan membuka akses kepada para peneliti akademis, termasuk akses bebas ke full history dari data publik Twitter. Dengan akses ini para peneliti dapat membuat kriteria tagging mereka sendiri, dan memanfaatkan data-data tersebut untuk penelitian mereka. Berbagai anotasi juga tersedia untuk memudahkan para peneliti mempelajari percakapan publik terkait COVID-19. Saat ini lebih dari 100 ilmuwan dan peneliti dari seluruh dunia telah menggunakan stream COVID-19 ini. - Monster Mash: A Sketch-Based Tool for Casual 3D Modeling and Animation
Animasi komputer 3D adalah bidang yang sulit dan sangat teknis. Untuk menyelesaikan satu adegan animasi memerlukan banyak langkah, seperti pemodelan, rigging, dan animasi, yang masing-masing merupakan sub-disiplin ilmu yang dapat memakan waktu bertahun-tahun untuk dikuasai. Karena kerumitannya, animasi 3D umumnya dipraktikkan oleh tim spesialis yang terampil. Muncul pertanyaan: mungkinkah mendemokratisasi proses animasi 3D sehingga dapat diakses oleh semua orang? Posting ini menjelaskan Monster Mash, tool open source yang memungkinkan para ahli maupun amatir membuat model 3D yang kaya, ekspresif, dan semua dilakukan dalam bidang 2D. Dengan Monster Mash, pengguna membuat sketsa karakter, dan perangkat lunak secara otomatis mengubahnya menjadi model 3D yang dapat dideformasi.
Tutorial dan pengetahuan teknis
- Benchmark: Koalas (PySpark) and Dask
Koala adalah pustaka data science yang mengimplementasikan API Pandas di atas Apache Spark sehingga data scientist dapat menggunakan API favorit mereka untuk berbagai ukuran dataset. Entri blog ini membandingkan performa dua API pandas, yaitu Dask dan Koala di PySpark. Dari benchmark berulang ditunjukkan bahwa Koala bisa 4x lebih cepat daripada Dask ketika menggunakan satu node, 8x jika menggunakan cluster, dan dalam beberapa kasus, dapat mencapai 25x lebih cepat. - LSTM Network in R
Dalam tutorial ini dibahas mengenai LSTM (Long Short Term Memory) Network dan implementasinya menggunakan R. LSTM sangat bermanfaat untuk melakukan pemrosesan data sekuens, seperti misalnya teks, prediksi time-series, sekuens DNA, pengenalan wicara, dan lain sebagainya. - How do I know which graph to use?
Blog post ini membahas mengenai pertanyaan yang sangat sering diajukan dalam hal visualisasi data, yaitu : “jenis grafik mana yang paling tepat untuk digunakan?”. Artikel singkat ini disertai dengan contoh dan banyak link yang bermanfaat. - What Is Semi-Supervised Learning
Selain supervised dan unsupervised learning, ada pula tipe semi-supervised learning, yang mencoba menggabungkan kelebihan dan mengatasi tantangan dari kedua tipe machine learning tersebut. Entry blog ini mencoba memberikan pengenalan mengenai semi-supervised learning dan memberikan rekomendasi paper maupun buku yang membahas lebih lanjut mengenai topik ini. - Factorized layers revisited: Compressing deep networks without playing the lottery
Model machine learning berkembang pesat bukan hanya dari sisi kinerja namun juga ukurannya. Mulai dari BiT dengan 928 juta parameter, hingga GPT-3 dengan 175 miliar parameter. Hal ini mengakibatkan meroketnya biaya training model dan penerapannya, bahkan kebutuhan sumber daya untuk mentraining model ini disebut berdampak pada lingkungan. Banyak penelitian seputar kompresi model untuk menurunkan ukuran dan biaya. Yang paling populer dan banyak digunakan adalah metode pruning dengan memanfaatkan hipotesis bernama “tiket lotre”. Artikel ini mengulas metode alternatif untuk kompresi model dengan menggunakan faktorisasi. - GPS trajectory clustering with Python
Pertumbuhan perangkat seluler yang pesat telah menghasilkan sejumlah besar lintasan GPS yang dikumpulkan oleh layanan berbasis lokasi, jaringan geo-sosial, transportasi, maupun aplikasi ride-sharing. Pengelompokan lintasan GPS pun semakin banyak digunakan, misalnya untuk mengidentifikasi rute atau perjalanan. Artikel ini memberikan pengenalan singkat tentang pengelompokan lintasan GPS dan contoh implementasinya menggunakan Python. - [DATASET] Contract Understanding Atticus Dataset
CUAD adalah kumpulan data kontrak hukum yang dilengkapi label oleh pengacara. CUAD berisi 510 kontrak komersial dengan 13.000 label di 41 kategori. Pada awalnya dataset ini dimaksudkan untuk menguji seberapa baik sistem AI dapat menyoroti bagian-bagian kontrak yang relevan dengan label tertentu. CUAD dibuat oleh sekelompok annotator mahasiswa ahli hukum yang menerima 70-100 jam pelatihan tinjauan kontrak sebelum mereka mulai memberi label, dan masing-masing label tersebut divalidasi oleh validator tambahan. Dengan perhitungan tersebut, diperkiraan nilai CUAD mencapai lebih dari US$2 juta (9283 halaman ditinjau setidaknya 4 kali, setiap halaman membutuhkan 5-10 menit, dengan asumsi tarif US$500 per jam).
Rilis Produk
- ContinualAI Releases Avalanche: An End-to-End Library for Continual Learning
Tim penelitian dan pengembangan dari ContinualAI dengan peneliti dari KU Leuven, ByteDance AI Lab, University of California, New York University dan institusi lain telah merilis Avalanche, pustaka end-to-end untuk pembelajaran berkelanjutan (continual learning) berbasis PyTorch. Avalanche dirancang untuk memudahkan implementasi, penilaian, dan replikasi algoritma continual learning di dalam berbagai setting dan mendukung reprodusibilitas studi sebelumnya. Library ini dapat membantu peneliti dan praktisi untuk : 1) Lebih sedikit menulis kode, lebih cepat membuat prototipe, dan mengurangi kesalahan; 2) Meningkatkan reprodusibilitas; 3) Meningkatkan modularitas dan penggunaan kembali; 4) Meningkatkan efisiensi kode, skalabilitas dan portabilitas; 5) Meningkatkan dampak dan kegunaan produk penelitian. - Release Apache MXNet (incubating) version 1.8.0
Apache MXNet (incubating) adalah kerangka kerja deep learning yang dirancang untuk mendukung efisiensi dan fleksibilitas. MXNet memungkinkan untuk menggabungkan pemrograman simbolik dan imperatif untuk memaksimalkan efisiensi dan produktivitas. - The Apache Software Foundation Announces Apache® DolphinScheduler™ as a Top-Level Project
Apache DolphinScheduler adalah sistem scheduler alur kerja Big Data visual yang terdistribusi dan extensible. Proyek ini pertama kali dibuat pada Desember 2017, dan masuk ke Apache Incubator pada Agustus 2019, dan pada awal April lalu dinyatakan sebagai top level project. Apache DolphinScheduler digunakan di berbagai perusahaan besar, termasuk Budweiser, China Unicom, IDG Capital, IBM China, JD.com, Lenovo, New Oriental, Nokia China, Qihoo 360, SF Express, dan Tencent. - Apache ZooKeeper 3.7.0 released
Versi ini merupakan rilis pertama dari branch 3.7. Beberapa fitur baru yang tercakup di antaranya adalah : API untuk start server dari Java, dukungan BCFKS key, perintah “whoami” API dan CLI, metrik keamanan tambahan, dukungan SASL di klien C dan Perl, dan lain-lain. Peningkatan dari 3.6.2 ke 3.7.0 dapat dijalankan seperti biasa, tidak diperlukan prosedur peningkatan tambahan khusus. - Pinterest open-sources big data analytics tool Querybook
Pinterest meng-open-source-kan Querybook, solusi manajemen data untuk kolaborasi teknik jarak jauh berskala enterprise. Tool yang digunakan secara internal ini disebut dapat membantu para developer membuat kueri, analisis, dan berkolaborasi satu sama lain melalui antarmuka notebook. Querybook dimulai pada 2017 sebagai proyek magang di Pinterest. Dirilis secara internal pada Maret 2018, Querybook menjadi solusi untuk big data analitik di Pinterest. Saat ini querybook memiliki rata-rata 500 pengguna aktif harian dan 7.000 kueri harian. - Apache Parquet MR release 1.12.0
Parquet-MR adalah implementasi java dari format Parquet. Parquet adalah format penyimpanan berbentuk kolom untuk Hadoop yang menyediakan penyimpanan dan pengkodean data yang efisien. Parquet menggunakan algoritma record shredding and assembly untuk merepresentasikan struktur berulang/nested.
Contributor :
Tim idbigdata
always connect to collaborate every innovation 🙂
always connect to collaborate every innovation 🙂