Seputar Big Data edisi #61 - idBigData idBigData

Edisi kali ini menyajikan beberapa topik menarik, mulai dari kegagalan perusahaan menuju “data-driven”, bagaimana AI menentukan dosis kemoterapi sekaligus mengubah regulasi privasi dalam data kesehatan, API baru dari Alexa untuk melacak aktivitas bayi, dan bagaimana bias dapat muncul dalam AI. Dari sisi teknis, terdapat tutorial mengenai data scaling untuk deep learning, tutorial python, testing aplikasi Kafka, kesalahan umum dalam data sains, serta dataset baru untuk pengenalan wajah yang berisi 1 juta foto wajah ter-anotasi.

Seputar Big Data #61 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Februari 2019.

Artikel dan berita

Companies Are Failing in Their Efforts to Become Data-Driven
Menjadi sebuah perusahaan yang “data-driven” adalah target dari banyak perusahaan, terutama dalam beberapa tahun terakhir ini. Namun menurut survey yang dibuat oleh NewVantage Partners terhadap 64 eksekutif tingkat teknologi dan bisnis yang mewakili perusahaan besar seperti American Express, General Electric, Johnson & Johnson, dll, tujuan ini masih jauh dari pencapaian yang memuaskan. Salah satu hasilnya adalah, sebanyak 72% menyatakan belum berhasil menciptakan “budaya data”, bahkan 53% belum memperlakukan data sebagai aset.
AI able to predict chemotherapy dosages developed
Penetapan dosis kemoterapi merupakan tantangan tersendiri dalam penatalaksanaan terapi kanker. Para peneliti dari Rumah Sakit Universitas Stanford telah berhasil menggunakan teknologi AI untuk menyesuaikan dosis kemoterapi secara akurat dengan mengidentifikasi pasien yang membutuhkan dosis lebih rendah bahkan sebelum pengobatan dimulai, menurut sebuah penelitian yang diterbitkan dalam Nature Scientific Reports.
Playing Pictionary against computers could help AI learn common sense
Salah satu hal yang sulit diajarkan kepada mesin adalah mengenai “common-sense”. Pertanyaan semacam “Dapatkah kita makan spaghetti dengan sedotan?”, misalnya, kita bisa menjawabnya dengan : bisa, tapi perlu banyak kesabaran. Peneliti dari Allen Institute for Artificial Intelligence (AI2) merilis permainan online semacam tebak gambar yang menurut mereka dapat membantu mesin mempertajam “common-sense”.
New Advances in AI Could Have a Significant Impact on Health Data Privacy
Perubahan di bidang kecerdasan buatan semakin cepat sehingga regulator dan legislator mengalami kesulitan untuk mengimbangi. Hal ini sangat dirasakan dalam industri kesehatan, di mana kemajuan yang cepat dalam teknologi AI mulai membuat para profesional kesehatan memikirkan kembali efektivitas dari Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA) yang dirumuskan tahun 1996 dan mempertimbangkan kemungkinan peraturan baru untuk privasi data kesehatan.
Amazon’s Baby Activity Skill API lets Alexa developers build apps that track tots’ activities
Amazon merilis Baby Skill Activity API, yang memungkinkan pengembang untuk membangun aplikasi pihak ketiga yang membantu pelanggan melacak aktivitas bayi – misalnya mencatat waktu penggantian popok. Dengan Baby Skill Activity API, pengembang dapat membangun keterampilan Alexa dan yang memungkinkan pelanggan untuk dengan mudah login dan menanyakan informasi aktivitas hanya dengan menggunakan suara mereka.
The new AI frontier: Hyperpersonalized automated advertising
Saat ini banyak iklan otomatis berbasis AI digunakan untuk menghubungkan konsumen ke produk untuk meningkatkan penjualan. Teknologi AI membantu pengiklan memberikan promosi yang lebih relevan yang menghubungkan merek dengan konsumen melalui iklan otomatis yang sangat personal.
This is how AI bias really happens—and why it’s so hard to fix
Akhir-akhir ini deep learning menjadi dasar dari banyak aplikasi berbasis AI, yang mempengaruhi kehidupan banyak orang. Namun penggunaan data dalam deep learning ini rawan bias, yang dapat berakibat pada ketidakadilan dalam berbagai proses : rekrutmen, penjualan, keamanan dan bahkan dalam sistem hukum pidana. Untuk dapat mengatasinya, kita perlu memahami mekanisme munculnya bias dalam AI, seperti yang diuraikan dalam artikel ini.
Databricks Clinches Microsoft Backing, Plans European Expansion on $250m Series E
Databricks, spesialis manajemen data dan pembelajaran mesin yang berbasis di San Francisco, telah memperoleh $250 juta dalam putaran pendanaan Seri E dengan Microsoft sebagai investor. CEO Ali Ghodsi mengatakan fokus mereka adalah pada pertumbuhan yang berkelanjutan, dengan investasi di Eropa termasuk peningkatan tim teknis mereka di Belanda, serta peningkatan penjualan.

Tutorial dan pengetahuan teknis

How to Improve Neural Network Stability and Modeling Performance With Data Scaling
Penggunaan angka bernilai kecil untuk weight dan error dalam deep neural network menjadikan penentuan skala input dan output yang digunakan untuk training menjadi faktor yang penting. Penentuan variabel input yang kurang tepat menyebabkan proses training menjadi lambat atau tidak stabil, dan pada variabel target dapat mengakibatkan meledaknya gradien sehingga proses training menjadi gagal.
Salah satu yang dapat dilakukan adalah persiapan data menggunakan teknik-teknik normalisasi dan standarisasi input, salah satunya adalah penskalaan data seperti yang dijelaskan dalam tutorial ini.
Guidelines for human-AI interaction design
Kemajuan dalam kecerdasan buatan (AI) menghasilkan peluang dan tantangan terhadap desain antarmuka pengguna. Prinsip-prinsip interaksi manusia-AI telah dibahas dalam komunitas interaksi manusia-komputer selama lebih dari dua dekade, namun diperlukan lebih banyak penelitian dan inovasi. Dalam tulisan ini diusulkan 18 pedoman desain yang berlaku umum untuk interaksi manusia-AI. Pedoman ini divalidasi melalui beberapa putaran evaluasi termasuk studi pengguna dengan 49 praktisi desain yang menguji 20 produk populer yang berbasis AI.
Getting Your Feet Wet with Stream Processing – Part 2: Testing Your Streaming Application
Memastikan bahwa suatu solusi berfungsi sama pentingnya dengan mengimplementasikannya. Hal ini menjamin aplikasi berfungsi sesuai rancangan, dapat menangani peristiwa yang tak terduga, dapat berkembang tanpa merusak fungsi yang ada, dll. Pada bagian kedua dari rangkaian artikel ini dijelaskan bagaimana melakukan testing terhadap proses stream yang sudah dibuat sesuai tutorial pada bagian terdahulu.
Python Functions Tutorial: Working With Functions in Python, Part 3
Dalam tutorial bagian 3 ini dijelaskan mengenai bagaimana membuat fungsi yang ditentukan pengguna, fungsi rekursif, beserta contoh aplikasinya.
From Good to Great Data Science, Part 1: Correlations and Confidence
Seorang data saintis handal perlu memiliki dasar matematis dan intuisi yang memadai, agar tidak mudah terjerumus dalam berbagai kesalahan dalam interpretasi data. Dalam bagian pertama dari rangkaian artikel ini dijelaskan secara menarik mengenai 2 kesalahan umum yang sering ditemui, dengan menggunakan contoh data dari bidang kesehatan.
[DATASET] IBM Research releases ‘Diversity in Faces’ dataset to advance study of fairness in facial recognition systems
Tantangan dalam training AI model tergambar dengan jelas dalam teknologi pengenalan wajah, terutama dalam hal fairness. Agar sistem pengenalan wajah dapat bekerja seperti yang diinginkan, data pelatihan harus beragam dan memberikan cakupan yang luas. Gambar harus mencerminkan distribusi fitur di wajah yang kita lihat di seluruh dunia.
IBM Research merilis dataset besar dan beragam yang disebut Diversity in Faces (DiF) untuk mendukung studi tentang keadilan dan akurasi dalam teknologi pengenalan wajah. DiF menyediakan dataset 1 juta gambar wajah manusia ter-anotasi.

Rilis Produk

Introducing Scylla Open Source 3.0
Scylla adalah basis data NoSQL open source yang menawarkan skala horisontal dan toleransi kesalahan sebagaimana Apache Cassandra, dengan 10X throughput dan latensi yang rendah dan stabil. Diimplementasikan dalam C ++, desain Scylla yang lebih dekat dengan perangkat keras mengurangi jumlah node basis data yang anda butuhkan secara signifikan untuk beban kerja yang dinamis dengan berbagai kombinasi perangkat keras.
Apache BookKeeper 4.9.0 released
Rilis 4.9.0 ini adalah milestone baru untuk komunitas Apache BookKeeper. Beberapa update penting diantaranya adalah : perubahan besar dalam manajemen metadata, seperti refactoring metadata ledger untuk membuatnya immutable, menyimpan metadata ledger dalam format biner dan implementasi driver metadata baru berdasarkan Etcd. Selain itu, ada peningkatan besar dalam manajemen memori, tooling, dan dokumentasi.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂