:::: MENU ::::

Posts Tagged / Artificial Intelligent

  • Aug 01 / 2019
  • Comments Off on Seputar Big Data edisi #73
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #73

Setelah lama tidak hadir, kali ini seputar informasi mengenai big data hadir kembali. Informasi yang diambil dari berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site.

Artikel dan berita

  1. Deep learning is about to get easier — and more widespread
    Permasalahan utama dari AI, khususnya deep learning adalah kebutuhan akan data yang sangat besar untuk melatih mesin agar dapat menemukan pola dan hubungan dalam data. Tidak semua perusahaan atau institusi dapat menyediakan data tersebut, oleh karena itu para peneliti terus berusaha mengembangkan metode untuk mengatasi hal ini, agar deep learning dapat lebih mudah dijangkau oleh semua kalangan. Artikel ini menyajikan 3 di antaranya.
  2. Facebook AI’s RoBERTa improves Google’s BERT pretraining methods
    Peneliti Facebook AI dan University of Washington menemukan cara untuk meningkatkan performa BERT yang merupakan model NLP yang dipublikasikan oleh Google. Model baru ini diuji menggunakan dataset untuk benchmark seperti GLUE, SQuAD, dan RACE. Diberi nama RoBERTa singkatan dari “Robustly Optimized BERT approach”, model ini mengadopsi banyak teknik yang digunakan oleh Bidirectional Encoder Representations from Transformers (BERT) miliki Google.
  3. Big Data Is Already A Thing Of The Past: Welcome To Big Data AI
    Sebelumnya, Big Data adalah salah satu frasa yang paling banyak dibicarakan tentang tren teknologi. Saat ini istilah kecerdasan buatan (AI) sudah sangat populer. Kedepannya kombinasi antara Big Data dan AI diprediksi akan menjadi trend baru, sebut saja Big Data AI.
  4. 4 Ways AI-Driven ETL Monitoring Can Help Avoid Glitches
    Proses ETL (Extract, Transform, Load) adalah salah satu proses terpenting dalam analitik big data dan juga merupakan proses terpanjang dan terberat. Jika proses awal ini gagal maka analisa tidak dapat dilakukan dengan baik. Bagaimana AI dan machine learning dapat mendeteksi kesalahan ETL sebelum berubah menjadi analisa yang tidak akurat?

Tutorial dan pengetahuan teknis

  1. Learn Classification with Decision Trees in R
    Salah satu algoritma klasifikasi yang paling mudah adalah decision tree. Dalam artikel ini akan dibahas penggunaan algoritma decision tree yang diimplementasikan menggunakan R.
  2. Real-Time Stream Processing With Apache Kafka Part 2: Kafka Stream API
    Artikel lanjutan dari artikel sebelumnya yang telah membahas apa itu Apache Kafka. Dalam artikel ini akan dibahas mengenai Kafka API khususnya Stream API.
  3. Illustrated: 10 CNN Architectures
    Artikel ini adalah bentuk visualisasi dari 10 arsitektur CNN populer, yang bisa kita gunakan. Digambarkan dengan sederhana dan ringkas sehingga mudah dilihat dan dipahami gambaran keseluruhannya.

Rilis Produk

  1. Announcing the MLflow 1.1 Release
    Minggu ke empat bulan Juli lalu, tim development dari databricks merilis MLflow 1.1. Dalam rilis ini, berfokus pada menyempurnakan komponen pelacakan MLflow dan meningkatkan komponen visualisasi di UI.
  2. Microsoft ML Server 9.4 now available
    Microsoft Machine Learning Server, platform untuk mengimplementasikan machine learning menggunakan R dan Python, telah diperbarui ke versi 9.4. Pembaruan ini mencakup mesin update R 3.5.2 dan Python 3.7.1, dan mendukung integrasi dengan Spark 2.4.
  3. Apache Arrow 0.14.1 released
    Rilis ini merupakan patch rilis yang mencakup penyelesaian 46 issue sejak rilis 1.14.0 pada 8 Juli 2019 lalu. Sebelumnya, rilis 1.14.0 mencakup penyelesaian 602 issue dari rilis 1.13.0. Apache Arrow adalah platform pengembangan lintas bahasa untuk in-memory data.
  4. Apache Kudu 1.10.0 Released
    Versi 1.10.0 adalah rilis minor yang mencakup beberapa fitur baru, peningkatan, optimasi, maupun perbaikan bugs. Kudu adalah mesin penyimpanan untuk data terstruktur yang dirancang dalam konteks ekosistem Apache Hadoop dan mendukung integrasi dengan proyek data analitik lain di dalam maupun di luar Apache.
  5. Apache Solr™ 8.2.0 available
    Rilis ini mencakup beberapa fitur baru, perbaikan, optimasi, dan bug fixing. Solr adalah platform pencarian NoSQL terpopuler dari proyek Apache Lucene.
  6. Apache Rya 4.0.0-incubating released
    Rya adalah triple store RDF berbasis cloud yang mendukung kueri SPARQL. Rya adalah sistem manajemen data RDF yang dikembangkan di atas Apache Accumulo®. Versi ini adalah rilis Apache yang ketiga dari Rya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2019
  • Comments Off on Seputar Big Data edisi #72
Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

  1. Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
    Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
  2. Using AI to predict breast cancer and personalize care
    Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
  3. Security lapse exposed a Chinese smart city surveillance system
    Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
  4. Driving Business Decisions Using Data Science and Machine Learning
    Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
  5. Choosing the right data security solution for big data environments
    Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
  6. Study shows how big data can be used for personal health
    Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

  1. Partition Management in Hadoop
    Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
  2. The 3 Biggest Mistakes on Learning Data Science
    Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
  3. Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
    Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
  4. Python at Netflix
    Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
  5. Naive Bayes: A Baseline Model for Machine Learning Classification Performance
    Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
  6. How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
    Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

  1. Apache Drill 1.16.0 Release
    Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2019
  • Comments Off on Apa Itu Industri 4.0?
Artificial Intelligece, Big Data, IoT, Social Media

Apa Itu Industri 4.0?

Saat ini dunia sedang memasuki era transformasi yang disebut dengan Industri 4.0. Perusahaan, organisasi, dan bahkan pemerintah menggaungkan persiapan dan kesiapan untuk menyongsongnya. Apa sebenarnya Industri 4.0 ini?

Industri 4.0 adalah sebuah perubahan besar yang ke 4 dalam dunia industri, atau disebut juga dengan revolusi industri ke 4. Sebelumnya dunia industri mengalami perubahan besar yang melalui beberapa fase. Fase pertama adalah revolusi industri yang muncul pada abad ke 18, dengan mulai digunakannya mesin uap dan mekanisasi produksi. Revolusi kedua dimulai di abad ke 19 dengan ditemukannya listrik dan lini perakitan (assembly line) yang memungkinkan dilakukannya produksi massal secara lebih cepat. Revolusi ketiga dimulai pada abad ke 20, tepatnya di tahun 70-an melalui penggunaan komputer dan PLC (programmable logic control). Dengan teknologi tersebut saat ini kita dapat mengotomasi seluruh proses produksi dengan sesedikit mungkin campur tangan manusia.

Pada era industri 4.0 ini, kombinasi antara komputer dan sistem otomasi memiliki bentuk yang baru, yang dikenal dengan nama Cyber Physical System (CPS). Sistem ini terdiri dari mesin cerdas, sistem penyimpanan dan fasilitas produksi yang mampu untuk saling bertukar data, memicu tindakan dan saling mengendalikan satu sama lainnya. Robot dan mesin produksi dengan ribuan sensornya yang merupakan physical system terkoneksi melalui jaringan atau internet ke sistem komputasi yang diperkuat dengan algoritma kecerdasan buatan dan mampu mengendalikannya dengan sedikit intervensi dari manusia.

Revolusi ke 4 ini ditandai dengan pemanfaatan teknologi informasi dan komunikasi. Ciri-cirinya adalah interkonektivitas atau kesalingterhubungan serta sistem cerdas dan otomasi.

Ada 9 komponen yang dianggap sebagai pilar dari Industri 4.0, yaitu :

  1. Big Data and Analytics
    Mesin dan sensor yang saling terhubung menghasilkan data yang sangat besar. Data ini menunjukkan berbagai hal yang berkaitan dengan pemeliharaan, kinerja, dan permasalahan lain. Dengan mengolah data tersebut, dapat diketahui pola dan insight dalam waktu yang singkat, yang mustahil dilakukan oleh manusia. Dengan teknologi ini, industri dapat melakukan optimasi dan perencanaan dengan jauh lebih efisien dan efektif terhadap kegiatan operasional maupun bisnis.
  2. Autonomous Robot
    Sebelumnya robot hanya digunakan oleh industri dan organisasi besar, namun teknologi ini akan menjadi jauh lebih murah dan memiliki jangkauan kemampuan yang lebih besar daripada yang telah digunakan dalam manufaktur saat ini.
  3. Simulation
    Simulasi atau virtual reality, disebut juga dengan digital twin, dapat digunakan untuk melakukan training dan perencanaan. Prinsipnya adalah membuat ‘salinan digital’ dari aset, produk, bahkan manusia, termasuk fungsi dan perilakunya, dari data-data yang dikumpulkan sebanyak mungkin dan sedetail mungkin. Hal ini memungkinkan kontrol dan optimisasi serta deteksi masalah sedini mungkin, sehingga meningkatkan kualitas produk dan mengurangi waktu pengaturan dan waktu henti (down time). NASA menggunakan digital twin ini untuk memantau seluruh Space Center mereka.
  4. Integrasi sistem secara horizontal dan vertikal
    Dengan sistem cerdas dan perangkat IoT, perusahaan, departemen, supplier maupun customer akan menjadi lebih kohesif dan terhubung. Dengan integrasi sistem secara horizontal dan vertikal, informasi akan berjalan mulus dalam rantai produksi, yang memungkinkan.
  5. Industrial Internet of Things (IIoT)
    IIoT dapat digambarkan sebagai jaringan perangkat yang memiliki kecerdasan lokal, yang memungkinkan komunikasi dan interaksi antara berbagai perangkat, mesin, dan produk. Hal ini juga akan dapat mendesentralisasikan proses analitik dan pengambilan keputusan, sehingga memungkinkan respon real time. IIoT saat ini sudah banyak dipergunakan, misalnya untuk keperluan smart metering, asset tracking, monitoring pengiriman secara real-time, dan lain sebagainya.
  6. Augmented Reality
    Berbeda dengan simulasi, augmented reality menggabungkan dunia nyata dan virtual dengan menambahkan informasi berupa teks, gambar, suara, dan lain sebagainya untuk meningkatkan kualitas interaksi pengguna dengan dunia nyata. AR dapat digunakan untuk menghemat biaya produk trial dan display, maupun untuk keperluan training di mana kondisi nyata terlalu berbahaya atau mahal secara biaya atau waktu. Dipopulerkan dan dikenal di seluruh dunia melalui permainan dan aplikasi seperti Pokemon Go, saat ini perusahaan-perusahaan telah memperkenalkan teknologi ini ke bisnis dan aplikasi mereka. IKEA misalnya, menggunakan AR yang memungkinkan pelanggan melihat furnitur terlihat seperti berada di ruangan di rumah mereka, dengan menggunakan data berdasarkan ukuran dan warna.
  7. Cloud
    Berbagai teknologi yang melandasi industri 4.0, seperti digital twin dan IIoT memerlukan sharing data lintas mesin, lintas sistem, tempat, bahkan organisasi. Sejalan dengan itu, kinerja teknologi cloud akan terus berkembang, sehingga waktu reaksinya dapat mencapai milisecond. Hal ini akan mendorong semakin banyaknya mesin dan fungsionalitas yang di-deploy ke atas cloud, mendorong sistem produksi dan rantai pasokan yang lebih bersifat data-driven.
  8. Additive manufacturing
    Manufaktur aditif didefinisikan sebagai proses penggabungan bahan untuk membuat objek dari data model 3D. Metode ini biasanya dilakukan lapis demi lapis, berbeda dengan manufaktur subtraktif yang umum dilakukan saat ini. Metode manufaktur aditif yang kita kenal sekarang adalah 3D printing. Teknologi ini semula lebih banyak digunakan untuk keperluan prototyping, namun saat ini sudah mulai banyak digunakan juga untuk proses produksi, misalnya menyediakan komponen pengganti atau barang yang bernilai tinggi dengan volume rendah.
  9. Cyber Security
    Dengan meningkatnya konektivitas berbagai sistem dan perangkat, resiko ancaman dan serangan dunia maya juga akan meningkat. Karena itu sangat penting bagi perusahaan yang beroperasi di industri 4.0 untuk memiliki fokus pada keamanan siber dan memahami bagaimana mereka dapat melindungi data mereka dan meminimalkan resiko tersebut.

Meskipun Industri 4.0 dalam bentuk yang utuh mungkin masih belum akan kita lihat dalam beberapa tahun ke depan, namun teknologi yang mendasarinya sudah banyak digunakan.
Transformasi digital pun terus bergerak dengan cepat. Mobile internet dengan infrastrukturnya yang semakin memadai. Implementasi cloud computing yang semakin meluas dan biayanya semakin terjangkau. Semua perkembangan tersebut akan menjadi stimulus revolusi industri 4.0, yang akan membawa perubahan radikal di segala sektor industri. Pertanyaan akhirnya adalah : apakah kita siap?

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 06 / 2019
  • Comments Off on Seputar Big Data edisi #71
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #71

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu I bulan Mei 2019

Artikel dan berita

  1. Serbu! Kemenkominfo Buka 25 Ribu Beasiswa Big Data Cs Gratis
    Kementerian Komunikasi dan Informatika (Kemenkominfo) menggagas beasiswa pelatihan melalui Digital Talent Scholarship 2019 bagi 25 ribu peserta. Pelatihan itu meliputi bidang-bidang seperti artificial intelligence (AI), big data, cloud computing, cyber security, internet of things, dan machine learning.
  2. Facebook lets select researchers access ‘privacy-protected’ data
    Facebook memberikan akses khusus terhadap lebih dari 60 peneliti yang dipilih oleh 2 organisasi mitra, Social Science One dan Social Science Research Council (SSRC). Para peneliti tersebut dapat mengakses data yang dilindungi privasi tersebut untuk penelitian mengenai pengaruh media sosial terhadap demokrasi.
  3. Visualizing Disparities: How Mapping and Big Data Can Provide Insight into Social Equity Indicators
    Big data dan informasi geolokasi telah terbukti bermanfaat dalam persiapan dan penanganan bencana. Informasi tersebut juga dapat digunakan untuk mendapatkan insight terhadap komunitas, dan mengidentifikasi berbagai faktor yang mempengaruhi kualitas hidup masyarakat di wilayah tertentu, dengan cara seperti yang diuraikan dalam artikel ini.
  4. Harvard AI determines when tuberculosis becomes resistant to common drugs
    Tuberkulosis (TB) adalah salah satu penyakit paling mematikan di dunia. Pada tahun 2017 tercatat hampir 10 juta orang terinfeksi, dan 1,3 juta kematian terkait TB. Bakteri yang menyebabkan TB pun sulit untuk ditarget karena kemampuannya untuk mengembangkan resistensi terhadap obat tertentu. Para peneliti di Blavatnik Institute di Harvard Medical School telah merancang pendekatan komputasi yang mampu mendeteksi resistensi terhadap obat TB yang biasa digunakan, dengan kecepatan dan akurasi yang sangat baik.
  5. From drone swarms to modified E. Coli: say hello to a new wave of cyberattacks
    Para peneliti menciptakan malware berbasis AI yang dapat digunakan untuk menghasilkan gambar kanker palsu yang dapat menipu dokter yang paling ahli sekalipun. Dengan malware ini, pasien yang sehat bisa jadi akan mendapatkan kemoterapi dan radiasi, sedangkan pasien kanker justru akan dipulangkan begitu saja. Contoh ini menunjukkan bahwa serangan data adalah senjata nuklir abad ke-21. Lebih dari penguasa wilayah, siapapun yang menguasai data mampu memanipulasi perasaan dan pikiran masyarakat. Untuk itu pengambil kebijakan perlu memahami lebih baik resiko keamanan yang dapat muncul dari penggunaan AI.

Tutorial dan pengetahuan teknis

  1. Generative and Analytical Models for Data Analysis
    Artikel ini memberikan penjelasan yang sangat baik mengenai dua pendekatan data analisis yaitu generatif dan analitikal, perbedaan antara keduanya serta apa pentingnya. Dijelaskan juga mengenai apa bagian yang seringkali ‘hilang’ dalam proses data analisis, yang menghambat kesuksesan proses tersebut.
  2. How to Implement VGG, Inception and ResNet Modules for Convolutional Neural Networks from Scratch
    Terdapat beberapa model jaringan saraf convolutional yang telah terbukti berhasil dan berkinerja baik dalam menyelesaikan permasalahan seperti klasifikasi citra. Beberapa model di antaranya menggunakan komponen yang diulang berkali-kali seperti misalnya blok VGG dalam model VGG, modul inception dalam GooLeNet, dan model residual dalam ResNet. Artikel ini menjelaskan mengenai implementasi model-model tersebut dari 0.
  3. Detailed Guide to the Bar Chart in R with ggplot
    Pemilihan jenis grafik untuk menampilkan hasil analisis sangat menentukan kejelasan dan efektivitas penyajian informasi. Salah satu jenis grafik yang paling sederhana namun powerful adalah bar chart. Artikel ini menjelaskan penggunaan ggplot untuk membuat bar chart yang sesuai dengan kebutuhan kita.
  4. Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection
    Bagian kedua dari serial artikel ini membahas mengenai permasalahan-permasalahan yang muncul dari data skew dan garbage collection dalam Spark.
  5. Optimizing Kafka Streams Applications
    Rilis Kafka 2.1.0 memperkenalkan framework optimisasi topologi prosesor pada layer Kafka Stream DSL. Artikel ini menjelaskan mengenai topologi prosesor pada Kafka versi sebelumnya, issue yang muncul yang terkait efisiensi, dan solusinya di versi 2.1.0. Dibahas pula mengenai bagaimana menyalakan optimisasi ini dalam proses upgrade Kafka.
  6. Normalization vs Standardization — Quantitative analysis
    Salah satu issue yang penting machine learning adalah feature scaling atau penskalaan fitur. Dua metode yang paling banyak dibahas adalah normalisasi dan standarisasi. Artikel ini menyajikan eksperimen untuk mencoba menjawab beberapa pertanyaan terkait pemilihan kedua metode tersebut dan dampaknya terhadap model yang dihasilkan.
  7. Improving Uber’s Mapping Accuracy with CatchME
    Transportasi andal membutuhkan peta yang akurat, yang menyediakan layanan seperti routing, navigasi, dan perhitungan perkiraan waktu kedatangan (ETA). Error pada peta dapat mengganggu layanan dan kepuasan pengguna. Uber berbagi pengalaman mengenai pemanfaatan berbagai feedback untuk meningkatkan kualitas peta, khususnya penggunaan GPS trace untuk mengenali inkonsistensi dalam data peta, dengan sistem yang dinamakan CatchMapError (CatchME).

Rilis Produk

  1. Facebook launches PyTorch 1.1 with TensorBoard support
    Facebook meluncurkan PyTorch 1.1 dengan dukungan TensorBoard dan peningkatan kompiler just-in-time (JIT). PyTorch 1.1 hadir dengan API baru, dukungan untuk tensor Boolean, recurrent neural networks kustom, dan peningkatan kompiler JIT untuk mengoptimalkan grafik komputasi.
  2. Open Sourcing Delta Lake
    Delta Lake adalah layer penyimpanan yang menjanjikan keandalan untuk data lake yang dibangun di atas HDFS dan penyimpanan cloud dengan menyediakan transaksi ACID melalui kontrol konkurensi optimis antara penulisan dan isolasi snapshot untuk pembacaan yang konsisten selama penulisan. Delta Lake juga menyediakan built-in data versioning untuk rollbacks dan pembuatan reports yang lebih mudah.Delta Lake tersedia di http://delta.io untuk diunduh dan digunakan di bawah Lisensi Apache 2.0.
  3. RStudio 1.2 Released
    Versi ini dirilis setelah lebih dari setahun development, mencakup banyak peningkatan dan kemampuan baru. Di antaranya, RStudio menjanjikan workbench yang lebih nyaman untuk SQL, Stan, Python, dan D3. Testing kode R yang lebih mudah dengan integrasi untuk shinytest dan testthat. Pembuatan, testing dan publish API dalam R dengan Plumber, serta dukungan background job untuk peningkatan produktivitas.
  4. Apache SINGA (incubating) 2.0.0 Released
    Apache SINGA adalah platform umum deep learning terdistribusi untuk melakukan training terhadap big deep learning model dengan dataset yang besar. Rilis ini mencakup beberapa penambahan fitur.
  5. Apache Beam 2.12.0 released
    Rilis ini mencakup beberapa penambahan fitur, peningkatan, dan perbaikan bugs.
  6. The Apache Software Foundation Announces Apache® SkyWalking™ as a Top-Level Project
    Apache Skywalking adalah tool Application Performance Monitor (APM) yang digunakan di Alibaba, China Eastern Airlines, Huawei, dan lain-lain. Memasuki Apache inkubator pada Desember 2017, baru-baru ini SkyWalking dinyatakan sebagai top level project Apache.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 26 / 2019
  • Comments Off on Seputar Big Data edisi #70
Apache, Artificial Intelligece, Hadoop, Spark, Storm

Seputar Big Data edisi #70

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan April 2019.

Artikel dan berita

  1. EU votes to create gigantic biometrics database
    Parlemen Eropa minggu lalu memilih untuk menghubungkan serangkaian sistem kontrol perbatasan, migrasi, dan penegakan hukum ke dalam database raksasa, yang berisi data biometrik dari warga negara UE dan non-UE. Sistem ini akan menjadi salah satu basis data pelacakan orang terbesar di dunia setelah sistem yang digunakan oleh pemerintah Cina dan sistem Aadhaar di India.
  2. MongoDB extends into a new mobile Realm
    MongoDB mengumumkan akuisisi terhadap Realm, database lightweight yang dioptimalkan untuk perangkat seluler. Realm adalah database embedded berbasis objek yang sering diposisikan sebagai alternatif dari SQLite yang berusia 20 tahun.
  3. Harvard Medical School’s AI estimates protein structures up to a million times faster than previous methods
    Resep pembentukan protein (komponen dasar dari jaringan, enzim dan antibodi) tercantum dalam DNA. Namun DNA hanya menunjukkan komponen apa saja yang membentuknya, bukan struktur atau bentuk akhir dari protein tersebut. Para ahli memperkirakan bahwa diperlukan 13.8 miliar tahun untuk mencari tahu semua konfigurasi yang mungkin dari ribuan amino acid untuk menentukan struktur yang paling tepat. Para peneliti di Harvard Medical School berhasil membuat sebuah program yang dapat memberikan prediksi struktur protein tersebut hingga jutaan kali lebih cepat dari sistem yang ada sekarang, tanpa mengurangi akurasi.
  4. How Can Artificial Intelligence Help Fintech Companies?
    Teknologi keuangan dan perusahaan fintech berada di ujung tombak perkembangan teknologi industri keuangan. Salah satu teknologi yang banyak digunakan adalah kecerdasan buatan. Dengan AI, perusahaan di seluruh dunia mulai melakukan hal-hal luar biasa. Apa saja pemanfaatan AI dalam bidang fintech?
  5. Using AI to Make Knowledge Workers More Effective
    Berbagai kemampuan baru AI membuka kemungkinan kolaborasi antara mesin dan manusia. Dengan AI, mesin dapat memperluas keahlian manusia dan menghasilkan tenaga ahli baru. Sistem semacam ini diperkirakan mempengaruhi 48% tenaga kerja Amerika yang termasuk knowledge-worker, dan lebih dari 230 juta knowledge-worker di dunia. Berikut ini beberapa cara memanfaatkan AI untuk meningkatkan efektifitas tenaga kerja tersebut.
  6. Become a Vital Asset to an Organization: Get a Big Data Hadoop and Apache Spark Developer Certification
    Dalam dunia yang semakin bergantung pada data dan teknologinya, kebutuhan terhadap tenaga yang memiliki kemampuan dalam pengolahan dan analisis data sangat besar. Oleh karenanya, salah satu cara untuk menjadi ‘aset’ penting yang banyak dibutuhkan adalah dengan mendapatkan sertifikasi di bidang teknologi big data, di antaranya Hadoop dan Spark developer.

Tutorial dan pengetahuan teknis

  1. Data Visualization in Python: Matplotlib vs Seaborn
    Seaborn dan Matplotlib adalah dua library Python untuk visualisasi yang paling terkenal. Seaborn menggunakan lebih sedikit sintaks dan memiliki tema default yang memukau dan Matplotlib lebih mudah disesuaikan dengan mengakses kelas-kelasnya.
  2. Fine-Grained Authorization with Apache Kudu and Impala
    Apache Impala memungkinkan otorisasi tingkat object (fine-grained) terhadap semua tabel yang dikelolanya, termasuk tabel Apache Kudu, melalui Apache Sentry. Dalam artikel ini dijelaskan bagaimana menggabungkan otorisasi tersebut dengan otorisasi fine-grained yang dimiliki Apache Kudu untuk mendapatkan deployment multi-tenant yang aman.
  3. Apache Storm Tutorial
    Tutorial dasar mengenai Apache Storm beserta contoh implementasinya.
  4. Architectural Innovations in Convolutional Neural Networks for Image Classification.
    CNN terdiri dari dua elemen yang sangat sederhana, yaitu layer convolutional dan layer pooling. Meskipun sederhana, terdapat hampir tak terbatas cara untuk mengatur layer ini. Dalam tutorial ini Anda akan menemukan beberapa arsitektur kunci untuk penggunaan jaringan saraf convolutional untuk menyelesaikan permasalahan klasifikasi gambar.
  5. [DATASET] Stanford ML Release MRNet Knee MRI Dataset
    Stanford ML Group yang dipimpin oleh Andrew Ng telah merilis MRNet Dataset, yang berisi lebih dari 1000 hasil pemindaian MRI lutut beranotasi serta mengumumkan kompetisi terbuka untuk pembuatan model yang secara otomatis dapat menginterpretasikan data tersebut.

Rilis Produk

  1. Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation
    Dalam proses membangun kembali platform Big Data-nya, Uber menciptakan library Spark open-source bernama Hadoop Upserts dan Incremental (Hudi). Pustaka ini memungkinkan pengguna untuk melakukan operasi seperti memperbarui, menyisipkan, dan menghapus data Parquet yang ada di Hadoop. Setelah meng-opensource-kan Hudi pada 2017 lalu, baru-baru ini Uber menyerahkan Hudi kepada Apache Software Foundation untuk memperluas jangkauan dan dukungan opensource terhadap Hudi.
  2. Apache Accumulo 1.9.3
    Apache Accumulo 1.9.3 mengandung perbaikan bug untuk log write-ahead, compactions, dan lain sebagainya. Pengguna versi sebelumnya disarankan untuk mengupgrade ke versi ini (lihat rilis note untuk keterangan lebih detail).
  3. Apache Kylin 3.0.0-alpha released
    Rilis ini adalah versi alpha dari Kylin v3.0, yang memperkenalkan fitur Real-time OLAP. Seluruh perubahan dalam rilis ini dapat ditemukan di: https://kylin.apache.org/docs/release_notes.html

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 28 / 2019
  • Comments Off on Seputar Big Data edisi #67
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #67

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan Maret 2019.

Artikel dan berita

  1. Turing Award And Million Given To 3 AI Pioneers
    The Association for Computing Machinery (ACM) memberikan penghargaan kepada Yoshua Bengio, Geoffrey Hinton dan Yann LeCun dengan award yang oleh banyak orang dianggap sebagai “Hadiah Nobel komputasi,” untuk inovasi yang mereka buat di bidang AI. Hadiah $1 juta yang didanai oleh Google, dinamai sesuai dengan ahli matematika Inggris Alan Turing, yang meletakkan dasar teoritis untuk ilmu komputer.
  2. McDonalds Orders a Large Side of Personalisation Technology
    McDonalds telah membeli perusahaan teknologi personalisasi dan “logika keputusan”, Dynamic Yield, yang dilaporkan bernilai $300 juta, dan menyatakan bahwa akuisisi tersebut akan membawa MCDonalds menjadi “salah satu perusahaan pertama yang mengintegrasikan teknologi keputusan ke dalam titik penjualan fisik.”
  3. Menilik Dampak AI dalam Tiga Tahun di Indonesia
    Presiden Direktur Microsoft Indonesia Haris Izmee mengatakan hasil penelitian bersama IDC Asia Pasifik menunjukkan bahwa penggunaan AI akan mendorong peningkatan inovasi di Indonesia hingga 1,7 kali lipat. Di Asia Pasifik sendiri, peningkatan inovasi karena AI akan meningkat 1,9 kali lipat. Haris mengatakan hal ini bagus untuk Indonesia. Inovasi dengan penggunaan AI akan menumbuhkan sistem digital ekonomi di Indonesia.
  4. Amazon to fund $10M to improve fairness in AI research
    Amazon bekerja sama dengan US National Science Foundation dengan memberikan total $10 juta dalam hibah penelitian selama tiga tahun ke depan untuk membantu meningkatkan fairness dalam bidang kecerdasan buatan.
  5. How I Built the Perfect Data Science Team
    Bagaimana membangun tim data sains berbeda dari tim development? Baca artikel ini untuk mendapatkan gambaran dari seorang ahli big data, terkait pengalamannya membentuk tim data saintis sejak 12 tahun yang lalu.
  6. 5 Practical Applications of AI in Contemporary Industries
    Saat ini kecerdasan buatan merambah berbagai bidang. Sejumlah elemen AI telah menjadi bagian dari kehidupan kita sehari-hari. Dari rumah pintar dan Internet of Things hingga teknik manufaktur, kecerdasan buatan digunakan saat kita berbicara untuk meningkatkan kehidupan kita. Dalam artikel ini, Anda akan mempelajari lebih lanjut tentang lima cara praktis AI digunakan di beberapa bidang utama.

Tutorial dan pengetahuan teknis

  1. R vs Python for Data Visualization
    Artikel ini menunjukkan pembuatan plot serupa di R dan Python menggunakan dua paket visualisasi data paling populer, yaitu ggplot2 dan Seaborn.
  2. Visualizing Trends in a Time Series With Pandas
    Sekilas mengenai cara menggunakan Python dan library Pandas untuk membuat visualisasi data dengan data yang dikumpulkan dari Google Trends.
  3. Reducing the Need for Labeled Data in Generative Adversarial Networks
    Untuk sintesis gambar alami, hasil canggih dicapai oleh GAN bersyarat yang memerlukan data berlabel untuk training. Pendekatan ini membutuhkan sejumlah besar data berlabel yang biasanya jarang tersedia. Artikel ini menjelaskan mengenai pendekatan baru untuk mengurangi jumlah data berlabel yang diperlukan untuk melatih GAN bersyarat.
  4. Uber Case Study: Choosing the Right HDFS File Format for Your Apache Spark Jobs
    Apache Spark mendukung sejumlah format file yang memungkinkan beberapa records disimpan dalam satu file. Setiap format file memiliki kelebihan dan kekurangannya sendiri. Dalam artikel ini diuraikan mengenai format file yang digunakan oleh tim Pengumpulan Data Maps di Uber untuk memproses sejumlah besar citra dan metadata untuk mengoptimalkan pengalaman bagi konsumen.
  5. Running Apache Flink on Kubernetes
    Artikel ini memaparkan mengenai bagaimana mengembangkan sebuah aplikasi stream prosesing menggunakan Flink di atas Kubernetes.
  6. Data Pipelines, Luigi, Airflow: Everything you need to know
    Posting ini berfokus pada sistem manajemen alur kerja (workflow management system) Airflow : apa itu, apa yang dapat Anda lakukan dengannya, dan bagaimana perbedaannya dari Luigi. Airflow dikembangkan di Airbnb pada tahun 2014 dan pada 2016 ia bergabung dengan program inkubasi Apache. Luigi adalah paket python untuk membangun workflow kompleks, dikembangkan di Spotify.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Unomi™ as a Top-Level Project
    Apache Software Foundation menyatakan bahwa Apache Unomi lepas dari status inkubator dan menjadi top-level project.
    Apache Unomi adalah Customer Data Platform (CDP) berbasis standard, yang mengelola pelanggan online, prospek, dan informasi pengunjung, untuk memberikan pengalaman yang dipersonalisasi dengan memperhatikan aturan privasi seperti GDPR dan pilihan “Do Not Track”. Project ini awalnya dikembangkan oleh Jahia, dan di-submit ke Apache incubator pada Oktober 2015.
  2. Apache Solr 8.0.0 released
    Sebagai rilis utama, Solr 8 menghapus banyak API yang sudah usang, mengubah berbagai default parameter dan perilaku. Beberapa perubahan mungkin memerlukan indeks ulang konten Anda. Oleh karena itu Anda dianjurkan untuk membaca “Upgrade Notes” di http://lucene.apache.org/solr/8_0_0/changes/Changes.html atau dalam file CHANGES.txt yang menyertai rilis. Solr 8.0 juga mencakup banyak fitur baru lainnya dan juga banyak optimisasi dan perbaikan bug dari rilis Apache Lucene yang sesuai.
  3. Kubernetes 1.14: Production-level support for Windows Nodes, Kubectl Updates, Persistent Local Volumes GA
    Kubernetes 1.14 terdiri dari 31 peningkatan: 10 pindah ke level stabil, 12 dalam level beta, dan 7 baru. Tema utama dari rilis ini adalah ekstensibilitas dan mendukung lebih banyak beban kerja di Kubernet dengan tiga fitur utama yang beralih ke general availability, dan fitur keamanan penting yang beralih ke level beta. Lebih banyak peningkatan yang lulus ke tingkat stabil dalam rilis ini daripada rilis Kubernet sebelumnya. Selain itu, dalam rilis ini terdapat peningkatan Pod dan RBAC yang penting.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 22 / 2019
  • Comments Off on Seputar Big Data edisi #66
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #66

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Maret 2019.

Artikel dan berita

  1. Big data AI startup Noble.AI raises a second seed round from a chemical giant
    Noble.AI, sebuah perusahaan AI berbasis yang mengklaim dapat mempercepat pengambilan keputusan dalam R&D, mendapatkan pendanaan baru dari Solvay Ventures, cabang VC dari sebuah perusahaan kimia besar, Solvay SA. Meskipun ronde tersebut dirahasiakan, TechCrunch mengetahui bahwa total pendanaan yang diperoleh Noble.AI hingga saat ini adalah US$8,6 juta.
  2. Big Data – The Budget Myth
    Banyak departemen TI mengimplementasi big data dengan membuat anggaran untuk perangkat keras dan perangkat lunak saja. Mereka tidak menyadari bahwa keberhasilan solusi mereka di masa depan tergantung pada perencanaan anggaran yang efektif untuk beberapa area penting lainnya.
  3. Singapore’s Top 10 High Growth Analytics & AI Startups With The Highest Funding
    Investasi modal ventura di startup Singapura tumbuh subur beberapa tahun terakhir dengan banyak investasi di bidang AI, IoT, analitik, data sains, dan startup cloud. Artikel ini mengulas 10 startup terkemuka di bidang teknologi yang mendapat pendanaan terbesar dalam dua tahun terakhir di Singapura.
  4. UW campuses using big data to predict students at risk of dropping out
    University of Wisconsin System baru-baru ini menyewa jasa konsultan big data untuk membantu mengidentifikasi siswa yang berisiko dan menyelamatkan mereka dari drop out. UW menandatangani kontrak untuk lima tahun senilai $10,8 juta. UW mendapatkan akses ke perangkat lunak analitik prediktif yang menghitung “skor risiko” siswa berdasarkan demografi, nilai tes dan transkrip sekolah menengah mereka.
  5. Researchers teach neural networks to determine crowd emotions
    Para ahli dari Higher School Of Economics telah mengembangkan suatu algoritma yang mendeteksi emosi dari sekelompok orang pada video berkualitas rendah. Solusi ini memberikan keputusan hanya dalam seperseratus detik, lebih cepat daripada algoritma lain yang ada, dengan akurasi yang sama. Hasilnya dijelaskan dalam makalah ‘Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings.’

Tutorial dan pengetahuan teknis

  1. How to Train a Keras Model 20x Faster with a TPU for Free
    Artikel ini menjelaskan bagaimana melatih Model LSTM menggunakan Keras dan Google CoLaboratory dengan TPU untuk mengurangi waktu pelatihan secara eksponensial dibandingkan dengan GPU pada mesin lokal Anda, secara gratis.
  2. A Gentle Introduction to Computer Vision
    Artikel ini menyajikan pengenalan terhadap bidang computer vision (CV), mencakup definisi, tujuan, tantangan dan apa task yang diselesaikan menggunakan CV.
  3. Harnessing Organizational Knowledge for Machine Learning
    Salah satu hambatan terbesar dalam mengembangkan aplikasi pembelajaran mesin (ML) adalah kebutuhan akan kumpulan data berlabel yang besar untuk melatih model. Google bekerja sama dengan Stanford dan Brown University, mengeksplorasi bagaimana pengetahuan yang ada dalam suatu organisasi dapat digunakan sebagai supervisi tingkat tinggi yang lebih ‘noisy’, atau sering disebut ‘weak supervision’, untuk melabeli kumpulan data training dengan cepat.
  4. Using Apache Spark to Query a Remote Authenticated MongoDB Server
    Apache Spark adalah salah satu alat open source paling populer untuk data besar. Pelajari cara menggunakannya untuk mengambil data dari server MongoDB jarak jauh.
  5. SOA vs. EDA: Is Not Life Simply a Series of Events?
    Kapan Anda harus menggunakan API? Kapan Anda harus menggunakan event? Sebagian besar arsitektur perangkat lunak kontemporer adalah gabungan dari dua pendekatan ini. Artikel ini mencoba menjelaskan dalam istilah awam apa itu arsitektur berbasis event (EDA) dan membandingkannya dengan arsitektur berorientasi layanan (SOA).
  6. The Importance of Data Lineage
    Dalam hal pengumpulan dan analisis yang akurat dari sejumlah besar informasi, data lineage merupakan aspek yang sangat penting. Artikel ini menjelaskan mengenai apa itu data lineage, dan mengapa data lineage perlu dicatat.
  7. Top R Packages for Data Cleaning
    Pembersihan data adalah salah satu tugas yang paling penting dan memakan waktu bagi para data saintis. Berikut ini adalah paket R paling populer untuk data cleansing.

Rilis Produk

  1. Apache Kudu 1.9.0 Released
    Rilis 1.9.0 ini adalah rilis minor yang mencakup perbaikan bugs, penambahan fitur, peningkatan dan optimasi.
  2. Apache NiFi 1.9.1 release
    Versi 1.9.1 ini adalah bug dan stability release.
  3. Apache Kylin 2.6.1 released
    Versi ini merupakan rilis bugfix sesudah versi 2.6.0, dengan 7 peningkatan fitur dan 19 perbaikan bugs. Apache Kylin adalah Engine analitik terdistribusi yang dirancang untuk memberikan antarmuka SQL dan analisis multidimensional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 21 / 2019
  • Comments Off on Seputar Big Data edisi #63
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #63

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga Februari 2019.

Artikel dan berita

  1. New AI fake text generator may be too dangerous to release, say creators
    OpenAI, sebuah perusahaan riset nirlaba merilis model bahasa alami yang disebut GPT-2. GPT-2 dilatih dengan sampel 40 gigabytes teks internet, untuk memprediksi kata selanjutnya dari sepotong teks input. Hasil akhirnya adalah sistem yang dapat menghasilkan teks yang realistis dan koheren. OpenAI menyatakan bahwa sistem ini bekerja dengan sangat baik, sehingga dikhawatirkan akan disalahgunakan untuk tujuan negatif seperti misalnya membuat ‘fake-news’. Hal ini mendorong OpenAI untuk membuka sebagian kecil saja dari keseluruhan model tersebut.
  2. How does NASA use big data?
    Istilah “big data” pertama kali digunakan dalam makalah tahun 1997 oleh para ilmuwan di NASA. Volume data yang harus dikelola NASA sangat besar. Menurut Kevin Murphy, Eksekutif Program NASA untuk Sistem Data Ilmu Bumi, NASA – salah satu penghasil data terbesar – menghasilkan 12,1TB data setiap hari dari hampir 100 misi aktif saat ini dan ribuan sensor dan sistem di sekitar Bumi dan luar angkasa. Bagaimana NASA menangani dan mengelola data tersebut?
  3. Google to Spend $13B on US Data Center and Office Construction This Year
    Google akan membangun empat fasilitas data center baru tahun ini, dengan ekspansi besar di tiga lokasi lain. CEO Alphabet, Sundar Pichai mengatakan bahwa setelah menghabiskan $9 miliar pada tahun 2018 untuk pembangunan kantor dan data center, perusahaan akan menaikkan investasi pada 2019 menjadi US $13 miliar.
  4. China’s big data sector to expand rapidly in 2019
    Sektor big data China akan mempertahankan pertumbuhan yang pesat pada 2019. Industri inti di sektor ini diperkirakan bernilai lebih dari 720 miliar yuan (sekitar 106,3 miliar dolar AS) tahun ini, menurut sebuah laporan tentang prospek sektor yang dirilis oleh think tank CCID.
  5. Big Data in the Renewable Energy Sector
    Bagaimana big data dan AI dapat digunakan untuk meningkatkan efisiensi produksi energi terbarukan dan menawarkan peluang untuk mengurangi konsumsi listrik?
  6. Top 10 Data Science Use Cases in Telecom
    Artikel ini menyajikan 10 use case data sains yang paling relevan dan efisien dalam bidang telekomunikasi.
  7. Here Technologies to fund a $28 million research institute that applies machine learning to geolocation data
    Here Technologies, perusahaan di balik platform pemetaan dan lokasi yang populer, mengungkapkan bahwa mereka melakukan investasi sebesar 25 juta Euro (28 juta dolar AS) untuk sebuah lembaga penelitian machine learning baru yang akan mengolah data geolokasi dalam skala industri.

Tutorial dan pengetahuan teknis

  1. Backpropagation for people who are afraid of math
    Backpropagation adalah salah satu konsep terpenting dalam pembelajaran mesin, namun memahami konsepnya bisa jadi cukup menantang bagi banyak orang. Artikel ini berusaha menjabarkan backpropagation dengan jelas dan sederhana, lengkap dengan contoh program, terutama untuk mereka yang ‘alergi’ dengan persamaan matematis yang rumit.
  2. Neural Networks seem to follow a puzzlingly simple strategy to classify images
    Artikel ini membahas bahwa ternyata Deep Neural Networks masih dapat mengenali dengan baik gambar yang diacak dan bagaimana hal ini menunjukkan bahwa DNN ternyata menggunakan strategi yang cukup “sederhana” untuk melakukan klasifikasi gambar, serta beberapa konsekuensinya.
  3. Error Handling for Apache Beam and BigQuery (Java SDK)
    Pernahkah anda berurusan dengan error yang membingungkan dan membuat frustasi ketika bekerja dengan Apache Beam dan BigQuery? Artikel ini mencoba mengupasnya beserta langkah yang perlu dilakukan untuk mengatasinya.
  4. Are BERT Features InterBERTible?
    Setelah word2vec kini muncul teknik baru dalam word embedding, yaitu BERT (Bidirectional Encoder Representations from Transformers) yang diperkenalkan Google pada Oktober lalu. Artikel ini mencoba mengulas BERT dari sisi interpretabilitasnya.
  5. Journey to Event Driven – Part 2: Programming Models for the Event-Driven Architecture
    Setelah pada bagian 1 membahas mengapa “event-first thinking” perlu, artikel ini menjelaskan mengenai berbagai gaya arsitektur yang bersifat event-driven dan membandingkan model skala, persistensi dan model runtimenya, serta contoh high-level dataflow untuk melakukan desain sistem payment processing menggunakan pendekatan ini.

Rilis Produk

  1. SMM 1.2 Released with Powerful New Alerting and Topic Lifecycle Management Features with Schema Registry Integration
    Streams Messaging Manager (SMM) 1.2 menghadirkan tiga fitur yang paling banyak ditunggu SMM user : Topic Lifecycle Management, Alerting dan Integrasi skema registry.
  2. Introducing Nauta: A Distributed Deep Learning Platform for Kubernetes
    Intel merilis platform baru yang dinamai Nauta, yang memungkinkan para ilmuwan dan pengembang data menggunakan Kubernetes dan Docker untuk melakukan deep learning terdistribusi berskala besar. Nauta menyediakan “lingkungan komputasi terdistribusi multi-pengguna” untuk menjalankan eksperimen training model DL pada sistem berbasis prosesor Intel Xeon, menggunakan antarmuka command line, web dan/atau TensorBoard dan didukung oleh Kubeflow dan Docker.
  3. Introducing AresDB: Uber’s GPU-Powered Open Source, Real-time Analytics Engine
    AresDB adalah engine analitik realtime open source yang dikembangkan Uber, memanfaatkan unit pemrosesan grafis (GPU) untuk memungkinkan pengembangan analitik berskala besar.
  4. Apache Flink 1.7.2 released
    Apache Flink 1.7.2 adalah rilis perbaikan bug yang kedua dalam seri 1.7.
  5. Apache Beam 2.10.0 released!
    Rilis 2.10 ini mencakup beberapa perbaikan bug, fitur, dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 07 / 2019
  • Comments Off on Seputar Big Data edisi #61
Artificial Intelligece, Big Data

Seputar Big Data edisi #61

Edisi kali ini menyajikan beberapa topik menarik, mulai dari kegagalan perusahaan menuju “data-driven”, bagaimana AI menentukan dosis kemoterapi sekaligus mengubah regulasi privasi dalam data kesehatan, API baru dari Alexa untuk melacak aktivitas bayi, dan bagaimana bias dapat muncul dalam AI. Dari sisi teknis, terdapat tutorial mengenai data scaling untuk deep learning, tutorial python, testing aplikasi Kafka, kesalahan umum dalam data sains, serta dataset baru untuk pengenalan wajah yang berisi 1 juta foto wajah ter-anotasi.

Seputar Big Data #61 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Februari 2019.

Artikel dan berita

  1. Companies Are Failing in Their Efforts to Become Data-Driven
    Menjadi sebuah perusahaan yang “data-driven” adalah target dari banyak perusahaan, terutama dalam beberapa tahun terakhir ini. Namun menurut survey yang dibuat oleh NewVantage Partners terhadap 64 eksekutif tingkat teknologi dan bisnis yang mewakili perusahaan besar seperti American Express, General Electric, Johnson & Johnson, dll, tujuan ini masih jauh dari pencapaian yang memuaskan. Salah satu hasilnya adalah, sebanyak 72% menyatakan belum berhasil menciptakan “budaya data”, bahkan 53% belum memperlakukan data sebagai aset.
  2. AI able to predict chemotherapy dosages developed
    Penetapan dosis kemoterapi merupakan tantangan tersendiri dalam penatalaksanaan terapi kanker. Para peneliti dari Rumah Sakit Universitas Stanford telah berhasil menggunakan teknologi AI untuk menyesuaikan dosis kemoterapi secara akurat dengan mengidentifikasi pasien yang membutuhkan dosis lebih rendah bahkan sebelum pengobatan dimulai, menurut sebuah penelitian yang diterbitkan dalam Nature Scientific Reports.
  3. Playing Pictionary against computers could help AI learn common sense
    Salah satu hal yang sulit diajarkan kepada mesin adalah mengenai “common-sense”. Pertanyaan semacam “Dapatkah kita makan spaghetti dengan sedotan?”, misalnya, kita bisa menjawabnya dengan : bisa, tapi perlu banyak kesabaran. Peneliti dari Allen Institute for Artificial Intelligence (AI2) merilis permainan online semacam tebak gambar yang menurut mereka dapat membantu mesin mempertajam “common-sense”.
  4. New Advances in AI Could Have a Significant Impact on Health Data Privacy
    Perubahan di bidang kecerdasan buatan semakin cepat sehingga regulator dan legislator mengalami kesulitan untuk mengimbangi. Hal ini sangat dirasakan dalam industri kesehatan, di mana kemajuan yang cepat dalam teknologi AI mulai membuat para profesional kesehatan memikirkan kembali efektivitas dari Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA) yang dirumuskan tahun 1996 dan mempertimbangkan kemungkinan peraturan baru untuk privasi data kesehatan.
  5. Amazon’s Baby Activity Skill API lets Alexa developers build apps that track tots’ activities
    Amazon merilis Baby Skill Activity API, yang memungkinkan pengembang untuk membangun aplikasi pihak ketiga yang membantu pelanggan melacak aktivitas bayi – misalnya mencatat waktu penggantian popok. Dengan Baby Skill Activity API, pengembang dapat membangun keterampilan Alexa dan yang memungkinkan pelanggan untuk dengan mudah login dan menanyakan informasi aktivitas hanya dengan menggunakan suara mereka.
  6. The new AI frontier: Hyperpersonalized automated advertising
    Saat ini banyak iklan otomatis berbasis AI digunakan untuk menghubungkan konsumen ke produk untuk meningkatkan penjualan. Teknologi AI membantu pengiklan memberikan promosi yang lebih relevan yang menghubungkan merek dengan konsumen melalui iklan otomatis yang sangat personal.
  7. This is how AI bias really happens—and why it’s so hard to fix
    Akhir-akhir ini deep learning menjadi dasar dari banyak aplikasi berbasis AI, yang mempengaruhi kehidupan banyak orang. Namun penggunaan data dalam deep learning ini rawan bias, yang dapat berakibat pada ketidakadilan dalam berbagai proses : rekrutmen, penjualan, keamanan dan bahkan dalam sistem hukum pidana. Untuk dapat mengatasinya, kita perlu memahami mekanisme munculnya bias dalam AI, seperti yang diuraikan dalam artikel ini.
  8. Databricks Clinches Microsoft Backing, Plans European Expansion on $250m Series E
    Databricks, spesialis manajemen data dan pembelajaran mesin yang berbasis di San Francisco, telah memperoleh $250 juta dalam putaran pendanaan Seri E dengan Microsoft sebagai investor. CEO Ali Ghodsi mengatakan fokus mereka adalah pada pertumbuhan yang berkelanjutan, dengan investasi di Eropa termasuk peningkatan tim teknis mereka di Belanda, serta peningkatan penjualan.

Tutorial dan pengetahuan teknis

  1. How to Improve Neural Network Stability and Modeling Performance With Data Scaling
    Penggunaan angka bernilai kecil untuk weight dan error dalam deep neural network menjadikan penentuan skala input dan output yang digunakan untuk training menjadi faktor yang penting. Penentuan variabel input yang kurang tepat menyebabkan proses training menjadi lambat atau tidak stabil, dan pada variabel target dapat mengakibatkan meledaknya gradien sehingga proses training menjadi gagal.
    Salah satu yang dapat dilakukan adalah persiapan data menggunakan teknik-teknik normalisasi dan standarisasi input, salah satunya adalah penskalaan data seperti yang dijelaskan dalam tutorial ini.
  2. Guidelines for human-AI interaction design
    Kemajuan dalam kecerdasan buatan (AI) menghasilkan peluang dan tantangan terhadap desain antarmuka pengguna. Prinsip-prinsip interaksi manusia-AI telah dibahas dalam komunitas interaksi manusia-komputer selama lebih dari dua dekade, namun diperlukan lebih banyak penelitian dan inovasi. Dalam tulisan ini diusulkan 18 pedoman desain yang berlaku umum untuk interaksi manusia-AI. Pedoman ini divalidasi melalui beberapa putaran evaluasi termasuk studi pengguna dengan 49 praktisi desain yang menguji 20 produk populer yang berbasis AI.
  3. Getting Your Feet Wet with Stream Processing – Part 2: Testing Your Streaming Application
    Memastikan bahwa suatu solusi berfungsi sama pentingnya dengan mengimplementasikannya. Hal ini menjamin aplikasi berfungsi sesuai rancangan, dapat menangani peristiwa yang tak terduga, dapat berkembang tanpa merusak fungsi yang ada, dll. Pada bagian kedua dari rangkaian artikel ini dijelaskan bagaimana melakukan testing terhadap proses stream yang sudah dibuat sesuai tutorial pada bagian terdahulu.
  4. Python Functions Tutorial: Working With Functions in Python, Part 3
    Dalam tutorial bagian 3 ini dijelaskan mengenai bagaimana membuat fungsi yang ditentukan pengguna, fungsi rekursif, beserta contoh aplikasinya.
  5. From Good to Great Data Science, Part 1: Correlations and Confidence
    Seorang data saintis handal perlu memiliki dasar matematis dan intuisi yang memadai, agar tidak mudah terjerumus dalam berbagai kesalahan dalam interpretasi data. Dalam bagian pertama dari rangkaian artikel ini dijelaskan secara menarik mengenai 2 kesalahan umum yang sering ditemui, dengan menggunakan contoh data dari bidang kesehatan.
  6. [DATASET] IBM Research releases ‘Diversity in Faces’ dataset to advance study of fairness in facial recognition systems
    Tantangan dalam training AI model tergambar dengan jelas dalam teknologi pengenalan wajah, terutama dalam hal fairness. Agar sistem pengenalan wajah dapat bekerja seperti yang diinginkan, data pelatihan harus beragam dan memberikan cakupan yang luas. Gambar harus mencerminkan distribusi fitur di wajah yang kita lihat di seluruh dunia.
    IBM Research merilis dataset besar dan beragam yang disebut Diversity in Faces (DiF) untuk mendukung studi tentang keadilan dan akurasi dalam teknologi pengenalan wajah. DiF menyediakan dataset 1 juta gambar wajah manusia ter-anotasi.

Rilis Produk

  1. Introducing Scylla Open Source 3.0
    Scylla adalah basis data NoSQL open source yang menawarkan skala horisontal dan toleransi kesalahan sebagaimana Apache Cassandra, dengan 10X throughput dan latensi yang rendah dan stabil. Diimplementasikan dalam C ++, desain Scylla yang lebih dekat dengan perangkat keras mengurangi jumlah node basis data yang anda butuhkan secara signifikan untuk beban kerja yang dinamis dengan berbagai kombinasi perangkat keras.
  2. Apache BookKeeper 4.9.0 released
    Rilis 4.9.0 ini adalah milestone baru untuk komunitas Apache BookKeeper. Beberapa update penting diantaranya adalah : perubahan besar dalam manajemen metadata, seperti refactoring metadata ledger untuk membuatnya immutable, menyimpan metadata ledger dalam format biner dan implementasi driver metadata baru berdasarkan Etcd. Selain itu, ada peningkatan besar dalam manajemen memori, tooling, dan dokumentasi.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:123
Tertarik dengan Big Data beserta ekosistemnya? Gabung