:::: MENU ::::

Posts Categorized / Big Data

  • Oct 24 / 2019
  • Comments Off on Seputar Big Data edisi #77
Apache, Artificial Intelligece, Big Data, Blockchain, machine learning

Seputar Big Data edisi #77

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu IV bulan Oktober 2019.

Artikel dan berita

  1. Google confirms ‘quantum supremacy’ breakthrough
    Google mengumumkan secara resmi bahwa mereka berhasil mencapai supremasi kuantum. Google menyatakan bahwa prosesor Sycamore 54-qubit-nya mampu melakukan dalam 200 detik perhitungan yang jika dilakukan oleh superkomputer paling kuat di dunia akan memerlukan waktu 10.000 tahun. Namun klaim ini dibantah oleh IBM dalam blog post mereka Senin lalu.
  2. Microsoft’s AI rewrites sentences based on context
    Salah satu permasalahan pelik bagi mesin dalam percakapan adalah mendeteksi konteks. Padahal konteks pembicaraan adalah bagian yang sangat krusial. Para periset dari Microsoft baru-baru ini melakukan penelitian mengenai penyesuaian ujaran terakhir dari serangkaian percakapan dengan menggunakan konteks yang terakhir dipakai. Penelitian ini diklaim mencapai hasil yang memuaskan dari segi kualitas pengubahan maupun dari segi kualitas respon yang dihasilkan dalam percakapan.
  3. Blockchain’s Shocking Impact on the Restaurant Supply Industry
    Blockchain telah mengubah banyak sektor bisnis, termasuk beberapa sektor yang mungkin tidak diperhitungkan akan terpengaruh. Salah satunya adalah industri supply chain untuk restoran.
  4. Growing Depth Of Background Checks In The Big Data Age
    Pemeriksaan rekam jejak di era big data berkembang menjadi lebih mendalam dan lebih kompleks. Artikel ini mengupas mengenai dampak big data terhadap pemeriksaan latar belakang atau riwayat hidup.

Tutorial dan pengetahuan teknis

  1. How YouTube is Recommending Your Next Video
    Bagaimana YouTube menentukan rekomendasi video selanjutnya untuk anda? Artikel ini mengupas mengenai paper dan algoritma rekomendasi yang digunakan Youtube.
  2. Taking DuckDB for a spin
    DuckDB adalah database kolumnar embedded yang dioptimasi untuk analitics. Posting ini membahas mengenai cara menggunakannya melalui binding Python, dan membandingkan kinerja dengan SQLite pada beberapa query.
  3. Understanding Blockchain Technology by building one in R
    Semua orang berbicara mengenai Blockchain, namun sayangnya tidak banyak yang tahu mengenai teknologi yang mendasarinya. Artikel ini menjelaskan mekanisme kerja blockchain dengan memberikan contoh implementasi sederhana dalam R.
  4. Creating an Open Standard: Machine Learning Governance using Apache Atlas
    Machine learning adalah salah satu kemampuan paling penting bagi bisnis modern untuk tumbuh dan tetap kompetitif saat ini. Tetapi ini menciptakan tantangan tata kelola baru dan unik yang saat ini sulit dikelola. Artikel ini memaparkan mengenai apa dan bagaimana Machine Learning governance dan penerapannya menggunakan Apache Atlas.
  5. Learnings from the journey to continuous deployment
    Pengalaman linkedin dalam melakukan continuous development. Bagaimana mereka memanage ribuan microservice, melakukan frequent rilis dan commit secara seamless dengan tetap mempertahankan kualitas layanan
  6. A Kafka Tutorial for Everyone, no Matter Your Stage in Development
    Kumpulan artikel mengenai tutorial Kafka yang cukup komprehensif, mulai dari dasar pengenalan, setup, development dalam berbagai tahap, sampai testing dan koneksi ke framework lain.

Rilis Produk

  1. Introducing Glow: an open-source toolkit for large-scale genomic analysis
    Glow adalah toolkit open-source yang dibangun di atas Apache Spark™ yang memudahkan dan mempercepat penggabungan data genomic dan fenotip untuk data preparation, analisis statistik, dan pembelajaran mesin pada skala biobank.
  2. Introducing Apache Arrow Flight: A Framework for Fast Data Transport
    Arrow Flight adalah protokol untuk mengirim data dengan cepat dan efisien dalam format Arrow, yang dibangun di atas gRPC. Meskipun masih dalam pengembangan awal, namun Arrow Flight diharapkan akan berperan penting dalam meningkatkan efisiensi pemrosesan data berskala besar.
  3. Open Sourcing Mantis: A Platform For Building Cost-Effective, Realtime, Operations-Focused Applications
    Netflix membuka kode Mantis, platform yang mereka gunakan untuk development. Mantis adalah platform layanan microservice streaming yang memungkinkan para developer untuk meminimalkan cost monitoring dan pengoperasian sistem terdistribusi yang kompleks.
  4. Apache Kylin 2.6.4 released
    Kylin 2.6.4 adalah rilis perbaikan bugs dengan 27 perbaikan di dalamnya. Apache Kylin adalah Distributed Analytics Engine yang menyediakan antarmuka SQL dan analisis multidimensi (OLAP) di atas Apache Hadoop.
  5. Apache Arrow 0.15.0 released
    Versi 1.15.0 ini mencakup 711 penyelesaian isu dari rilis sebelumnya. Apache Arrow adalah platform pengembangan lintas bahasa untuk data dalam memori. Bahasa yang didukung saat ini termasuk C, C ++, C #, Go, Java, JavaScript, MATLAB, Python, R, Ruby, dan Rust.
  6. Beam 2.16.0 Released!
    Apache Beam adalah model pemrograman terpadu untuk mendefinisikan dan menjalankan pipeline pemrosesan data, termasuk ETL, batch, dan stream. Rilis ini mencakup perbaikan bugs, peningkatan serta penambahan fitur dan kinerja.
  7. Apache HBase 2.1.7 is now available for download
    Rilis ini mencakup sekitar 61 perbaikan bugs maupun peningkatan kinerja, termasuk upgrade jackson dan perbaikan terhadap beberapa bug yang kritikal.
  8. Apache Tuweni (incubating) 0.9.0 released
    Apache Tuweni adalah seperangkat library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi lainnya dalam Java dan bahasa JVM lainnya. Mencakup lybrary byte tingkat rendah, serialisasi dan codec deserialisasi (mis. RLP), berbagai fungsi kriptografi dan primitif, dan lain-lain. Saat ini Apache Tuweni mencapai versi 0.9.0 (incubating).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 03 / 2019
  • Comments Off on Seputar Big Data edisi #76
AI, Artificial Intelligece, Big Data, Implementation, machine learning

Seputar Big Data edisi #76

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Oktober 2019.

Artikel dan berita

  1. Industry 4.0: Railways to integrate Big Data, AI
    Kementerian Perkerataapin India berkerja sama dengan Departemen Sains & Teknologi dan IIT-Kanpur, menginisiasi project Industri 4.0, yang mencakup sejumlah teknologi digital seperti AI, Big Data, Machine Learning dan Komputasi Awan.
  2. Big data as graphs
    Infografis 2019 mengenai data yang dihasilkan oleh sosial media, chat platform, music stream dan lainnya.
  3. Google AI’s ALBERT claims top spot in multiple NLP performance benchmarks
    Para peneliti dari Google AI (sebelumnya Google Research) dan Toyota Technological Institute of Chicago telah menciptakan ALBERT, sebuah model AI yang dapat mencapai hasil mutakhir melebihi kinerja manusia. ALBERT saat ini memuncaki peringkat kinerja NLP utama untuk tolok ukur seperti GLUE dan SQuAD 2.0, dan skor kinerja RACE yang tinggi.

Tutorial dan pengetahuan teknis

  1. A lightweight machine learning architecture for IoT streams
    Menjalankan model pembelajaran mesin pada data streaming frekuensi tinggi tidak harus berbiaya mahal. Dengan mempertimbangkan kebutuhan realtime yang kita miliki, kita dapat merancang arsitektur efisien yang dapat ditingkatkan dengan mudah.
  2. Know Your Data: Part 1
    Data cleansing dan ekstraksi fitur adalah pekerjaan yang paling membosankan tetapi harus benar-benar dikuasai untuk membuat model yang akurat. Langkah pertama dalam pemrosesan data adalah mengenal data itu sendiri.
    Artikel ini akan memperkenalkan berbagai jenis data set, objek data dan atribut.
  3. Analyse Kafka messages with SQL queries using Apache Drill
    Pada posting sebelumnya telah dibahas cara menghubungkan MongoDB dengan Apache Drill dan kueri data menggunakan SQL. Dalam posting ini akan dijelaskan bagaimana kita dapat menggunakan kueri SQL yang serupa untuk menganalisis Kafka message.
  4. YARN Capacity Scheduler and Node Labels Part 1
    Bagian pertama dari serial mengenai manajemen antrian YARN, yang bertujuan untuk memberikan gambaran umum tentang cara mengontrol pekerjaan YARN secara otomatis.
    Bagian ini mengeksplorasi bagaimana YARN bekerja dengan antrian, dan berbagai mekanisme yang tersedia untuk mengontrolnya.
  5. Mapping the Underlying Social Structure of Reddit
    Bagaimana mengolah dan menganalisis data untuk mengungkap “struktur sosial” dalam Reddit, situs populer untuk sharing opini dan agregat berita, menggunakan bahasa pemrograman R.
  6. Spark Tutorial: Validating Data in a Spark DataFrame Part Two
    Bagian kedua dari tutorial mengenai berbagai teknik validasi Spark DataFrame. Kali ini berfokus pada konversi User Defined Function (UDF).

Rilis Produk

  1. Google launches TensorFlow 2.0 with tighter Keras integration
    Google akhirnya mengumumkan rilis TensorFlow 2.0 hari ini.
    TensorFlow 2.0 hadir dengan sejumlah perubahan yang dibuat dalam upaya meningkatkan kemudahan penggunaan, seperti penghapusan beberapa API yang dianggap redundant dan integrasi yang ketat dan mengandalkan tf.keras sebagai API tingkat tinggi pusatnya.
  2. Amazon Releases New Public Data Set to Help Address “Cocktail Party” Problem
    Amazon mengumumkan rilis data baru kepada publik yang akan membantu para ilmuwan pidato mengatasi masalah sulit dalam memisahkan sinyal suara di ruang-ruang dengan banyak pembicara.
  3. Introducing Hypothesis GU Funcs, an Open Source Python Package for Unit Testing
    Uber memperkenalkan Hypothesis GU Func, ekstensi untuk paket Hypothesis, yang memungkinkan pengujian berbasis properti dari fungsi NumPy yang di-vektorisasi.
  4. GitHub Releases Dataset of Six Million Open-Source Methods for Code Search Research
    GitHub pekan lalu mengumumkan CodeSearchNet Challenge, yang bertujuan untuk mendorong penhembangan riset dalam bidang pencarian kode. Dataset yang besar dan beberapa model dasar yang menunjukkan kondisi terkini dalam pencarian kode telah dirilis untuk membantu para ilmuwan membangun model untuk tantangan tersebut.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 26 / 2019
  • Comments Off on Seputar Big Data edisi #75
Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Spark

Seputar Big Data edisi #75

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019

Artikel dan berita

  1. Here’s why Databricks is one of the fastest growing big-data startups
    Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini.
  2. Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
    Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda.
  3. 7 Disastrous Cybersecurity Mistakes In A Big Data World
    Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya.
  4. Is Your Data Ready for AI?
    Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.

Tutorial dan pengetahuan teknis

  1. Exploratory Data Analysis: A Practical Guide and Template for Structured Data
    Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”.
  2. Introducing Apache Flink’s State Processor API
    Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream.
  3. BoW to BERT
    Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi.
  4. How to Unlock the Full Potential of Kafka Producers
    Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.

Rilis Produk

  1. Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
    Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks.
  2. This New Open Source Toolkit Aims to Give Chatbots Character
    Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning.
  3. [ANNOUNCE] Apache Ignite 2.7.6 Released
    Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
    Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi.
  4. Waltz: A Distributed Write-Ahead Log
    Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 19 / 2019
  • Comments Off on Seputar Big Data edisi #74
Apache, Artificial Intelligece, Big Data, IoT, Social Media

Seputar Big Data edisi #74

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal dan topik menarik yang layak untuk dibaca kembali hingga pertengahan bulan September 2019

Artikel dan berita

  1. Jutaan Data Penumpang Lion Air Dilaporkan Bocor di Forum Internet
    Puluhan juta data penumpang dua maskapai penerbangan milik Lion Air kabarnya beredar di forum pertukaran data sejak sebulan lalu. Data-data itu diakses dalam penyimpanan cloud Amazon Web Services (AWS) yang dibuka lewat web.
  2. Database leaks data on most of Ecuador’s citizens, including 6.7 million children
    Kebocoran data besar-besaran mengekspos data pribadi lengkap dari hampir setiap individu di Ekuador. Insiden ini berdampak pada sekitar 20 juta orang (sebagai referensi, Ekuador memiliki populasi sekitar 17 juta). Data yang terekspos termasuk 6,7 juta anak di bawah umur dan data presiden Ekuador sendiri.
  3. What’s next for big data after a turbulent 2019?
    Selama awal hingga pertengahan tahun 2019 dipenuhi dengan guncangan yang cukup dahsyat dalam bidang big data dan analisa data. Ditandai dengan gelombang akuisisi yang tampaknya tidak ada habisnya. Diiringi dengan naik turunnya saham vendor Big Data dunia.
  4. Digital transformation in aviation: Big data, IoT, AI & mobility
    Sejak revolusi digital yang dimulai hampir seperempat abad lalu, industri penerbangan selalu berada di garis depan transformasi digital. Saat ini semakin banyak perusahaan yang sangat menyadari kunci dari pemanfaatan penuh potensi pasar penerbangan adalah dengan menawarkan solusi terobosan bentuk baru dengan memanfaatkan teknologi digital.
  5. Can AI Save Our Oceans? Let’s Start With The Data.
    Dekade terakhir ini lautan berada dalam krisis yang sangat mengkhawatirkan dan dapat membahayakan seluruh umat manusia. Masalah serius yang dihadapi mulai dari perubahan iklim, pencemaran plastik hingga penangkapan ikan berlebihan.

Tutorial dan pengetahuan teknis

  1. The 5 Classification Evaluation metrics every Data Scientist must know
    Jika telah selesai membuat model klasifikasi, hal berikutnya adalah mengevaluasi model tersebut untuk meningkatkan akurasinya. Tapi apakah kita hanya menggunakan akurasi sebagai metrik kinerja model kita?
  2. A Quick Introduction To Deep Learning
    Selama beberapa tahun terakhir, deep learning telah meninggalkan laboratorium penelitian untuk menaklukkan dunia nyata. Hasil spektakuler telah dibuat oleh Google, Amazon, Facebook atau pun Microsoft, melalui penggunaan algoritma deep learning telah mendapat eksposur yang luar biasa dari media.
  3. BERT, RoBERTa, DistilBERT, XLNet: Which one to use?
    Hadirnya Google BERT telah menghebohkan dunia NLP. BERT mampu mengungguli metode NLP lainnya. Artikel ini akan membandingkan antara berbagai metode BERT dan turunannya, sehingga kita dapat memilih mana yang paling sesuai untuk kebutuhan.
  4. Social Network Visualization with R
    Analisis dan visualisasi data jejaring sosial menggunakan R, langkah demi langkah lengkap dengan source code.
  5. Doing Multivariate Time Series Forecasting with Recurrent Neural Networks
    Perkiraan Time Series adalah area penting dalam Pembelajaran Mesin. Dengan perkembangan terkini dalam jaringan syaraf tiruan, kita dapat mengatasi berbagai masalah yang sulit dilakukan dengan pendekatan prediksi deret waktu klasik. Artikel ini menjelaskan bagaimana cara menggunakan Keras ‘Long-Short Term Memory (LSTM) untuk Time Series Forecasting dan MLFLow untuk menjalankan model pelacakan.
  6. Using Jakarta EE/MicroProfile to Connect to Apache Kafka: Part Two
    Ekstensi CDI adalah mekanisme di mana kita dapat mengimplementasikan fungsionalitas tambahan di atas CDI container. Ekstensi ini memungkinkan Jakarta EE / MicroProfile untuk terus mengembangkan ekosistem mereka dengan lebih banyak kerangka kerja dan integrasi. Posting ini akan membahas tentang opsi lain untuk mengintegrasikan Jakarta EE / MicroProfile dengan Apache Kafka. Posting pertama dalam seri ini dapat ditemukan di sini : https://dzone.com/articles/using-jakarta-eemicroprofile-to-connect-to-apache.

Rilis Produk

  1. Apache Calcite 1.21.0 released
    Rilis ini mencakup lebih dari 100 penyelesaian issue, termasuk di dalamnya banyak fitur baru, peningkatan secara umum, maupun perbaikan bugs. Calcite adalah framework manajemen data dinamis, yang mendukung berbagai bahasa dan data engine, serta menyediakan SQL parser.
  2. Announcing the General Availability of Cloudera Streams Management
    Cloudera memperkenalkan bundel manajemen dan monitoring untuk Kafka : Cloudera Streams Management (CSM).
  3. Announcing Two New Natural Language Dialog Datasets
    Google merilis 2 dataset baru yang berisi percakapan dalam bahasa Inggris, yang dapat digunakan untuk melatih asisten digital.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2019
  • Comments Off on Seputar Big Data edisi #73
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #73

Setelah lama tidak hadir, kali ini seputar informasi mengenai big data hadir kembali. Informasi yang diambil dari berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site.

Artikel dan berita

  1. Deep learning is about to get easier — and more widespread
    Permasalahan utama dari AI, khususnya deep learning adalah kebutuhan akan data yang sangat besar untuk melatih mesin agar dapat menemukan pola dan hubungan dalam data. Tidak semua perusahaan atau institusi dapat menyediakan data tersebut, oleh karena itu para peneliti terus berusaha mengembangkan metode untuk mengatasi hal ini, agar deep learning dapat lebih mudah dijangkau oleh semua kalangan. Artikel ini menyajikan 3 di antaranya.
  2. Facebook AI’s RoBERTa improves Google’s BERT pretraining methods
    Peneliti Facebook AI dan University of Washington menemukan cara untuk meningkatkan performa BERT yang merupakan model NLP yang dipublikasikan oleh Google. Model baru ini diuji menggunakan dataset untuk benchmark seperti GLUE, SQuAD, dan RACE. Diberi nama RoBERTa singkatan dari “Robustly Optimized BERT approach”, model ini mengadopsi banyak teknik yang digunakan oleh Bidirectional Encoder Representations from Transformers (BERT) miliki Google.
  3. Big Data Is Already A Thing Of The Past: Welcome To Big Data AI
    Sebelumnya, Big Data adalah salah satu frasa yang paling banyak dibicarakan tentang tren teknologi. Saat ini istilah kecerdasan buatan (AI) sudah sangat populer. Kedepannya kombinasi antara Big Data dan AI diprediksi akan menjadi trend baru, sebut saja Big Data AI.
  4. 4 Ways AI-Driven ETL Monitoring Can Help Avoid Glitches
    Proses ETL (Extract, Transform, Load) adalah salah satu proses terpenting dalam analitik big data dan juga merupakan proses terpanjang dan terberat. Jika proses awal ini gagal maka analisa tidak dapat dilakukan dengan baik. Bagaimana AI dan machine learning dapat mendeteksi kesalahan ETL sebelum berubah menjadi analisa yang tidak akurat?

Tutorial dan pengetahuan teknis

  1. Learn Classification with Decision Trees in R
    Salah satu algoritma klasifikasi yang paling mudah adalah decision tree. Dalam artikel ini akan dibahas penggunaan algoritma decision tree yang diimplementasikan menggunakan R.
  2. Real-Time Stream Processing With Apache Kafka Part 2: Kafka Stream API
    Artikel lanjutan dari artikel sebelumnya yang telah membahas apa itu Apache Kafka. Dalam artikel ini akan dibahas mengenai Kafka API khususnya Stream API.
  3. Illustrated: 10 CNN Architectures
    Artikel ini adalah bentuk visualisasi dari 10 arsitektur CNN populer, yang bisa kita gunakan. Digambarkan dengan sederhana dan ringkas sehingga mudah dilihat dan dipahami gambaran keseluruhannya.

Rilis Produk

  1. Announcing the MLflow 1.1 Release
    Minggu ke empat bulan Juli lalu, tim development dari databricks merilis MLflow 1.1. Dalam rilis ini, berfokus pada menyempurnakan komponen pelacakan MLflow dan meningkatkan komponen visualisasi di UI.
  2. Microsoft ML Server 9.4 now available
    Microsoft Machine Learning Server, platform untuk mengimplementasikan machine learning menggunakan R dan Python, telah diperbarui ke versi 9.4. Pembaruan ini mencakup mesin update R 3.5.2 dan Python 3.7.1, dan mendukung integrasi dengan Spark 2.4.
  3. Apache Arrow 0.14.1 released
    Rilis ini merupakan patch rilis yang mencakup penyelesaian 46 issue sejak rilis 1.14.0 pada 8 Juli 2019 lalu. Sebelumnya, rilis 1.14.0 mencakup penyelesaian 602 issue dari rilis 1.13.0. Apache Arrow adalah platform pengembangan lintas bahasa untuk in-memory data.
  4. Apache Kudu 1.10.0 Released
    Versi 1.10.0 adalah rilis minor yang mencakup beberapa fitur baru, peningkatan, optimasi, maupun perbaikan bugs. Kudu adalah mesin penyimpanan untuk data terstruktur yang dirancang dalam konteks ekosistem Apache Hadoop dan mendukung integrasi dengan proyek data analitik lain di dalam maupun di luar Apache.
  5. Apache Solr™ 8.2.0 available
    Rilis ini mencakup beberapa fitur baru, perbaikan, optimasi, dan bug fixing. Solr adalah platform pencarian NoSQL terpopuler dari proyek Apache Lucene.
  6. Apache Rya 4.0.0-incubating released
    Rya adalah triple store RDF berbasis cloud yang mendukung kueri SPARQL. Rya adalah sistem manajemen data RDF yang dikembangkan di atas Apache Accumulo®. Versi ini adalah rilis Apache yang ketiga dari Rya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2019
  • Comments Off on Seputar Big Data edisi #72
Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

  1. Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
    Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
  2. Using AI to predict breast cancer and personalize care
    Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
  3. Security lapse exposed a Chinese smart city surveillance system
    Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
  4. Driving Business Decisions Using Data Science and Machine Learning
    Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
  5. Choosing the right data security solution for big data environments
    Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
  6. Study shows how big data can be used for personal health
    Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

  1. Partition Management in Hadoop
    Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
  2. The 3 Biggest Mistakes on Learning Data Science
    Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
  3. Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
    Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
  4. Python at Netflix
    Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
  5. Naive Bayes: A Baseline Model for Machine Learning Classification Performance
    Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
  6. How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
    Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

  1. Apache Drill 1.16.0 Release
    Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2019
  • Comments Off on Apa Itu Industri 4.0?
Artificial Intelligece, Big Data, IoT, Social Media

Apa Itu Industri 4.0?

Saat ini dunia sedang memasuki era transformasi yang disebut dengan Industri 4.0. Perusahaan, organisasi, dan bahkan pemerintah menggaungkan persiapan dan kesiapan untuk menyongsongnya. Apa sebenarnya Industri 4.0 ini?

Industri 4.0 adalah sebuah perubahan besar yang ke 4 dalam dunia industri, atau disebut juga dengan revolusi industri ke 4. Sebelumnya dunia industri mengalami perubahan besar yang melalui beberapa fase. Fase pertama adalah revolusi industri yang muncul pada abad ke 18, dengan mulai digunakannya mesin uap dan mekanisasi produksi. Revolusi kedua dimulai di abad ke 19 dengan ditemukannya listrik dan lini perakitan (assembly line) yang memungkinkan dilakukannya produksi massal secara lebih cepat. Revolusi ketiga dimulai pada abad ke 20, tepatnya di tahun 70-an melalui penggunaan komputer dan PLC (programmable logic control). Dengan teknologi tersebut saat ini kita dapat mengotomasi seluruh proses produksi dengan sesedikit mungkin campur tangan manusia.

Pada era industri 4.0 ini, kombinasi antara komputer dan sistem otomasi memiliki bentuk yang baru, yang dikenal dengan nama Cyber Physical System (CPS). Sistem ini terdiri dari mesin cerdas, sistem penyimpanan dan fasilitas produksi yang mampu untuk saling bertukar data, memicu tindakan dan saling mengendalikan satu sama lainnya. Robot dan mesin produksi dengan ribuan sensornya yang merupakan physical system terkoneksi melalui jaringan atau internet ke sistem komputasi yang diperkuat dengan algoritma kecerdasan buatan dan mampu mengendalikannya dengan sedikit intervensi dari manusia.

Revolusi ke 4 ini ditandai dengan pemanfaatan teknologi informasi dan komunikasi. Ciri-cirinya adalah interkonektivitas atau kesalingterhubungan serta sistem cerdas dan otomasi.

Ada 9 komponen yang dianggap sebagai pilar dari Industri 4.0, yaitu :

  1. Big Data and Analytics
    Mesin dan sensor yang saling terhubung menghasilkan data yang sangat besar. Data ini menunjukkan berbagai hal yang berkaitan dengan pemeliharaan, kinerja, dan permasalahan lain. Dengan mengolah data tersebut, dapat diketahui pola dan insight dalam waktu yang singkat, yang mustahil dilakukan oleh manusia. Dengan teknologi ini, industri dapat melakukan optimasi dan perencanaan dengan jauh lebih efisien dan efektif terhadap kegiatan operasional maupun bisnis.
  2. Autonomous Robot
    Sebelumnya robot hanya digunakan oleh industri dan organisasi besar, namun teknologi ini akan menjadi jauh lebih murah dan memiliki jangkauan kemampuan yang lebih besar daripada yang telah digunakan dalam manufaktur saat ini.
  3. Simulation
    Simulasi atau virtual reality, disebut juga dengan digital twin, dapat digunakan untuk melakukan training dan perencanaan. Prinsipnya adalah membuat ‘salinan digital’ dari aset, produk, bahkan manusia, termasuk fungsi dan perilakunya, dari data-data yang dikumpulkan sebanyak mungkin dan sedetail mungkin. Hal ini memungkinkan kontrol dan optimisasi serta deteksi masalah sedini mungkin, sehingga meningkatkan kualitas produk dan mengurangi waktu pengaturan dan waktu henti (down time). NASA menggunakan digital twin ini untuk memantau seluruh Space Center mereka.
  4. Integrasi sistem secara horizontal dan vertikal
    Dengan sistem cerdas dan perangkat IoT, perusahaan, departemen, supplier maupun customer akan menjadi lebih kohesif dan terhubung. Dengan integrasi sistem secara horizontal dan vertikal, informasi akan berjalan mulus dalam rantai produksi, yang memungkinkan.
  5. Industrial Internet of Things (IIoT)
    IIoT dapat digambarkan sebagai jaringan perangkat yang memiliki kecerdasan lokal, yang memungkinkan komunikasi dan interaksi antara berbagai perangkat, mesin, dan produk. Hal ini juga akan dapat mendesentralisasikan proses analitik dan pengambilan keputusan, sehingga memungkinkan respon real time. IIoT saat ini sudah banyak dipergunakan, misalnya untuk keperluan smart metering, asset tracking, monitoring pengiriman secara real-time, dan lain sebagainya.
  6. Augmented Reality
    Berbeda dengan simulasi, augmented reality menggabungkan dunia nyata dan virtual dengan menambahkan informasi berupa teks, gambar, suara, dan lain sebagainya untuk meningkatkan kualitas interaksi pengguna dengan dunia nyata. AR dapat digunakan untuk menghemat biaya produk trial dan display, maupun untuk keperluan training di mana kondisi nyata terlalu berbahaya atau mahal secara biaya atau waktu. Dipopulerkan dan dikenal di seluruh dunia melalui permainan dan aplikasi seperti Pokemon Go, saat ini perusahaan-perusahaan telah memperkenalkan teknologi ini ke bisnis dan aplikasi mereka. IKEA misalnya, menggunakan AR yang memungkinkan pelanggan melihat furnitur terlihat seperti berada di ruangan di rumah mereka, dengan menggunakan data berdasarkan ukuran dan warna.
  7. Cloud
    Berbagai teknologi yang melandasi industri 4.0, seperti digital twin dan IIoT memerlukan sharing data lintas mesin, lintas sistem, tempat, bahkan organisasi. Sejalan dengan itu, kinerja teknologi cloud akan terus berkembang, sehingga waktu reaksinya dapat mencapai milisecond. Hal ini akan mendorong semakin banyaknya mesin dan fungsionalitas yang di-deploy ke atas cloud, mendorong sistem produksi dan rantai pasokan yang lebih bersifat data-driven.
  8. Additive manufacturing
    Manufaktur aditif didefinisikan sebagai proses penggabungan bahan untuk membuat objek dari data model 3D. Metode ini biasanya dilakukan lapis demi lapis, berbeda dengan manufaktur subtraktif yang umum dilakukan saat ini. Metode manufaktur aditif yang kita kenal sekarang adalah 3D printing. Teknologi ini semula lebih banyak digunakan untuk keperluan prototyping, namun saat ini sudah mulai banyak digunakan juga untuk proses produksi, misalnya menyediakan komponen pengganti atau barang yang bernilai tinggi dengan volume rendah.
  9. Cyber Security
    Dengan meningkatnya konektivitas berbagai sistem dan perangkat, resiko ancaman dan serangan dunia maya juga akan meningkat. Karena itu sangat penting bagi perusahaan yang beroperasi di industri 4.0 untuk memiliki fokus pada keamanan siber dan memahami bagaimana mereka dapat melindungi data mereka dan meminimalkan resiko tersebut.

Meskipun Industri 4.0 dalam bentuk yang utuh mungkin masih belum akan kita lihat dalam beberapa tahun ke depan, namun teknologi yang mendasarinya sudah banyak digunakan.
Transformasi digital pun terus bergerak dengan cepat. Mobile internet dengan infrastrukturnya yang semakin memadai. Implementasi cloud computing yang semakin meluas dan biayanya semakin terjangkau. Semua perkembangan tersebut akan menjadi stimulus revolusi industri 4.0, yang akan membawa perubahan radikal di segala sektor industri. Pertanyaan akhirnya adalah : apakah kita siap?

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 06 / 2019
  • Comments Off on Seputar Big Data edisi #71
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #71

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu I bulan Mei 2019

Artikel dan berita

  1. Serbu! Kemenkominfo Buka 25 Ribu Beasiswa Big Data Cs Gratis
    Kementerian Komunikasi dan Informatika (Kemenkominfo) menggagas beasiswa pelatihan melalui Digital Talent Scholarship 2019 bagi 25 ribu peserta. Pelatihan itu meliputi bidang-bidang seperti artificial intelligence (AI), big data, cloud computing, cyber security, internet of things, dan machine learning.
  2. Facebook lets select researchers access ‘privacy-protected’ data
    Facebook memberikan akses khusus terhadap lebih dari 60 peneliti yang dipilih oleh 2 organisasi mitra, Social Science One dan Social Science Research Council (SSRC). Para peneliti tersebut dapat mengakses data yang dilindungi privasi tersebut untuk penelitian mengenai pengaruh media sosial terhadap demokrasi.
  3. Visualizing Disparities: How Mapping and Big Data Can Provide Insight into Social Equity Indicators
    Big data dan informasi geolokasi telah terbukti bermanfaat dalam persiapan dan penanganan bencana. Informasi tersebut juga dapat digunakan untuk mendapatkan insight terhadap komunitas, dan mengidentifikasi berbagai faktor yang mempengaruhi kualitas hidup masyarakat di wilayah tertentu, dengan cara seperti yang diuraikan dalam artikel ini.
  4. Harvard AI determines when tuberculosis becomes resistant to common drugs
    Tuberkulosis (TB) adalah salah satu penyakit paling mematikan di dunia. Pada tahun 2017 tercatat hampir 10 juta orang terinfeksi, dan 1,3 juta kematian terkait TB. Bakteri yang menyebabkan TB pun sulit untuk ditarget karena kemampuannya untuk mengembangkan resistensi terhadap obat tertentu. Para peneliti di Blavatnik Institute di Harvard Medical School telah merancang pendekatan komputasi yang mampu mendeteksi resistensi terhadap obat TB yang biasa digunakan, dengan kecepatan dan akurasi yang sangat baik.
  5. From drone swarms to modified E. Coli: say hello to a new wave of cyberattacks
    Para peneliti menciptakan malware berbasis AI yang dapat digunakan untuk menghasilkan gambar kanker palsu yang dapat menipu dokter yang paling ahli sekalipun. Dengan malware ini, pasien yang sehat bisa jadi akan mendapatkan kemoterapi dan radiasi, sedangkan pasien kanker justru akan dipulangkan begitu saja. Contoh ini menunjukkan bahwa serangan data adalah senjata nuklir abad ke-21. Lebih dari penguasa wilayah, siapapun yang menguasai data mampu memanipulasi perasaan dan pikiran masyarakat. Untuk itu pengambil kebijakan perlu memahami lebih baik resiko keamanan yang dapat muncul dari penggunaan AI.

Tutorial dan pengetahuan teknis

  1. Generative and Analytical Models for Data Analysis
    Artikel ini memberikan penjelasan yang sangat baik mengenai dua pendekatan data analisis yaitu generatif dan analitikal, perbedaan antara keduanya serta apa pentingnya. Dijelaskan juga mengenai apa bagian yang seringkali ‘hilang’ dalam proses data analisis, yang menghambat kesuksesan proses tersebut.
  2. How to Implement VGG, Inception and ResNet Modules for Convolutional Neural Networks from Scratch
    Terdapat beberapa model jaringan saraf convolutional yang telah terbukti berhasil dan berkinerja baik dalam menyelesaikan permasalahan seperti klasifikasi citra. Beberapa model di antaranya menggunakan komponen yang diulang berkali-kali seperti misalnya blok VGG dalam model VGG, modul inception dalam GooLeNet, dan model residual dalam ResNet. Artikel ini menjelaskan mengenai implementasi model-model tersebut dari 0.
  3. Detailed Guide to the Bar Chart in R with ggplot
    Pemilihan jenis grafik untuk menampilkan hasil analisis sangat menentukan kejelasan dan efektivitas penyajian informasi. Salah satu jenis grafik yang paling sederhana namun powerful adalah bar chart. Artikel ini menjelaskan penggunaan ggplot untuk membuat bar chart yang sesuai dengan kebutuhan kita.
  4. Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection
    Bagian kedua dari serial artikel ini membahas mengenai permasalahan-permasalahan yang muncul dari data skew dan garbage collection dalam Spark.
  5. Optimizing Kafka Streams Applications
    Rilis Kafka 2.1.0 memperkenalkan framework optimisasi topologi prosesor pada layer Kafka Stream DSL. Artikel ini menjelaskan mengenai topologi prosesor pada Kafka versi sebelumnya, issue yang muncul yang terkait efisiensi, dan solusinya di versi 2.1.0. Dibahas pula mengenai bagaimana menyalakan optimisasi ini dalam proses upgrade Kafka.
  6. Normalization vs Standardization — Quantitative analysis
    Salah satu issue yang penting machine learning adalah feature scaling atau penskalaan fitur. Dua metode yang paling banyak dibahas adalah normalisasi dan standarisasi. Artikel ini menyajikan eksperimen untuk mencoba menjawab beberapa pertanyaan terkait pemilihan kedua metode tersebut dan dampaknya terhadap model yang dihasilkan.
  7. Improving Uber’s Mapping Accuracy with CatchME
    Transportasi andal membutuhkan peta yang akurat, yang menyediakan layanan seperti routing, navigasi, dan perhitungan perkiraan waktu kedatangan (ETA). Error pada peta dapat mengganggu layanan dan kepuasan pengguna. Uber berbagi pengalaman mengenai pemanfaatan berbagai feedback untuk meningkatkan kualitas peta, khususnya penggunaan GPS trace untuk mengenali inkonsistensi dalam data peta, dengan sistem yang dinamakan CatchMapError (CatchME).

Rilis Produk

  1. Facebook launches PyTorch 1.1 with TensorBoard support
    Facebook meluncurkan PyTorch 1.1 dengan dukungan TensorBoard dan peningkatan kompiler just-in-time (JIT). PyTorch 1.1 hadir dengan API baru, dukungan untuk tensor Boolean, recurrent neural networks kustom, dan peningkatan kompiler JIT untuk mengoptimalkan grafik komputasi.
  2. Open Sourcing Delta Lake
    Delta Lake adalah layer penyimpanan yang menjanjikan keandalan untuk data lake yang dibangun di atas HDFS dan penyimpanan cloud dengan menyediakan transaksi ACID melalui kontrol konkurensi optimis antara penulisan dan isolasi snapshot untuk pembacaan yang konsisten selama penulisan. Delta Lake juga menyediakan built-in data versioning untuk rollbacks dan pembuatan reports yang lebih mudah.Delta Lake tersedia di http://delta.io untuk diunduh dan digunakan di bawah Lisensi Apache 2.0.
  3. RStudio 1.2 Released
    Versi ini dirilis setelah lebih dari setahun development, mencakup banyak peningkatan dan kemampuan baru. Di antaranya, RStudio menjanjikan workbench yang lebih nyaman untuk SQL, Stan, Python, dan D3. Testing kode R yang lebih mudah dengan integrasi untuk shinytest dan testthat. Pembuatan, testing dan publish API dalam R dengan Plumber, serta dukungan background job untuk peningkatan produktivitas.
  4. Apache SINGA (incubating) 2.0.0 Released
    Apache SINGA adalah platform umum deep learning terdistribusi untuk melakukan training terhadap big deep learning model dengan dataset yang besar. Rilis ini mencakup beberapa penambahan fitur.
  5. Apache Beam 2.12.0 released
    Rilis ini mencakup beberapa penambahan fitur, peningkatan, dan perbaikan bugs.
  6. The Apache Software Foundation Announces Apache® SkyWalking™ as a Top-Level Project
    Apache Skywalking adalah tool Application Performance Monitor (APM) yang digunakan di Alibaba, China Eastern Airlines, Huawei, dan lain-lain. Memasuki Apache inkubator pada Desember 2017, baru-baru ini SkyWalking dinyatakan sebagai top level project Apache.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234567...12
Tertarik dengan Big Data beserta ekosistemnya? Gabung