:::: MENU ::::

Posts Categorized / Hadoop

  • Sep 25 / 2021
  • Comments Off on Seputar Big Data Edisi #81
AI, Artificial Intelligece, Hadoop, Komunitas, pertanian

Seputar Big Data Edisi #81

Hai temans.. we’re back! Kali ini kembali kami hantarkan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke-4 bulan September 2021.

Artikel dan berita

  1. $5.9 million ransomware attack on farming co-op may cause food shortage
    Koperasi pertanian yang berbasis di Iowa, NEW Cooperative Inc. terkena serangan ransomware yang membuat mereka terpaksa meng-offline-kan sistem. Kelompok BlackMatter yang berada di balik serangan tersebut telah mengajukan permintaan tebusan sebesar 5,9 juta US Dollar. Koperasi pertanian tersebut menyatakan serangan itu dapat berdampak signifikan pada pasokan produk makanan untuk publik jika mereka tidak dapat meng-online-kan kembali sistem mereka.
  2. Gartner Hype Cycle for AI 2021 : AI is moving fast and will be ready for prime time sooner than you think
    Melalui penggunaan pemrosesan bahasa alami (NLP) dan teknologi baru seperti AI generatif, knowledge graph, dan composite AI, organisasi semakin banyak menggunakan solusi AI untuk menciptakan produk baru, memperbaiki produk yang sudah ada, serta menumbuhkan basis pelanggan mereka.
    Empat tren berikut mendominasi lanskap AI tahun ini: Operasionalisasi inisiatif AI; Penggunaan data, model dan komputasi yang efisien; AI yang Bertanggung Jawab (Responsible AI); dan Data untuk AI.
  3. Improved algorithms may be more important for AI performance than faster hardware
    Ketika berbicara tentang AI, inovasi algoritma jauh lebih penting daripada inovasi perangkat keras — terutama jika data yang terlibat mencapai miliaran hingga triliunan. Keesimpulan tersebut diungkapkan tim ilmuwan Computer Science and Artificial Intelligence Laboratory (CSAIL) MIT, yang melakukan apa yang mereka klaim sebagai studi pertama tentang seberapa cepat peningkatan algoritma dalam berbagai contoh kasus.

Tutorial dan pengetahuan teknis

  1. Hadoop Benchmarking dengan Terasort
    Setelah melakukan instalasi ataupun konfigurasi sebuah klaster Hadoop, kita perlu melakukan benchmarking, yaitu menguji apakah MapReduce dan HDFS bekerja dengan baik. Artikel ini menjelaskan mengenai benchmarking klaster Hadoop menggunakan utilitas Terasort.
  2. Using deep learning to detect abusive sequences of member activity
    Tim AI Anti-Penyalahgunaan di LinkedIn menggunakan model untuk mendeteksi dan mencegah berbagai jenis penyalahgunaan, termasuk pembuatan akun palsu, scraping profil anggota, spam otomatis, dan pengambilalihan akun.
    Dalam posting ini dibahas gambaran teknis tentang teknik pemodelan urutan aktifitas, tantangan yang dihadapi, dan bagaimana pemodelan tersebut mengatasi permasalahan yang dihadapi.
  3. Hyperparameter Optimization With Random Search and Grid Search
    Algoritma pembelajaran mesin memiliki hyperparameter yang dapat diatur untuk mendapatkan hasil pemodelan yang terbaik.
    Salah satu cara untuk mendapatkan nilai hyperparameter yang optimal adalah dengan melakukan optimasi atau tuning hyperparameter. Dalam tutorial ini dijelaskan bagaimana melakukan random search dan grid search hyperparameter tuning untuk permasalahan klasifikasi dan regresi, menggunakan scikit-learn.
  4. Getting Started With Kafka and Rust (Part 1)
    Tutorial ini merupakan bagian pertama dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Producer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
  5. [FREE EBOOK] Python Data Science Handbook – Jake VanderPlas.
    Panduan lengkap untuk memulai hands-on machine learning menggunakan Python. Menjelaskan secara detail dan praktis berbagai algoritma machine learning lengkap dengan source code implementasinya menggunakan scikit-learn.
    Disertakan juga penjelasan mengenai package dan library Python yang penting untuk data science: numpy, Pandas, matplotlib, dan tentunya scikit-learn.
    Buku ini juga dapat diakses dan didownload dalam bentuk jupyter notebook.
  6. [DATASET] Casual Conversations Dataset
    Dataset ‘Casual Conversations’ terdiri dari lebih dari 45.000 video (3.011 peserta) dan dimaksudkan untuk menilai kinerja model yang sudah terlatih dalam computer vision dan audio untuk tujuan yang telah disepakati dalam perjanjian pengguna data. Video tersebut menampilkan individu berbayar yang setuju untuk berpartisipasi dalam proyek, dan secara eksplisit memberikan label usia dan jenis kelamin mereka sendiri. Video-video tersebut direkam di AS dengan beragam kelompok orang dewasa dalam berbagai usia, jenis kelamin, dan kelompok warna kulit yang berbeda.

Rilis Produk

  1. Apache Geode 1.14.0
    Apache Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi.
    Rilis ini mencakup sejumlah besar perbaikan bug, peningkatan, dan penambahan beberapa statistik untuk memantau kondisi cluster.
  2. Apache Hudi 0.9.0 released
    Apache Hudi (Hadoop Upserts Deletes and Incrementals) mengelola penyimpanan dataset analitik besar di DFS (Cloud Store, HDFS, atau penyimpanan lain yang kompatibel dengan Hadoop FileSystem) dan menyediakan kemampuan untuk melakukan query.
    Rilis ini mencakup penyelesaian lebih dari 380 issue, terdiri dari fitur-fitur baru serta peningkatan umum dan perbaikan bug. Diantaranya yaitu dukungan untuk Spark SQL DML/DDL, serta beberapa hal penting terkait query, writer, integrasi flink, dan peningkatan delta streamer.
  3. Apache DolphinScheduler 1.3.8 released
    Apache DolphinScheduler adalah sistem penjadwal Big Data workflow visual yang cloud-native. Dalam versi 1.3.8 ini dilakukan banyak optimasi di Doker & K8s. Image docker mendukung banyak arsitektur, seperti arm64, system default parameters optimization , dan sebagainya. Dilakukan pula optimasi dalam hal user experience.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 18 / 2021
  • 0
AI, Apache, Artificial Intelligece, Big Data, Hadoop, Komunitas, machine learning, Spark

Big Data – Definisi, Teknologi dan Implementasinya

Big Data adalah sebuah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisa sekumpulan data yang memiliki jumlah yang sangat besar, baik yang terstruktur, semi terstruktur dan tidak terstruktur. Ada banyak tantangan yang akan dihadapi ketika berhubungan dengan big data, mulai dari bagaimana data diambil, disimpan, hingga masalah keamanan data.

Walaupun Istilah big data sudah sering didengar dan diucapkan, masih banyak diantara kita yang bertanya-tanya: Apa yang dimaksud dengan big data? Apa kegunaan big data? Apa saja teknologi big data? Mengapa big data diperlukan dalam berbagai bidang?

Apa Yang Dimaksud Dengan Big Data?

Tidak ada definisi yang baku mengenai big data. Secara garis besar big data adalah sekumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks sehingga teknologi pemrosesan data tradisional tidak lagi dapat menanganinya dengan baik. Saat ini istilah big data juga sering digunakan untuk menyebut bidang ilmu atau teknologi yang berkaitan dengan pengolahan dan pemanfaatan data tersebut.

Aspek yang paling penting dari big data sebenarnya bukan sekedar pada berapa besarnya data yang bisa disimpan dan diolah, akan tetapi kegunaan atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah tersebut, maka data hanya akan menjadi sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk berbagai hal, seperti meningkatkan kelancaran operasional, ketepatan penjualan, peningkatan kualitas layanan, prediksi atau proyeksi pasar, dan lain sebagainya.

Dalam bidang informatika dikenal sebuah istilah “Garbage in Garbage out” atau masukan sampah akan menghasilkan keluaran sampah juga. Maksudnya adalah jika masukan yang kita berikan ke sistem adalah input berkualitas rendah, maka kualitas outputnya tentu akan rendah juga. Input yang dimaksud di sini adalah data.

Untuk itu, memastikan kualitas input maupun output dalam setiap tahap pengolahan data untuk mendapatkan keluaran akhir yang berkualitas adalah sebuah keharusan dalam implementasi big data.

Karakteristik Big Data

Karakteristik Big Data biasa disebut dengan singkatan 4V, yaitu:

  • Volume : mengacu pada ukuran data yang perlu diproses. Saat ini satuan volume data di dunia telah melampaui zettabyte (1021 byte), bahkan telah banyak perusahaan atau organisasi yang perlu mengolah data sampai ukuran petabytes perharinya. Volume data yang besar ini akan membutuhkan teknologi pemrosesan yang berbeda dari penyimpanan tradisional.
  • Velocity : adalah kecepatan data yang dihasilkan. Data yang dihasilkan dengan kecepatan tinggi membutuhkan teknik pemrosesan yang berbeda dari data transaksi biasa. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data dari mesin ataupun sensor.
  • Variety : Big Data berasal dari berbagai sumber, dan jenisnya termasuk salah satu dari tiga kategori berikut: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang bervariasi ini membutuhkan kemampuan pemrosesan dan algoritma khusus. Contoh data dengan variasi tinggi adalah pemrosesan data sosial media yang terdiri dari teks, gambar, suara, maupun video.
  • Veracity : mengacu pada akurasi atau konsistensi data. Data dengan akurasi tinggi akan memberikan hasil analisis yang berkualitas. Sebaliknya, data dengan akurasi rendah mengandung banyak bias, noise dan abnormalitas. Data ini jika tidak diolah dengan benar akan menghasilkan keluaran yang kurang bermanfaat, bahkan dapat memberikan gambaran atau kesimpulan yang keliru. Veracity merupakan tantangan yang cukup berat dalam pengolahan Big Data.

Di samping 4V tersebut, ada juga yang menambahkan satu lagi sehingga menjadi 5V, yaitu value. Value ini sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang mungkin dihasilkan oleh data. Keempat karakteristik di atas (volume, velocity, variety dan veracity) perlu diolah dan dianalisis untuk dapat memberikan value atau manfaat bagi bisnis maupun kehidupan. Oleh karena itu, karakteristik yang kelima ini berkaitan erat dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas.

Apa Saja Teknologi Big Data?

Perkembangan teknologi big data tidak bisa dilepaskan dari teknologi atau konsep open source. Istilah Big Data terus bergaung seiring dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar mengkontribusikan teknologi big data yang mereka buat dan mereka gunakan ke komunitas open source. Hal inilah yang kemudian menjadi salah satu pendorong utama berkembangnya big data.

Ada banyak sekali teknologi open source yang populer dalam ekosistem big data, berikut ini beberapa di antaranya:

  1. Apache Hadoop
    Apache Hadoop adalah sebuah framework yang memungkinkan untuk melakukan penyimpanan dan pemrosesan data yang besar secara terdistribusi dalam klaster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google seperti Google File System dan Google Map Reduce.
    Hadoop menawarkan 3 hal utama yaitu:

    • Sistem penyimpanan terdistribusi
      Hadoop memiliki sebuah file sistem yang dinamakan Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS merupakan sistem penyimpanan file atau data terdistribusi dalam klaster Hadoop. HDFS terinspirasi dari Google File System.
    • Framework pemrosesan data secara paralel dan terdistribusi
      MapReduce adalah model pemrograman untuk melakukan pemrosesan data besar secara terdistribusi dalam klaster Hadoop. MapReduce bekerja dan mengolah data-data yang berada dalam HDFS.
    • Resource management terdistribusi
      YARN merupakan tools yang menangani resource manajemen dan penjadwalan proses dalam klaster Hadoop. YARN mulai diperkenalkan pada Hadoop 2.0. YARN memisahkan antara layer penyimpanan (HDFS) dan layer pemrosesan (MapReduce). Pada awalnya Hadoop hanya mensupport MapReduce sebagai satu-satunya framework komputasi paralel yang dapat bekerja diatas klaster Hadoop. YARN memungkinkan banyak framework komputasi paralel lain, seperti Spark, Tez, Storm, dsb, untuk bekerja diatas klaster Hadoop dan mengakses data-data dalam HDFS.

    Komponen-komponen Apache Hadoop
    Komponen-komponen Apache Hadoop

  2. Apache Hive
    Apache Hive adalah sebuah framework SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL yang memudahkan untuk melakukan query dan analisis data berukuran besar di atas Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lain seperti Amazon AWS3 dan Alluxio.
    Dukungan Hive terhadap SQL ini sangat membantu portabilitas aplikasi berbasis SQL ke Hadoop, terutama sebagian besar aplikasi data warehouse yang membutuhkan sistem penyimpanan maupun komputasi yang besar.Pada awalnya Hive dikembangkan oleh Facebook untuk digunakan sebagai sistem data warehouse mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang dengan pesat dan banyak diadopsi serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.

    Komponen Utama Apache Hive
    Komponen Utama Apache Hive

    Pada dasarnya Hive hanya sebuah layer untuk menerjemahkan perintah-perintah SQL ke dalam framework komputasi terdistribusi. Hive dapat bekerja menggunakan berbagai framework yang berjalan diatas Hadoop, seperti MapReduce, Tez ataupun Spark.

  3. Apache Spark
    Apache Spark merupakan framework komputasi terdistribusi yang dibangun untuk pemrosesan big data dengan kecepatan tinggi.Apache spark memiliki algoritma yang berbeda dengan MapReduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API dalam Scala, Java, Python, dan SQL, serta dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, komputasi graph, dan SQL.Selain HDFS, Spark juga dapat digunakan di atas file system lain seperti Cassandra, Amazon AWS3, dan penyimpanan awan yang lain.Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini dapat meningkatkan kecepatan pemrosesan aplikasi secara drastis. Untuk kasus tertentu, kecepatan pemrosesan Spark bahkan dapat mencapai 100 kali dibanding pemrosesan menggunakan disk seperti MapReduce.Jika MapReduce lebih sesuai digunakan untuk pemrosesan batch dengan dataset yang sangat besar, maka Spark sangat sesuai untuk pemrosesan iteratif dan live-streaming, sehingga Spark banyak dimanfaatkan untuk machine learning.Spark adalah salah satu sub project Hadoop yang dikembangkan pada tahun 2009 di AMPLab UC Berkeley. Sejak tahun 2009, lebih dari 1200 developer telah berkontribusi pada project Apache Spark.

Selain 3 teknologi tersebut, sebenarnya masih sangat banyak teknologi dan framework big data lainnya yang bersifat open source seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka dan lain sebagainya.

Big Data Pipeline

Untuk dapat memberikan nilai yang bermanfaat, data harus melalui berbagai tahapan pemrosesan terlebih dahulu. Mulai dari pencatatan/pembuatan, pengumpulan, penyimpanan, pengayaan, analisis dan pemrosesan lebih lanjut, hingga penyajian. Rangkaian proses data ini biasa disebut dengan Data Pipeline.

Secara garis besar Big Data Pipeline dapat dibagi menjadi 3, yaitu :

    • Data Engineering: tercakup di dalamnya data collection, ingestion, cleansing, transformation dan enrichment.
    • Data Analytics / Machine Learning: mencakup feature engineering dan komputasi.
    • Data Delivery: penyajian data, termasuk penerapan model dalam aplikasi atau sistem, visualisasi, dan lain sebagainya.

Data Processing Pipeline
Data Processing Pipeline

Big Data Analytics

Saat ini jika kita berbicara mengenai big data, maka biasanya yang dimaksud adalah big data analytics. Hal ini cukup wajar, karena ketika sebuah proyek big data dimulai, tentu saja hasil akhir yang diharapkan adalah mendapatkan insight yang bermanfaat, yang dapat membantu pengambilan keputusan.

Data Analytics sendiri adalah serangkaian proses untuk menggali informasi atau insight dari kumpulan data. Informasi tersebut dapat berupa pola, korelasi, trend, dan lain sebagainya. Data analytics seringkali melibatkan teknik dan algoritma pengolahan data yang cukup kompleks seperti data mining maupun perhitungan statistik.

Dalam Big Data Analytics, tingkat kesulitannya semakin besar karena data yang diproses diperoleh dari berbagai sumber dengan bentuk dan jenis yang berbeda-beda, dan ukuran serta kecepatan yang besar pula. Oleh karena itu Big Data Analytics banyak menggunakan teknik dan algoritma yang lebih advance seperti predictive model dan machine learning untuk melihat trend, pola, korelasi dan insight lainnya.

Secara umum big data analytics terbagi 4 kategori yaitu:

    1. Descriptive Analytics
      Analisis ini digunakan untuk menjawab pertanyaan mengenai apa yang sedang terjadi. Hampir semua organisasi telah mengimplementasikan analisis jenis ini.
    2. Diagnostic Analytics
      Setelah mengetahui apa yang terjadi, biasanya pertanyaan berikutnya adalah mengapa bisa terjadi. Analisa jenis ini menggunakan drill-down data untuk mencari alasan lebih mendalam mengenai apa yang sedang terjadi.
    3. Predictive Analytics
      Analisis prediktif memberikan prediksi mengenai apa yang akan terjadi berdasarkan data-data yang ada. Analisa jenis ini menggunakan teknik dan algoritma machine learning dan artificial intelligence untuk menghasilkan model prediksi berdasarkan data-data historis.
    4. Prescriptive Analytics
      Memanfaatkan analisis deskriptif dan prediktif, analisis jenis ini memberikan insight untuk dapat memperoleh hasil yang sesuai dengan apa yang telah diprediksikan.

Implementasi Big Data dalam Bisnis
Jenis dan Tingkatan Data Analytics

Implementasi Big Data dalam Bisnis

Kebiasaan manusia dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat adalah kunci untuk bertahan dalam bisnis. Data adalah salah satu penentu keberhasilan dalam pengambilan keputusan.

Customer Profiling
Pola dan profil pelanggan dapat dipelajari melalui data-data yang dibuat oleh pelanggan ketika sedang berinteraksi dengan produk, baik secara langsung, melalui website ataupun menggunakan aplikasi. Saat ini data profil pelanggan dapat diperluas lagi dengan menyertakan informasi geolokasi, bahkan data-data sosial media yang mereka buat.

Semakin banyak data yang dikumpulkan, serta makin canggihnya proses pengolahan data tersebut, maka informasi yang akurat dan detail mengenai profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang tepat kepada pelanggan sehingga dapat meningkatkan penjualan maupun loyalitas pelanggan.

Product Development
Membangun produk dari sebuah ide yang pada akhirnya dapat diterima dengan baik oleh pasar merupakan sebuah tantangan. Big data dapat memberikan insight yang mendalam
untuk mengidentifikasikan kebutuhan pasar, melihat respon pelanggan melalui komentar pada forum atau sosial media, mengevaluasi kinerja penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, hingga mengoptimalkan strategi pemasaran.

Semakin baik pengelolaan data dan semakin cepat ketersediaan dapat akan dapat terus untuk membuat produk yang berkesinambungan sehingga memberikan nilai yang baik di bagi pelanggan dan pengguna.

Price Optimization
Harga bisa menjadi kunci bagi pelanggan untuk menentukan produk yang akan dibeli. Akan tetapi perang harga pun dapat memberikan pengaruh buruk bagi produk itu sendiri. Big data dapat memberikan peta dan pola harga yang ada di pasar, sehingga produsen dapat menentukan harga yang optimal dan promosi harga yang sesuai dengan kebutuhan pasar.

Big Data untuk Telekomunikasi

Telekomunikasi merupakan salah satu sektor yang mau tidak mau harus berurusan dengan big data. Terlebih lagi saat ini layanan telekomunikasi bisa dibilang adalah jantung dari dunia digital kita. Jika data sering disebut sebagai ‘the new oil’, maka penyedia layanan telekomunikasi seperti memiliki sebuah tambang minyak yang sangat produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.

Big Data untuk Kesehatan

Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu bidang kesehatan termasuk sektor yang memiliki tantangan besar di bidang big data.

Integrasi data, akurasi data dan kecepatan perolehan data merupakan hal yang sangat penting dalam bidang kesehatan, karena hal ini menyangkut keselamatan pasien. Tidak hanya itu, jumlah tenaga medis dan rumah sakit pun masih sangat kurang dibanding dengan potensi pasien, terlebih di masa pandemi seperti saat ini. Insight yang diperoleh melalui big data dapat digunakan untuk membantu mengatasi permasalahan tersebut, diantaranya yaitu untuk penegakan diagnosa yang lebih akurat, personalisasi obat-obatan, peningkatan pelayanan rumah sakit hingga optimalisasi operasional rumah sakit.

Kecerdasan Buatan (Artificial Intelligence) dan Big Data

Setelah implementasi big data dalam arti pengelolaan dan analisa data dapat dilakukan dengan baik, tantangan berikutnya adalah bagaimana dengan data itu kita bisa melatih mesin untuk dapat belajar sehingga dapat bekerja dan memberikan insight secara otomatis, cepat, dan akurat. Maka Artificial Intelligence, Machine Learning dan Deep Learning muncul kembali dan menjadi trend baru di masa kini.

Lalu apa perbedaan AI, machine learning dan deep learning? Secara ruang lingkup, deep learning merupakan bagian dari machine learning, dan machine learning merupakan bagian dari artificial intelligence. Inti ketiganya adalah bagaimana membuat mesin atau komputer menjadi cerdas. Tujuan utamanya yaitu untuk mengurangi campur tangan manusia dalam memberikan insight ataupun dalam melakukan berbagai pekerjaan manusia.

Hubungan AI, Machine Learning, dan Deep Learning
Hubungan AI, Machine Learning, dan Deep Learning

Artificial intelligence sendiri bukan merupakan hal baru, akan tetapi bidang ini mulai berkembang dengan sangat pesat dan menjadi sebuah trend setelah munculnya big data. Hal ini dikarenakan ketersediaan data yang melimpah, yang telah dapat ‘ditaklukkan’ dengan big data, yang merupakan materi utama bagi mesin untuk belajar dan menjadi cerdas.

Tidak hanya data, teknologi juga memegang peranan penting bagi perkembangan artificial intelligence. Berbagai perangkat dan teknologi dengan performa yang sangat tinggi saat ini sudah tersedia secara relatif murah dan terjangkau. Jika semula artificial intelligence dianggap sebagai sesuatu yang canggih dan hanya bisa diterapkan menggunakan teknologi yang tinggi dan mahal, saat ini artificial intelligence sudah dapat diimplementasikan pada berbagai perangkat dan sistem yang digunakan sehari-hari.

Komunitas Big Data Indonesia

idBigData adalah komunitas big data Indonesia yang dideklarasikan pada tanggal 2 Desember 2014. Pada saat itu big data masih menjadi sebuah hal yang relatif baru di Indonesia. Belum banyak orang yang paham mengenai apa itu big data, apa kegunaannya, dan bagaimana memanfaatkannya. Maka dibentuknya idBigData sebagai komunitas big data Indonesia bertujuan untuk menjadi wadah berkumpulnya komponen masyarakat dari berbagai bidang untuk saling bertukar pengetahuan dan pengalaman, serta menjalin berbagai kerja sama dalam bidang big data serta pemanfaatannya, termasuk di dalamnya data science dan artificial intelligence.

Contributor :


Tim idbigdata
Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 28 / 2019
  • Comments Off on Seputar Big Data edisi #79
Seputar Big Data #79
AI, Apache, Artificial Intelligece, Big Data, Google, Hadoop, Komunitas, machine learning, Medical Analytics, Social Media

Seputar Big Data edisi #79

Seputar Big Data #79

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pekan terakhir bulan November 2019

Artikel dan berita
  1. How to Become a Data Scientist (Skills + Qualifications)
    Kebutuhan akan data scientist saat ini sedang meningkat. Karir sebagai data scientist merupakan karir yang banyak dicita-citakan dan menawarkan gaji yang menggiurkan.
  2. An Intro to AI for people that hate math and can’t code
    Berikut adalah kursus singkat AI untuk manajer, pemilik bisnis, dan peran non-teknis lainnya yang ingin memahami Kecerdasan Buatan untuk mulai menggunakannya dalam institusi.
  3. McKinsey survey: AI boosts revenue, but companies struggle to scale use
    Survei Global McKinsey terbaru yang dirilis pekan lalu menemukan bahwa kecerdasan buatan memiliki dampak positif pada hasil bisnis, dengan 63% responden melaporkan peningkatan pendapatan setelah adopsi teknologi. Namun, hanya 30% perusahaan yang menerapkan AI ke beberapa unit bisnis, atau naik dari 21% tahun lalu.
  4. Introducing the Next Generation of On-Device Vision Models: MobileNetV3 and MobileNetEdgeTPU
    Google mengumumkan rilis source code dan checkpoint untuk model MobileNetV3 dan MobileNetEdgeTPU. Model-model tersebut adalah hasil perkembangan terbaru dalam teknik AutoML yang mengenali perangkat keras serta perkembangan dalam desain arsitektur. Pada CPU seluler, MobileNetV3 dua kali lebih cepat dari MobileNetV2 dengan akurasi yang setara, dan semakin maju untuk jaringan computer vision mobile.
  5. Powered by AI: Instagram’s Explore recommender system
    Menurut Facebook, lebih dari setengah pengguna Instagram yang mencapai 1 miliar mengunjungi Instagram Explore untuk menemukan video, foto, streaming langsung, dan Story setiap bulannya. Oleh karena itu, membangun mesin rekomendasi menjadi tantangan teknis, salah satunya karena tuntutan fungsi real time. Dalam posting blog ini Facebook mengupas cara kerja Instagram Explore, yang menggunakan bahasa kueri dan teknik pemodelan kustom. Sistem ini mengekstrak setidaknya 65 miliar fitur dan membuat 90 juta prediksi model setiap detiknya.
Tutorial dan Pengetahuan Teknis
  1. Scaling Apache Airflow for Machine Learning Workflows
    Apache Airflow adalah platform yang cukup populer untuk membuat, menjadwalkan, dan memantau workflow dengan Python, tetapi ia dibuat untuk keperluan proses ETL. Dengan menggunakan Valohai, kita dapat menggunakan Apache Airflow untuk membantu proses machine learning.
  2. Google’s BERT changing the NLP Landscape
    Salah satu perkembangan drastis dalam Pemrosesan Bahasa Alami (NLP) adalah peluncuran Representasi Encoder Bidirectional Google dari Transformers, atau model BERT - model yang disebut model NLP terbaik yang pernah didasarkan pada kinerja superiornya atas berbagai macam tugas.
  3. Exploring Apache NiFi 1.10: Parameters and Stateless Engine
    Pada artikel ini, dibahas versi terbaru Apache NiFi dan bagaimana menggunakan dua fitur baru terbesar: parameter dan stateless.
  4. Unsupervised Sentiment Analysis
    Salah satu implementasi dari metode NLP adalah analisa sentimen, di mana Anda mencoba mengekstrak informasi mengenai emosi penulis. Artikel berikut menjelaskan cara melakukan analisa sentimen menggunakan data tanpa label.
  5. Text Encoding: A Review
    Kunci untuk melakukan operasi teks mining adalah mengubah teks menjadi vektor numerik, atau biasa disebut text encoding. Setelah teks ditransformasi menjadi angka, kita dapat memanfaatkan berbagai algoritma pembelajaran mesin untuk klasifikasi dan klastering. Artikel ini membahas beberapa teknik encoding yang banyak digunakan dalam teks mining.
Rilis Produk
  1. Apache BookKeeper 4.10.0 released
    The 4.10.0 release incorporates hundreds of bug fixes, improvements, and features since previous major release, 4.9.0. Apache BookKeeper/DistributedLog users are encouraged to upgrade to 4.10.0.
    Rilis 4.10.0 adalah rilis major, yang mencakup ratusan perbaikan bug, peningkatan, dan fitur sejak rilis 4.9.0. Pengguna Apache BookKeeper/DistributedLog disarankan untuk melakukan upgrade ke 4.10.0.
  2. Apache Libcloud 2.6.1 release
    Libcloud adalah library Python yang mengabstraksi perbedaan berbagai API penyedia cloud. Library ini memungkinkan pengguna untuk mengelola layanan cloud (server, penyimpanan, load balancer, DNS, containers as a service) yang ditawarkan oleh banyak penyedia berbeda melalui API tunggal, terpadu, dan mudah digunakan.
    Libcloud v2.6.1 mencakup berbagai perbaikan bug dan peningkatan.
  3. Apache Kudu 1.11.1 Released
    Apache Kudu 1.11.1 adalah rilis perbaikan bugs.


Contributor :

Tim idbigdata always connect to collaborate every innovation 🙂
  • Sep 26 / 2019
  • Comments Off on Seputar Big Data edisi #75
Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Spark

Seputar Big Data edisi #75

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019

Artikel dan berita

  1. Here’s why Databricks is one of the fastest growing big-data startups
    Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini.
  2. Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
    Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda.
  3. 7 Disastrous Cybersecurity Mistakes In A Big Data World
    Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya.
  4. Is Your Data Ready for AI?
    Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.

Tutorial dan pengetahuan teknis

  1. Exploratory Data Analysis: A Practical Guide and Template for Structured Data
    Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”.
  2. Introducing Apache Flink’s State Processor API
    Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream.
  3. BoW to BERT
    Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi.
  4. How to Unlock the Full Potential of Kafka Producers
    Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.

Rilis Produk

  1. Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
    Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks.
  2. This New Open Source Toolkit Aims to Give Chatbots Character
    Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning.
  3. [ANNOUNCE] Apache Ignite 2.7.6 Released
    Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
    Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi.
  4. Waltz: A Distributed Write-Ahead Log
    Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2019
  • Comments Off on Seputar Big Data edisi #72
Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

  1. Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
    Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
  2. Using AI to predict breast cancer and personalize care
    Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
  3. Security lapse exposed a Chinese smart city surveillance system
    Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
  4. Driving Business Decisions Using Data Science and Machine Learning
    Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
  5. Choosing the right data security solution for big data environments
    Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
  6. Study shows how big data can be used for personal health
    Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

  1. Partition Management in Hadoop
    Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
  2. The 3 Biggest Mistakes on Learning Data Science
    Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
  3. Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
    Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
  4. Python at Netflix
    Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
  5. Naive Bayes: A Baseline Model for Machine Learning Classification Performance
    Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
  6. How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
    Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

  1. Apache Drill 1.16.0 Release
    Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 26 / 2019
  • Comments Off on Seputar Big Data edisi #70
Apache, Artificial Intelligece, Hadoop, Spark, Storm

Seputar Big Data edisi #70

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan April 2019.

Artikel dan berita

  1. EU votes to create gigantic biometrics database
    Parlemen Eropa minggu lalu memilih untuk menghubungkan serangkaian sistem kontrol perbatasan, migrasi, dan penegakan hukum ke dalam database raksasa, yang berisi data biometrik dari warga negara UE dan non-UE. Sistem ini akan menjadi salah satu basis data pelacakan orang terbesar di dunia setelah sistem yang digunakan oleh pemerintah Cina dan sistem Aadhaar di India.
  2. MongoDB extends into a new mobile Realm
    MongoDB mengumumkan akuisisi terhadap Realm, database lightweight yang dioptimalkan untuk perangkat seluler. Realm adalah database embedded berbasis objek yang sering diposisikan sebagai alternatif dari SQLite yang berusia 20 tahun.
  3. Harvard Medical School’s AI estimates protein structures up to a million times faster than previous methods
    Resep pembentukan protein (komponen dasar dari jaringan, enzim dan antibodi) tercantum dalam DNA. Namun DNA hanya menunjukkan komponen apa saja yang membentuknya, bukan struktur atau bentuk akhir dari protein tersebut. Para ahli memperkirakan bahwa diperlukan 13.8 miliar tahun untuk mencari tahu semua konfigurasi yang mungkin dari ribuan amino acid untuk menentukan struktur yang paling tepat. Para peneliti di Harvard Medical School berhasil membuat sebuah program yang dapat memberikan prediksi struktur protein tersebut hingga jutaan kali lebih cepat dari sistem yang ada sekarang, tanpa mengurangi akurasi.
  4. How Can Artificial Intelligence Help Fintech Companies?
    Teknologi keuangan dan perusahaan fintech berada di ujung tombak perkembangan teknologi industri keuangan. Salah satu teknologi yang banyak digunakan adalah kecerdasan buatan. Dengan AI, perusahaan di seluruh dunia mulai melakukan hal-hal luar biasa. Apa saja pemanfaatan AI dalam bidang fintech?
  5. Using AI to Make Knowledge Workers More Effective
    Berbagai kemampuan baru AI membuka kemungkinan kolaborasi antara mesin dan manusia. Dengan AI, mesin dapat memperluas keahlian manusia dan menghasilkan tenaga ahli baru. Sistem semacam ini diperkirakan mempengaruhi 48% tenaga kerja Amerika yang termasuk knowledge-worker, dan lebih dari 230 juta knowledge-worker di dunia. Berikut ini beberapa cara memanfaatkan AI untuk meningkatkan efektifitas tenaga kerja tersebut.
  6. Become a Vital Asset to an Organization: Get a Big Data Hadoop and Apache Spark Developer Certification
    Dalam dunia yang semakin bergantung pada data dan teknologinya, kebutuhan terhadap tenaga yang memiliki kemampuan dalam pengolahan dan analisis data sangat besar. Oleh karenanya, salah satu cara untuk menjadi ‘aset’ penting yang banyak dibutuhkan adalah dengan mendapatkan sertifikasi di bidang teknologi big data, di antaranya Hadoop dan Spark developer.

Tutorial dan pengetahuan teknis

  1. Data Visualization in Python: Matplotlib vs Seaborn
    Seaborn dan Matplotlib adalah dua library Python untuk visualisasi yang paling terkenal. Seaborn menggunakan lebih sedikit sintaks dan memiliki tema default yang memukau dan Matplotlib lebih mudah disesuaikan dengan mengakses kelas-kelasnya.
  2. Fine-Grained Authorization with Apache Kudu and Impala
    Apache Impala memungkinkan otorisasi tingkat object (fine-grained) terhadap semua tabel yang dikelolanya, termasuk tabel Apache Kudu, melalui Apache Sentry. Dalam artikel ini dijelaskan bagaimana menggabungkan otorisasi tersebut dengan otorisasi fine-grained yang dimiliki Apache Kudu untuk mendapatkan deployment multi-tenant yang aman.
  3. Apache Storm Tutorial
    Tutorial dasar mengenai Apache Storm beserta contoh implementasinya.
  4. Architectural Innovations in Convolutional Neural Networks for Image Classification.
    CNN terdiri dari dua elemen yang sangat sederhana, yaitu layer convolutional dan layer pooling. Meskipun sederhana, terdapat hampir tak terbatas cara untuk mengatur layer ini. Dalam tutorial ini Anda akan menemukan beberapa arsitektur kunci untuk penggunaan jaringan saraf convolutional untuk menyelesaikan permasalahan klasifikasi gambar.
  5. [DATASET] Stanford ML Release MRNet Knee MRI Dataset
    Stanford ML Group yang dipimpin oleh Andrew Ng telah merilis MRNet Dataset, yang berisi lebih dari 1000 hasil pemindaian MRI lutut beranotasi serta mengumumkan kompetisi terbuka untuk pembuatan model yang secara otomatis dapat menginterpretasikan data tersebut.

Rilis Produk

  1. Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation
    Dalam proses membangun kembali platform Big Data-nya, Uber menciptakan library Spark open-source bernama Hadoop Upserts dan Incremental (Hudi). Pustaka ini memungkinkan pengguna untuk melakukan operasi seperti memperbarui, menyisipkan, dan menghapus data Parquet yang ada di Hadoop. Setelah meng-opensource-kan Hudi pada 2017 lalu, baru-baru ini Uber menyerahkan Hudi kepada Apache Software Foundation untuk memperluas jangkauan dan dukungan opensource terhadap Hudi.
  2. Apache Accumulo 1.9.3
    Apache Accumulo 1.9.3 mengandung perbaikan bug untuk log write-ahead, compactions, dan lain sebagainya. Pengguna versi sebelumnya disarankan untuk mengupgrade ke versi ini (lihat rilis note untuk keterangan lebih detail).
  3. Apache Kylin 3.0.0-alpha released
    Rilis ini adalah versi alpha dari Kylin v3.0, yang memperkenalkan fitur Real-time OLAP. Seluruh perubahan dalam rilis ini dapat ditemukan di: https://kylin.apache.org/docs/release_notes.html

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 03 / 2018
  • Comments Off on Seputar Big Data edisi #56
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #56

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan November 2018.

Artikel dan berita

  1. If Waymo Is Having Difficulty, Everyone Else Must Be In A Right Autonomous Driving Pickle
    Setelah serangkaian insiden, Waymo mengumumkan penambahan fitur keamanan dalam mobil swakemudi mereka. Waymo juga mengembalikan posisi safety driver ke belakang kemudi, dan menambahkan kamera untuk memonitor kelelahan pengemudi. Hal ini menimbulkan beberapa pertanyaan mengenai kesiapan kendaraan swakemudi secara umum.
  2. Early Detection Of Epilepsy In Children Via Deep Learning Computer Science Technique
    Deteksi dini dari Benign epilepsy with centrotemporal spikes (BECT), jenis epilepsi yang paling umum pada anak-anak, kini dimungkinkan dengan menggunakan deep learning. Studi ini dilakukan oleh para peneliti dari Georgia State University.
  3. Amazon debuts a scale model autonomous car to teach developers machine learning
    Amazon hari ini mengumumkan AWS DeepRacer, mobil balap berskala 1/18 yang sepenuhnya otonom, yang bertujuan untuk membantu para developer mempelajari machine learning. Dibanderol dengan harga $399, mobil balap ini memungkinkan pengembang mendapatkan secara langsung dengan teknik pembelajaran mesin yang disebut reinforcement learning (RL).
  4. Deep learning will help keep video from clogging up the internet
    75% trafik internet adalah konten video, dan volume ini diperkirakan akan meningkat sampai 3 kali lipat di tahun 2021. Teknik kompresi data yang digunakan saat ini dianggap belum banyak berkembang dalam 20 tahun terakhir. WaveOne, sebuah perusahaan deep-learning, mengembangkan algoritma kompresi yang dapat melampaui kinerja kompresi yang ada saat ini, dengan menggunakan deep learning

Tutorial dan Pengetahuan Teknis

  1. Sales Forecasting Using Facebook’s Prophet
    Sales forecasting adalah salah satu pekerjaan paling umum di banyak perusahaan. Dalam tutorial ini, kita akan menggunakan Prophet, package yang dikembangkan oleh Facebook untuk melakukan Sales Forecasting. Package ini tersedia dalam Python dan R.
  2. How Druid enables analytics at Airbnb
    Airbnb memaparkan pengalaman mereka menggunakan Druid untuk analitik. Mereka menggambarkan bagaimana Druid melengkapi sistem big data mereka yang lain, bagaimana mereka memproses data dengan Spark Streaming, integrasi dengan Presto, pemantauan, dan apa tantangan/perbaikan di masa depan.
  3. 3 Ways to Prepare for Disaster Recovery in Multi-Datacenter Apache Kafka Deployments
    Disaster Recovery adalah hal yang sangat penting dalam memastikan kelangsungan bisnis. Artikel ini menjelaskan langkah-langkah yang perlu diambil untuk mempersiapkan DRM Kafka deployment dengan menggunakan Multi-Datacenter.
  4. [FREE EBOOK] Reinforcement Learning: An Introduction
    Reinforcement Learning: An Introduction, oleh Rich Sutton dan Andrew Barto dirilis tanggal 15 Oktober, 2018. Para penulisnya membagikan versi draft dalam format PDF di google drive. Buku ini sangat lengkap dan sesuai bagi yang ingin memulai mempelajari Reinforcement Learning.

Rilis Produk

  1. Apache Kafka 2.1.0
    Kafka versi 2.1.0 adalah rilis major yang mencakup 179 JIRA, termasuk di dalamnya penambahan fitur, peningkatan dan beberapa perbaikan bugs yang kritikal.
  2. Apache Bigtop 1.3.0 released
    Apache BigTop menyediakan packaging, testing dan konfigurasi komponen-komponen opensource big data yang komprehensif. Versi 1.3.0 dirilis dengan berbagai perbaikan, peningkatan dan penambahan fitur.
  3. boundary-layer : Declarative Airflow Workflows
    Etsy meng-opensource-kan tools mereka, yang disebut boundary-layer, yang digunakan mendefinisikan alur kerja Apache Airflow menggunakan YAML. Artikel ini menjelaskan secara detail mengenai alasan mereka dan bagaimana alat ini digunakan di Etsy.
  4. New fastMRI open source AI research tools from Facebook and NYU School of Medicine
    Facebook AI Research (FAIR) dan NYU School of Medicine’s Center for Advanced Imaging Innovation and Research (CAI²R) mengumumkan alat dan data open source baru sebagai bagian dari fastMRI, sebuah proyek penelitian bersama untuk memacu pengembangan sistem AI untuk mempercepat scan MRI hingga 10x. Rilis tersebut mencakup model dan baseline baru untuk tugas ini. Termasuk di dalamnya kumpulan data MRI berskala besar pertama, yang dapat berfungsi sebagai patokan untuk penelitian masa depan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 16 / 2018
  • Comments Off on Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat
Big Data, Hadoop, Implementation, Medical Analytics

Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat

Google AI mempublikasikan hasil yang luar biasa dari proyek LYNA, sebuah tool berbasis deep learning yang memiliki tingkat akurasi hingga 99% dalam mendeteksi metastasis pada kanker payudara.

Tumor metastasis adalah sel-sel kanker yang menyebar dari jaringan asal mereka ke organ atau jaringan lainnya dan membentuk tumor baru di bagian lain tubuh. Pendeteksian kanker yang telah bermetastasis ke kelenjar getah bening disekitarnya adalah tugas yang sulit dan memakan waktu.

Peneliti Google mengembangkan tools yang diberi nama Lymph Node Assistant (LYNA), tools berbasis deep learning yang diharapkan dapat membantu ahli patologi untuk dapat mendeteksi dan menganalisa metastasis lebih akurat, bahkan untuk ukuran yang sangat kecil (micrometastases)


gambar_mikroskopik
LYNA ditrain untuk mengenali karakteristik tumor menggunakan dua set slide patologis yang memberikannya kemampuan untuk menemukan metastasis dalam berbagai macam kondisi. Dalam tes, LYNA dilaporkan berhasil dengan benar membedakan slide dengan kanker dari slide tanpa kanker dengan keakuratan 99%. LYNA juga mampu menentukan lokasi kanker yang beberapa di antaranya terlalu kecil untuk dapat dilihat oleh manusia

Meskipun hasil yang didapat sudah cukup baik, namun para peneliti mengakui AI masih membutuhkan beberapa evaluasi karena belum digunakan dalam lingkungan klinis yang nyata. Namun demikian, mereka tetap optimis dan berharap LYNA dapat membantu meningkatkan akurasi dan ketersediaan diagnosa patologi di seluruh dunia.

Sumber :
https://ai.googleblog.com/2018/10/applying-deep-learning-to-metastatic.html

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan
dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling.
Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Nov 07 / 2018
  • Comments Off on Seputar Big Data Edisi #53
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Social Media

Seputar Big Data Edisi #53

Setelah lama tidak hadir, berikut kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali

Artikel dan Berita

  1. Big data plays a role in tourism of Hangzhou, a desirable destination for European travelers
    Hangzhou telah lama dianggap memiliki budaya hotspot dan kota pariwisata populer.
    Untuk membantu lebih memahami perilaku pengunjung terutaman dari Eropa, Expedia Group Media Solutions menganalisa pilihan yang dibuat oleh pengguna selama waktu mereka di situs web, bersama dengan data pemesanan yang ada dan tanggapan atau komentar yang dibuat.
  2. How big data can help identify and motivate voters
    Sebuah video wawancara dengan Chris Wilson dari WPA Intelligence menjelaskan bagaimana para ahli analisa data dapat membantu meningkatkan jumlah pemilih. Mereka menggunakan cara yang hampir sama pada sistem rekomendasi yang digunakan oleh Spotify, Netflix ataupun Amazon. Mereka mengidentifikasi profile pemilih dan mengidentifikasi masalah yang akan memotivasi pemilih dalam memilih kandidat.
  3. Apache Hadoop is Thriving!
    Sejak kelahirannya lebih dari satu dekade yang lalu, Hadoop telah berevolusi menjadi platform yang kuat dan sangat populer untuk penyimpanan dan analisa Big Data. Sebuah studi baru-baru ini dari Transparency Market Research menyatakan bahwa tidak hanya pertumbuhannya, pendapatan pasar global Hadoop diperkirakan juga meningkat menjadi 29% CAGR antara 2017 – 2023.
  4. Who’s Hot in Data & Analytics: Top Vendors to Watch
    2018 telah menjadi tahun yang penting bagi bisnis di seluruh industri karena mereka terus mendigitalkan lebih banyak operasional mereka. Berikut ini beberapa vendor penyedia jasa dan platform untuk Advanced Analytics, Data Science and Machine Learning Platform, Data Management and Governance.

Tutorial dan Pengetahuan Teknis

  1. Multi-Class Text Classification Model Comparison and Selection
    Tutorial mengenai penggunaan berbagai algoritma untuk mengklasifikasikan text, dan membandingkannya untuk memperoleh hasil yang paling akurat.
  2. TransmogrifAI: Building ML Apps simplified with AutoML
    Tutorial yang membahas keajaiban di balik TransmogrifAI dan akan dibandingkan penggunaannya dengan SparkML untuk memprediksi harga rumah.
  3. The Data Catalog Comes of Age
    Membuat katalog data adalah proses yang besar dan rumit. Artikel ini akan membahas mengenai langkah-langkah yang diperlukan, seperti mengumpulkan metadata, dan membuat katalog data yang sesuai dengan GDPR
  4. Top 10 real-life examples of Machine Learning
    Saat ini, machine learning telah digunakan dalam berbagai bidang dan industri. Misalnya, diagnosis medis, pemrosesan gambar, prediksi, klasifikasi, asosiasi pembelajaran, regresi, dll
  5. Protecting Hadoop Clusters From Malware Attacks
    Dua ancaman malware baru – XBash dan DemonBot – menargetkan server Apache Hadoop untuk penambangan Bitcoin dan untuk DDOS.

Rilis Produk

  1. Horizon: The first open source reinforcement learning platform for large-scale products and services
    Facebook mengumumkan Horizon sebagai proyek open source, sebuah platform machine learning berbasis Reinforcement Learning untuk dapat mengoptimalkan produk dan layanan yang digunakan oleh banyak orang.
  2. Tesseract version 4.0 released
    Google merilis Tesseract 4.0 yang memiliki proses OCR berbasis jaringan saraf yang baru yaitu LSTM, berbagai pembaharuan sistem pada sistem dan perbaikan lainnya, serta perbaikan bug.
  3. Python 3.7.1 and 3.6.7 are now availablePython 3.7.1 dan 3.6.7 merupakan maintenance release untuk versi Python 3.7 dan Python 3.6.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:123456
Tertarik dengan Big Data beserta ekosistemnya? Gabung