:::: MENU ::::

Posts Categorized / Spark

  • Feb 18 / 2021
  • 0
AI, Apache, Artificial Intelligece, Big Data, Hadoop, Komunitas, machine learning, Spark

Big Data – Definisi, Teknologi dan Implementasinya

Big Data adalah sebuah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisa sekumpulan data yang memiliki jumlah yang sangat besar, baik yang terstruktur, semi terstruktur dan tidak terstruktur. Ada banyak tantangan yang akan dihadapi ketika berhubungan dengan big data, mulai dari bagaimana data diambil, disimpan, hingga masalah keamanan data.

Walaupun Istilah big data sudah sering didengar dan diucapkan, masih banyak diantara kita yang bertanya-tanya: Apa yang dimaksud dengan big data? Apa kegunaan big data? Apa saja teknologi big data? Mengapa big data diperlukan dalam berbagai bidang?

Apa Yang Dimaksud Dengan Big Data?

Tidak ada definisi yang baku mengenai big data. Secara garis besar big data adalah sekumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks sehingga teknologi pemrosesan data tradisional tidak lagi dapat menanganinya dengan baik. Saat ini istilah big data juga sering digunakan untuk menyebut bidang ilmu atau teknologi yang berkaitan dengan pengolahan dan pemanfaatan data tersebut.

Aspek yang paling penting dari big data sebenarnya bukan sekedar pada berapa besarnya data yang bisa disimpan dan diolah, akan tetapi kegunaan atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah tersebut, maka data hanya akan menjadi sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk berbagai hal, seperti meningkatkan kelancaran operasional, ketepatan penjualan, peningkatan kualitas layanan, prediksi atau proyeksi pasar, dan lain sebagainya.

Dalam bidang informatika dikenal sebuah istilah “Garbage in Garbage out” atau masukan sampah akan menghasilkan keluaran sampah juga. Maksudnya adalah jika masukan yang kita berikan ke sistem adalah input berkualitas rendah, maka kualitas outputnya tentu akan rendah juga. Input yang dimaksud di sini adalah data.

Untuk itu, memastikan kualitas input maupun output dalam setiap tahap pengolahan data untuk mendapatkan keluaran akhir yang berkualitas adalah sebuah keharusan dalam implementasi big data.

Karakteristik Big Data

Karakteristik Big Data biasa disebut dengan singkatan 4V, yaitu:

  • Volume : mengacu pada ukuran data yang perlu diproses. Saat ini satuan volume data di dunia telah melampaui zettabyte (1021 byte), bahkan telah banyak perusahaan atau organisasi yang perlu mengolah data sampai ukuran petabytes perharinya. Volume data yang besar ini akan membutuhkan teknologi pemrosesan yang berbeda dari penyimpanan tradisional.
  • Velocity : adalah kecepatan data yang dihasilkan. Data yang dihasilkan dengan kecepatan tinggi membutuhkan teknik pemrosesan yang berbeda dari data transaksi biasa. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data dari mesin ataupun sensor.
  • Variety : Big Data berasal dari berbagai sumber, dan jenisnya termasuk salah satu dari tiga kategori berikut: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang bervariasi ini membutuhkan kemampuan pemrosesan dan algoritma khusus. Contoh data dengan variasi tinggi adalah pemrosesan data sosial media yang terdiri dari teks, gambar, suara, maupun video.
  • Veracity : mengacu pada akurasi atau konsistensi data. Data dengan akurasi tinggi akan memberikan hasil analisis yang berkualitas. Sebaliknya, data dengan akurasi rendah mengandung banyak bias, noise dan abnormalitas. Data ini jika tidak diolah dengan benar akan menghasilkan keluaran yang kurang bermanfaat, bahkan dapat memberikan gambaran atau kesimpulan yang keliru. Veracity merupakan tantangan yang cukup berat dalam pengolahan Big Data.

Di samping 4V tersebut, ada juga yang menambahkan satu lagi sehingga menjadi 5V, yaitu value. Value ini sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang mungkin dihasilkan oleh data. Keempat karakteristik di atas (volume, velocity, variety dan veracity) perlu diolah dan dianalisis untuk dapat memberikan value atau manfaat bagi bisnis maupun kehidupan. Oleh karena itu, karakteristik yang kelima ini berkaitan erat dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas.

Apa Saja Teknologi Big Data?

Perkembangan teknologi big data tidak bisa dilepaskan dari teknologi atau konsep open source. Istilah Big Data terus bergaung seiring dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar mengkontribusikan teknologi big data yang mereka buat dan mereka gunakan ke komunitas open source. Hal inilah yang kemudian menjadi salah satu pendorong utama berkembangnya big data.

Ada banyak sekali teknologi open source yang populer dalam ekosistem big data, berikut ini beberapa di antaranya:

  1. Apache Hadoop
    Apache Hadoop adalah sebuah framework yang memungkinkan untuk melakukan penyimpanan dan pemrosesan data yang besar secara terdistribusi dalam klaster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google seperti Google File System dan Google Map Reduce.
    Hadoop menawarkan 3 hal utama yaitu:

    • Sistem penyimpanan terdistribusi
      Hadoop memiliki sebuah file sistem yang dinamakan Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS merupakan sistem penyimpanan file atau data terdistribusi dalam klaster Hadoop. HDFS terinspirasi dari Google File System.
    • Framework pemrosesan data secara paralel dan terdistribusi
      MapReduce adalah model pemrograman untuk melakukan pemrosesan data besar secara terdistribusi dalam klaster Hadoop. MapReduce bekerja dan mengolah data-data yang berada dalam HDFS.
    • Resource management terdistribusi
      YARN merupakan tools yang menangani resource manajemen dan penjadwalan proses dalam klaster Hadoop. YARN mulai diperkenalkan pada Hadoop 2.0. YARN memisahkan antara layer penyimpanan (HDFS) dan layer pemrosesan (MapReduce). Pada awalnya Hadoop hanya mensupport MapReduce sebagai satu-satunya framework komputasi paralel yang dapat bekerja diatas klaster Hadoop. YARN memungkinkan banyak framework komputasi paralel lain, seperti Spark, Tez, Storm, dsb, untuk bekerja diatas klaster Hadoop dan mengakses data-data dalam HDFS.

    Komponen-komponen Apache Hadoop
    Komponen-komponen Apache Hadoop

  2. Apache Hive
    Apache Hive adalah sebuah framework SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL yang memudahkan untuk melakukan query dan analisis data berukuran besar di atas Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lain seperti Amazon AWS3 dan Alluxio.
    Dukungan Hive terhadap SQL ini sangat membantu portabilitas aplikasi berbasis SQL ke Hadoop, terutama sebagian besar aplikasi data warehouse yang membutuhkan sistem penyimpanan maupun komputasi yang besar.Pada awalnya Hive dikembangkan oleh Facebook untuk digunakan sebagai sistem data warehouse mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang dengan pesat dan banyak diadopsi serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.

    Komponen Utama Apache Hive
    Komponen Utama Apache Hive

    Pada dasarnya Hive hanya sebuah layer untuk menerjemahkan perintah-perintah SQL ke dalam framework komputasi terdistribusi. Hive dapat bekerja menggunakan berbagai framework yang berjalan diatas Hadoop, seperti MapReduce, Tez ataupun Spark.

  3. Apache Spark
    Apache Spark merupakan framework komputasi terdistribusi yang dibangun untuk pemrosesan big data dengan kecepatan tinggi.Apache spark memiliki algoritma yang berbeda dengan MapReduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API dalam Scala, Java, Python, dan SQL, serta dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, komputasi graph, dan SQL.Selain HDFS, Spark juga dapat digunakan di atas file system lain seperti Cassandra, Amazon AWS3, dan penyimpanan awan yang lain.Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini dapat meningkatkan kecepatan pemrosesan aplikasi secara drastis. Untuk kasus tertentu, kecepatan pemrosesan Spark bahkan dapat mencapai 100 kali dibanding pemrosesan menggunakan disk seperti MapReduce.Jika MapReduce lebih sesuai digunakan untuk pemrosesan batch dengan dataset yang sangat besar, maka Spark sangat sesuai untuk pemrosesan iteratif dan live-streaming, sehingga Spark banyak dimanfaatkan untuk machine learning.Spark adalah salah satu sub project Hadoop yang dikembangkan pada tahun 2009 di AMPLab UC Berkeley. Sejak tahun 2009, lebih dari 1200 developer telah berkontribusi pada project Apache Spark.

Selain 3 teknologi tersebut, sebenarnya masih sangat banyak teknologi dan framework big data lainnya yang bersifat open source seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka dan lain sebagainya.

Big Data Pipeline

Untuk dapat memberikan nilai yang bermanfaat, data harus melalui berbagai tahapan pemrosesan terlebih dahulu. Mulai dari pencatatan/pembuatan, pengumpulan, penyimpanan, pengayaan, analisis dan pemrosesan lebih lanjut, hingga penyajian. Rangkaian proses data ini biasa disebut dengan Data Pipeline.

Secara garis besar Big Data Pipeline dapat dibagi menjadi 3, yaitu :

    • Data Engineering: tercakup di dalamnya data collection, ingestion, cleansing, transformation dan enrichment.
    • Data Analytics / Machine Learning: mencakup feature engineering dan komputasi.
    • Data Delivery: penyajian data, termasuk penerapan model dalam aplikasi atau sistem, visualisasi, dan lain sebagainya.

Data Processing Pipeline
Data Processing Pipeline

Big Data Analytics

Saat ini jika kita berbicara mengenai big data, maka biasanya yang dimaksud adalah big data analytics. Hal ini cukup wajar, karena ketika sebuah proyek big data dimulai, tentu saja hasil akhir yang diharapkan adalah mendapatkan insight yang bermanfaat, yang dapat membantu pengambilan keputusan.

Data Analytics sendiri adalah serangkaian proses untuk menggali informasi atau insight dari kumpulan data. Informasi tersebut dapat berupa pola, korelasi, trend, dan lain sebagainya. Data analytics seringkali melibatkan teknik dan algoritma pengolahan data yang cukup kompleks seperti data mining maupun perhitungan statistik.

Dalam Big Data Analytics, tingkat kesulitannya semakin besar karena data yang diproses diperoleh dari berbagai sumber dengan bentuk dan jenis yang berbeda-beda, dan ukuran serta kecepatan yang besar pula. Oleh karena itu Big Data Analytics banyak menggunakan teknik dan algoritma yang lebih advance seperti predictive model dan machine learning untuk melihat trend, pola, korelasi dan insight lainnya.

Secara umum big data analytics terbagi 4 kategori yaitu:

    1. Descriptive Analytics
      Analisis ini digunakan untuk menjawab pertanyaan mengenai apa yang sedang terjadi. Hampir semua organisasi telah mengimplementasikan analisis jenis ini.
    2. Diagnostic Analytics
      Setelah mengetahui apa yang terjadi, biasanya pertanyaan berikutnya adalah mengapa bisa terjadi. Analisa jenis ini menggunakan drill-down data untuk mencari alasan lebih mendalam mengenai apa yang sedang terjadi.
    3. Predictive Analytics
      Analisis prediktif memberikan prediksi mengenai apa yang akan terjadi berdasarkan data-data yang ada. Analisa jenis ini menggunakan teknik dan algoritma machine learning dan artificial intelligence untuk menghasilkan model prediksi berdasarkan data-data historis.
    4. Prescriptive Analytics
      Memanfaatkan analisis deskriptif dan prediktif, analisis jenis ini memberikan insight untuk dapat memperoleh hasil yang sesuai dengan apa yang telah diprediksikan.

Implementasi Big Data dalam Bisnis
Jenis dan Tingkatan Data Analytics

Implementasi Big Data dalam Bisnis

Kebiasaan manusia dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat adalah kunci untuk bertahan dalam bisnis. Data adalah salah satu penentu keberhasilan dalam pengambilan keputusan.

Customer Profiling
Pola dan profil pelanggan dapat dipelajari melalui data-data yang dibuat oleh pelanggan ketika sedang berinteraksi dengan produk, baik secara langsung, melalui website ataupun menggunakan aplikasi. Saat ini data profil pelanggan dapat diperluas lagi dengan menyertakan informasi geolokasi, bahkan data-data sosial media yang mereka buat.

Semakin banyak data yang dikumpulkan, serta makin canggihnya proses pengolahan data tersebut, maka informasi yang akurat dan detail mengenai profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang tepat kepada pelanggan sehingga dapat meningkatkan penjualan maupun loyalitas pelanggan.

Product Development
Membangun produk dari sebuah ide yang pada akhirnya dapat diterima dengan baik oleh pasar merupakan sebuah tantangan. Big data dapat memberikan insight yang mendalam
untuk mengidentifikasikan kebutuhan pasar, melihat respon pelanggan melalui komentar pada forum atau sosial media, mengevaluasi kinerja penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, hingga mengoptimalkan strategi pemasaran.

Semakin baik pengelolaan data dan semakin cepat ketersediaan dapat akan dapat terus untuk membuat produk yang berkesinambungan sehingga memberikan nilai yang baik di bagi pelanggan dan pengguna.

Price Optimization
Harga bisa menjadi kunci bagi pelanggan untuk menentukan produk yang akan dibeli. Akan tetapi perang harga pun dapat memberikan pengaruh buruk bagi produk itu sendiri. Big data dapat memberikan peta dan pola harga yang ada di pasar, sehingga produsen dapat menentukan harga yang optimal dan promosi harga yang sesuai dengan kebutuhan pasar.

Big Data untuk Telekomunikasi

Telekomunikasi merupakan salah satu sektor yang mau tidak mau harus berurusan dengan big data. Terlebih lagi saat ini layanan telekomunikasi bisa dibilang adalah jantung dari dunia digital kita. Jika data sering disebut sebagai ‘the new oil’, maka penyedia layanan telekomunikasi seperti memiliki sebuah tambang minyak yang sangat produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.

Big Data untuk Kesehatan

Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu bidang kesehatan termasuk sektor yang memiliki tantangan besar di bidang big data.

Integrasi data, akurasi data dan kecepatan perolehan data merupakan hal yang sangat penting dalam bidang kesehatan, karena hal ini menyangkut keselamatan pasien. Tidak hanya itu, jumlah tenaga medis dan rumah sakit pun masih sangat kurang dibanding dengan potensi pasien, terlebih di masa pandemi seperti saat ini. Insight yang diperoleh melalui big data dapat digunakan untuk membantu mengatasi permasalahan tersebut, diantaranya yaitu untuk penegakan diagnosa yang lebih akurat, personalisasi obat-obatan, peningkatan pelayanan rumah sakit hingga optimalisasi operasional rumah sakit.

Kecerdasan Buatan (Artificial Intelligence) dan Big Data

Setelah implementasi big data dalam arti pengelolaan dan analisa data dapat dilakukan dengan baik, tantangan berikutnya adalah bagaimana dengan data itu kita bisa melatih mesin untuk dapat belajar sehingga dapat bekerja dan memberikan insight secara otomatis, cepat, dan akurat. Maka Artificial Intelligence, Machine Learning dan Deep Learning muncul kembali dan menjadi trend baru di masa kini.

Lalu apa perbedaan AI, machine learning dan deep learning? Secara ruang lingkup, deep learning merupakan bagian dari machine learning, dan machine learning merupakan bagian dari artificial intelligence. Inti ketiganya adalah bagaimana membuat mesin atau komputer menjadi cerdas. Tujuan utamanya yaitu untuk mengurangi campur tangan manusia dalam memberikan insight ataupun dalam melakukan berbagai pekerjaan manusia.

Hubungan AI, Machine Learning, dan Deep Learning
Hubungan AI, Machine Learning, dan Deep Learning

Artificial intelligence sendiri bukan merupakan hal baru, akan tetapi bidang ini mulai berkembang dengan sangat pesat dan menjadi sebuah trend setelah munculnya big data. Hal ini dikarenakan ketersediaan data yang melimpah, yang telah dapat ‘ditaklukkan’ dengan big data, yang merupakan materi utama bagi mesin untuk belajar dan menjadi cerdas.

Tidak hanya data, teknologi juga memegang peranan penting bagi perkembangan artificial intelligence. Berbagai perangkat dan teknologi dengan performa yang sangat tinggi saat ini sudah tersedia secara relatif murah dan terjangkau. Jika semula artificial intelligence dianggap sebagai sesuatu yang canggih dan hanya bisa diterapkan menggunakan teknologi yang tinggi dan mahal, saat ini artificial intelligence sudah dapat diimplementasikan pada berbagai perangkat dan sistem yang digunakan sehari-hari.

Komunitas Big Data Indonesia

idBigData adalah komunitas big data Indonesia yang dideklarasikan pada tanggal 2 Desember 2014. Pada saat itu big data masih menjadi sebuah hal yang relatif baru di Indonesia. Belum banyak orang yang paham mengenai apa itu big data, apa kegunaannya, dan bagaimana memanfaatkannya. Maka dibentuknya idBigData sebagai komunitas big data Indonesia bertujuan untuk menjadi wadah berkumpulnya komponen masyarakat dari berbagai bidang untuk saling bertukar pengetahuan dan pengalaman, serta menjalin berbagai kerja sama dalam bidang big data serta pemanfaatannya, termasuk di dalamnya data science dan artificial intelligence.

Contributor :


Tim idbigdata
Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 26 / 2019
  • Comments Off on Seputar Big Data edisi #75
Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Spark

Seputar Big Data edisi #75

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019

Artikel dan berita

  1. Here’s why Databricks is one of the fastest growing big-data startups
    Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini.
  2. Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
    Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda.
  3. 7 Disastrous Cybersecurity Mistakes In A Big Data World
    Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya.
  4. Is Your Data Ready for AI?
    Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.

Tutorial dan pengetahuan teknis

  1. Exploratory Data Analysis: A Practical Guide and Template for Structured Data
    Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”.
  2. Introducing Apache Flink’s State Processor API
    Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream.
  3. BoW to BERT
    Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi.
  4. How to Unlock the Full Potential of Kafka Producers
    Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.

Rilis Produk

  1. Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
    Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks.
  2. This New Open Source Toolkit Aims to Give Chatbots Character
    Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning.
  3. [ANNOUNCE] Apache Ignite 2.7.6 Released
    Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
    Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi.
  4. Waltz: A Distributed Write-Ahead Log
    Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 06 / 2019
  • Comments Off on Seputar Big Data edisi #71
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #71

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu I bulan Mei 2019

Artikel dan berita

  1. Serbu! Kemenkominfo Buka 25 Ribu Beasiswa Big Data Cs Gratis
    Kementerian Komunikasi dan Informatika (Kemenkominfo) menggagas beasiswa pelatihan melalui Digital Talent Scholarship 2019 bagi 25 ribu peserta. Pelatihan itu meliputi bidang-bidang seperti artificial intelligence (AI), big data, cloud computing, cyber security, internet of things, dan machine learning.
  2. Facebook lets select researchers access ‘privacy-protected’ data
    Facebook memberikan akses khusus terhadap lebih dari 60 peneliti yang dipilih oleh 2 organisasi mitra, Social Science One dan Social Science Research Council (SSRC). Para peneliti tersebut dapat mengakses data yang dilindungi privasi tersebut untuk penelitian mengenai pengaruh media sosial terhadap demokrasi.
  3. Visualizing Disparities: How Mapping and Big Data Can Provide Insight into Social Equity Indicators
    Big data dan informasi geolokasi telah terbukti bermanfaat dalam persiapan dan penanganan bencana. Informasi tersebut juga dapat digunakan untuk mendapatkan insight terhadap komunitas, dan mengidentifikasi berbagai faktor yang mempengaruhi kualitas hidup masyarakat di wilayah tertentu, dengan cara seperti yang diuraikan dalam artikel ini.
  4. Harvard AI determines when tuberculosis becomes resistant to common drugs
    Tuberkulosis (TB) adalah salah satu penyakit paling mematikan di dunia. Pada tahun 2017 tercatat hampir 10 juta orang terinfeksi, dan 1,3 juta kematian terkait TB. Bakteri yang menyebabkan TB pun sulit untuk ditarget karena kemampuannya untuk mengembangkan resistensi terhadap obat tertentu. Para peneliti di Blavatnik Institute di Harvard Medical School telah merancang pendekatan komputasi yang mampu mendeteksi resistensi terhadap obat TB yang biasa digunakan, dengan kecepatan dan akurasi yang sangat baik.
  5. From drone swarms to modified E. Coli: say hello to a new wave of cyberattacks
    Para peneliti menciptakan malware berbasis AI yang dapat digunakan untuk menghasilkan gambar kanker palsu yang dapat menipu dokter yang paling ahli sekalipun. Dengan malware ini, pasien yang sehat bisa jadi akan mendapatkan kemoterapi dan radiasi, sedangkan pasien kanker justru akan dipulangkan begitu saja. Contoh ini menunjukkan bahwa serangan data adalah senjata nuklir abad ke-21. Lebih dari penguasa wilayah, siapapun yang menguasai data mampu memanipulasi perasaan dan pikiran masyarakat. Untuk itu pengambil kebijakan perlu memahami lebih baik resiko keamanan yang dapat muncul dari penggunaan AI.

Tutorial dan pengetahuan teknis

  1. Generative and Analytical Models for Data Analysis
    Artikel ini memberikan penjelasan yang sangat baik mengenai dua pendekatan data analisis yaitu generatif dan analitikal, perbedaan antara keduanya serta apa pentingnya. Dijelaskan juga mengenai apa bagian yang seringkali ‘hilang’ dalam proses data analisis, yang menghambat kesuksesan proses tersebut.
  2. How to Implement VGG, Inception and ResNet Modules for Convolutional Neural Networks from Scratch
    Terdapat beberapa model jaringan saraf convolutional yang telah terbukti berhasil dan berkinerja baik dalam menyelesaikan permasalahan seperti klasifikasi citra. Beberapa model di antaranya menggunakan komponen yang diulang berkali-kali seperti misalnya blok VGG dalam model VGG, modul inception dalam GooLeNet, dan model residual dalam ResNet. Artikel ini menjelaskan mengenai implementasi model-model tersebut dari 0.
  3. Detailed Guide to the Bar Chart in R with ggplot
    Pemilihan jenis grafik untuk menampilkan hasil analisis sangat menentukan kejelasan dan efektivitas penyajian informasi. Salah satu jenis grafik yang paling sederhana namun powerful adalah bar chart. Artikel ini menjelaskan penggunaan ggplot untuk membuat bar chart yang sesuai dengan kebutuhan kita.
  4. Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection
    Bagian kedua dari serial artikel ini membahas mengenai permasalahan-permasalahan yang muncul dari data skew dan garbage collection dalam Spark.
  5. Optimizing Kafka Streams Applications
    Rilis Kafka 2.1.0 memperkenalkan framework optimisasi topologi prosesor pada layer Kafka Stream DSL. Artikel ini menjelaskan mengenai topologi prosesor pada Kafka versi sebelumnya, issue yang muncul yang terkait efisiensi, dan solusinya di versi 2.1.0. Dibahas pula mengenai bagaimana menyalakan optimisasi ini dalam proses upgrade Kafka.
  6. Normalization vs Standardization — Quantitative analysis
    Salah satu issue yang penting machine learning adalah feature scaling atau penskalaan fitur. Dua metode yang paling banyak dibahas adalah normalisasi dan standarisasi. Artikel ini menyajikan eksperimen untuk mencoba menjawab beberapa pertanyaan terkait pemilihan kedua metode tersebut dan dampaknya terhadap model yang dihasilkan.
  7. Improving Uber’s Mapping Accuracy with CatchME
    Transportasi andal membutuhkan peta yang akurat, yang menyediakan layanan seperti routing, navigasi, dan perhitungan perkiraan waktu kedatangan (ETA). Error pada peta dapat mengganggu layanan dan kepuasan pengguna. Uber berbagi pengalaman mengenai pemanfaatan berbagai feedback untuk meningkatkan kualitas peta, khususnya penggunaan GPS trace untuk mengenali inkonsistensi dalam data peta, dengan sistem yang dinamakan CatchMapError (CatchME).

Rilis Produk

  1. Facebook launches PyTorch 1.1 with TensorBoard support
    Facebook meluncurkan PyTorch 1.1 dengan dukungan TensorBoard dan peningkatan kompiler just-in-time (JIT). PyTorch 1.1 hadir dengan API baru, dukungan untuk tensor Boolean, recurrent neural networks kustom, dan peningkatan kompiler JIT untuk mengoptimalkan grafik komputasi.
  2. Open Sourcing Delta Lake
    Delta Lake adalah layer penyimpanan yang menjanjikan keandalan untuk data lake yang dibangun di atas HDFS dan penyimpanan cloud dengan menyediakan transaksi ACID melalui kontrol konkurensi optimis antara penulisan dan isolasi snapshot untuk pembacaan yang konsisten selama penulisan. Delta Lake juga menyediakan built-in data versioning untuk rollbacks dan pembuatan reports yang lebih mudah.Delta Lake tersedia di http://delta.io untuk diunduh dan digunakan di bawah Lisensi Apache 2.0.
  3. RStudio 1.2 Released
    Versi ini dirilis setelah lebih dari setahun development, mencakup banyak peningkatan dan kemampuan baru. Di antaranya, RStudio menjanjikan workbench yang lebih nyaman untuk SQL, Stan, Python, dan D3. Testing kode R yang lebih mudah dengan integrasi untuk shinytest dan testthat. Pembuatan, testing dan publish API dalam R dengan Plumber, serta dukungan background job untuk peningkatan produktivitas.
  4. Apache SINGA (incubating) 2.0.0 Released
    Apache SINGA adalah platform umum deep learning terdistribusi untuk melakukan training terhadap big deep learning model dengan dataset yang besar. Rilis ini mencakup beberapa penambahan fitur.
  5. Apache Beam 2.12.0 released
    Rilis ini mencakup beberapa penambahan fitur, peningkatan, dan perbaikan bugs.
  6. The Apache Software Foundation Announces Apache® SkyWalking™ as a Top-Level Project
    Apache Skywalking adalah tool Application Performance Monitor (APM) yang digunakan di Alibaba, China Eastern Airlines, Huawei, dan lain-lain. Memasuki Apache inkubator pada Desember 2017, baru-baru ini SkyWalking dinyatakan sebagai top level project Apache.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 26 / 2019
  • Comments Off on Seputar Big Data edisi #70
Apache, Artificial Intelligece, Hadoop, Spark, Storm

Seputar Big Data edisi #70

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan April 2019.

Artikel dan berita

  1. EU votes to create gigantic biometrics database
    Parlemen Eropa minggu lalu memilih untuk menghubungkan serangkaian sistem kontrol perbatasan, migrasi, dan penegakan hukum ke dalam database raksasa, yang berisi data biometrik dari warga negara UE dan non-UE. Sistem ini akan menjadi salah satu basis data pelacakan orang terbesar di dunia setelah sistem yang digunakan oleh pemerintah Cina dan sistem Aadhaar di India.
  2. MongoDB extends into a new mobile Realm
    MongoDB mengumumkan akuisisi terhadap Realm, database lightweight yang dioptimalkan untuk perangkat seluler. Realm adalah database embedded berbasis objek yang sering diposisikan sebagai alternatif dari SQLite yang berusia 20 tahun.
  3. Harvard Medical School’s AI estimates protein structures up to a million times faster than previous methods
    Resep pembentukan protein (komponen dasar dari jaringan, enzim dan antibodi) tercantum dalam DNA. Namun DNA hanya menunjukkan komponen apa saja yang membentuknya, bukan struktur atau bentuk akhir dari protein tersebut. Para ahli memperkirakan bahwa diperlukan 13.8 miliar tahun untuk mencari tahu semua konfigurasi yang mungkin dari ribuan amino acid untuk menentukan struktur yang paling tepat. Para peneliti di Harvard Medical School berhasil membuat sebuah program yang dapat memberikan prediksi struktur protein tersebut hingga jutaan kali lebih cepat dari sistem yang ada sekarang, tanpa mengurangi akurasi.
  4. How Can Artificial Intelligence Help Fintech Companies?
    Teknologi keuangan dan perusahaan fintech berada di ujung tombak perkembangan teknologi industri keuangan. Salah satu teknologi yang banyak digunakan adalah kecerdasan buatan. Dengan AI, perusahaan di seluruh dunia mulai melakukan hal-hal luar biasa. Apa saja pemanfaatan AI dalam bidang fintech?
  5. Using AI to Make Knowledge Workers More Effective
    Berbagai kemampuan baru AI membuka kemungkinan kolaborasi antara mesin dan manusia. Dengan AI, mesin dapat memperluas keahlian manusia dan menghasilkan tenaga ahli baru. Sistem semacam ini diperkirakan mempengaruhi 48% tenaga kerja Amerika yang termasuk knowledge-worker, dan lebih dari 230 juta knowledge-worker di dunia. Berikut ini beberapa cara memanfaatkan AI untuk meningkatkan efektifitas tenaga kerja tersebut.
  6. Become a Vital Asset to an Organization: Get a Big Data Hadoop and Apache Spark Developer Certification
    Dalam dunia yang semakin bergantung pada data dan teknologinya, kebutuhan terhadap tenaga yang memiliki kemampuan dalam pengolahan dan analisis data sangat besar. Oleh karenanya, salah satu cara untuk menjadi ‘aset’ penting yang banyak dibutuhkan adalah dengan mendapatkan sertifikasi di bidang teknologi big data, di antaranya Hadoop dan Spark developer.

Tutorial dan pengetahuan teknis

  1. Data Visualization in Python: Matplotlib vs Seaborn
    Seaborn dan Matplotlib adalah dua library Python untuk visualisasi yang paling terkenal. Seaborn menggunakan lebih sedikit sintaks dan memiliki tema default yang memukau dan Matplotlib lebih mudah disesuaikan dengan mengakses kelas-kelasnya.
  2. Fine-Grained Authorization with Apache Kudu and Impala
    Apache Impala memungkinkan otorisasi tingkat object (fine-grained) terhadap semua tabel yang dikelolanya, termasuk tabel Apache Kudu, melalui Apache Sentry. Dalam artikel ini dijelaskan bagaimana menggabungkan otorisasi tersebut dengan otorisasi fine-grained yang dimiliki Apache Kudu untuk mendapatkan deployment multi-tenant yang aman.
  3. Apache Storm Tutorial
    Tutorial dasar mengenai Apache Storm beserta contoh implementasinya.
  4. Architectural Innovations in Convolutional Neural Networks for Image Classification.
    CNN terdiri dari dua elemen yang sangat sederhana, yaitu layer convolutional dan layer pooling. Meskipun sederhana, terdapat hampir tak terbatas cara untuk mengatur layer ini. Dalam tutorial ini Anda akan menemukan beberapa arsitektur kunci untuk penggunaan jaringan saraf convolutional untuk menyelesaikan permasalahan klasifikasi gambar.
  5. [DATASET] Stanford ML Release MRNet Knee MRI Dataset
    Stanford ML Group yang dipimpin oleh Andrew Ng telah merilis MRNet Dataset, yang berisi lebih dari 1000 hasil pemindaian MRI lutut beranotasi serta mengumumkan kompetisi terbuka untuk pembuatan model yang secara otomatis dapat menginterpretasikan data tersebut.

Rilis Produk

  1. Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation
    Dalam proses membangun kembali platform Big Data-nya, Uber menciptakan library Spark open-source bernama Hadoop Upserts dan Incremental (Hudi). Pustaka ini memungkinkan pengguna untuk melakukan operasi seperti memperbarui, menyisipkan, dan menghapus data Parquet yang ada di Hadoop. Setelah meng-opensource-kan Hudi pada 2017 lalu, baru-baru ini Uber menyerahkan Hudi kepada Apache Software Foundation untuk memperluas jangkauan dan dukungan opensource terhadap Hudi.
  2. Apache Accumulo 1.9.3
    Apache Accumulo 1.9.3 mengandung perbaikan bug untuk log write-ahead, compactions, dan lain sebagainya. Pengguna versi sebelumnya disarankan untuk mengupgrade ke versi ini (lihat rilis note untuk keterangan lebih detail).
  3. Apache Kylin 3.0.0-alpha released
    Rilis ini adalah versi alpha dari Kylin v3.0, yang memperkenalkan fitur Real-time OLAP. Seluruh perubahan dalam rilis ini dapat ditemukan di: https://kylin.apache.org/docs/release_notes.html

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 14 / 2019
  • Comments Off on Seputar Big Data edisi #65
Big Data, Medical Analytics, Spark

Seputar Big Data edisi #65

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2019.

Artikel dan berita

  1. Healthcare Innovation – 10 Recent Examples Of Powerful Innovation In Healthcare
    AI, design thinking, robotika, dan big data telah memasuki ke semua industri, tetapi mungkin dampak terbesarnya adalah di bidang kesehatan. Seiring berkembangnya teknologi dan inovasi di bidang kesehatan, startup dan rumah sakit telah menemukan cara luar biasa untuk meningkatkan penawaran mereka dan merevolusi industri.
  2. Lessons learned building natural language processing systems in health care
    Menerapkan sistem NLP untuk bidang kesehatan bukan hal yang mudah, karena membutuhkan pengetahuan umum dan medis yang luas, harus menangani beragam input, dan perlu memahami konteksnya. Tujuan artikel ini adalah untuk berbagi pengalaman dalam membangun sistem tersebut.
  3. TIBCO Snaps Up SnappyData: Spark + Geode on Steroids
    TIBCO Software telah membeli SnappyData, layanan platform data in-memory yang didukung oleh Apache Spark dan Apache Geode, dengan jumlah yang dirahasiakan. Kesepakatan itu, yang diumumkan Kamis 7 Maret lalu, adalah tanda terbaru dari konsolidasi industri di sektor analisa data, di tengah meningkatnya permintaan tools untuk data science yang lebih efektif.
  4. Beware the data science pin factory: The power of the full-stack data science generalist and the perils of division of labor through function
    Adam Smith menyatakan bahwa produktivitas tenaga kerja akan lebih maksimal apabila dilakukan pembagian kerja. Artikel ini membahas mengenai apakah optimasi semacam ini berlaku untuk penerapan data sains.

Tutorial dan pengetahuan teknis

  1. Catching a Unicorn with GLTR: A tool to detect automatically generated text
    GLTR (The Giant Language Model Test Room), adalah hasil kolaborasi antara MIT-IBM Watson AI lab and HarvardNLP. GLTR memeriksa jejak visual dari teks yang dihasilkan secara otomatis, sehingga memungkinkan analisis forensik tentang seberapa besar kemungkinan teks tersebut diasilkan oleh sistem otomatis. GLTR berpendapat bahwa teks yang dihasilkan secara otomatis, misalnya gpt2, terlihat nyata karena “terlalu bagus”. Generator teks meninggalkan jejak yang sulit untuk dideteksi manusia tetapi dapat diekspos dengan uji statistik.
  2. 3 Levels of Deep Learning Competence
    Deep learning bukanlah peluru ajaib, tetapi tekniknya telah terbukti sangat efektif dalam sejumlah besar domain masalah yang sangat menantang. Ini berarti bahwa ada banyak permintaan oleh bisnis untuk praktisi deep learning. Masalahnya adalah, bagaimana bisa yang mana merupakan praktisi yang baik dan kompeten?
  3. Kafka to HDFS/S3 Batch Ingestion Through Spark
    Ada beberapa kasus yang membutuhkan fungsi data ingestion dari Kafka ke HDFS/S3 secara batch, yang sebagian besar adalah untuk keperluan analisis data historis. Pada awalnya, topik ini terlihat mudah dan biasa saja. Tetapi ini penting dalam platform data yang menggunakan data riil dan langsung dari sistem seperti ecommerce, ads tech, platform agregat dan lain-lain.
  4. Hue in Docker
    Kontainer menawarkan cara modern untuk mengisolasi dan menjalankan aplikasi. Postingan ini adalah yang pertama dari seri yang menunjukkan cara menjalankan Hue sebagai layanan. Di sini, kita akan mengeksplorasi cara membangun, menjalankan, dan mengkonfigurasi image server Hue menggunakan Docker.
  5. Machine Learning with Big Data
    Menyimpan data adalah masalah tersendiri, tetapi bagaimana memprosesnya dan membangun algoritma machine learning menggunakan data tersebut juga penting. Dalam artikel ini akan dijelaskan bagaimana membangun platform machine learning yang bekerja paralel dan memiliki skalabilitas menggunakan komputasi awan dengan mudah untuk memproses data yang cukup besar.
  6. Exploring Neural Networks with Activation Atlases
    Neural network dapat belajar untuk mengklasifikasikan gambar dengan lebih akurat daripada sistem yang dirancang manusia secara manual. Ini menimbulkan pertanyaan: Apa yang dipelajari jaringan ini yang memungkinkan mereka untuk mengklasifikasikan gambar dengan sangat baik? Dengan menggunakan inversi fitur untuk memvisualisasikan jutaan aktivasi dari network klasifikasi gambar, OpenAI dan Google membuat atlas aktivasi fitur yang dapat mengungkapkan bagaimana jaringan merepresentasikan beberapa konsep.

Rilis Produk

  1. Introducing GPipe, an Open Source Library for Efficiently Training Large-scale Neural Network Models
    Divisi riset AI Google meng-opensource-kan GPipe, library untuk melatih deep neural network secara “efisien” di bawah Lingvo, kerangka kerja TensorFlow untuk pemodelan sekuens. Ini berlaku untuk jaringan apa pun yang terdiri dari beberapa lapisan sekuensial, dan memungkinkan peneliti untuk mengukur kinerja dengan relatif lebih mudah.
  2. Open Sourcing Peloton, Uber's Unified Resource Scheduler
    Peloton adalah scheduler resource terpadu, yang mampu mengelola sumber daya dengan beban kerja yang berbeda-beda, menggabungkan cluster komputasi terpisah. Peloton dirancang untuk perusahaan skala web seperti Uber dengan jutaan kontainer dan puluhan ribu node. Sebagai sistem cloud-agnostik, Peloton dapat dijalankan di data center on-premise ataupun cloud.
  3. R 3.5.3 now available
    Tim R Core mengumumkan kemarin rilis R 3.5.3, dan binari diperbarui untuk Windows dan Linux sekarang tersedia (dengan Mac pasti akan segera menyusul).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2019
  • Comments Off on Seputar Big Data edisi #62
Artificial Intelligece, Big Data, IoT, Spark

Seputar Big Data edisi #62

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan Februari 2019.

Artikel dan berita

  1. Databricks’ Recent $250 Mn Funding Shows How The Spark Creators Are Ahead In The AI Game
    Ali Ghodsi dan Matei Zaharia, penemu Spark dan pendiri Databricks, memanfaatkan perubahan tren dan kebutuhan Big Data dengan menyediakan platform analitik terpadu.
    Bahkan minggu lalu perusahaan yang berbasis di San Francisco tersebut kembali memperoleh putaran pendanaan blockbuster sebesar $250 juta, yang menjadikan nilai dari Databricks sekitar $2,75 miliar.
  2. How to Become a Data Engineer: A Guide
    Salah satu pekerjaan yang paling menarik dan diminati di seluruh dunia saat ini: big data engineer. Big data engineer adalah para profesional yang memproses kumpulan data besar untuk memberikan analisis pada organisasi atau perusahaan, yang selanjutnya dapat digunakan untuk membuat keputusan di masa depan untuk menghindari kesalahan.
  3. Pizza Delivery Businesses Turn to Big Data Analytics for Record Growth
    Big data analytic untuk bisnis pengiriman pizza ternyata memiliki dampak yang luar biasa. Akibatnya, banyak perusahaan pengiriman pizza berkembang pesat.
  4. Toyota’s moonshot: Self-driving car for sale — in a year
    Mereka menyebutnya sebagai Toyota’s moonshot: hanya dalam satu tahun, pembuat mobil terbesar di Jepang ingin mulai menjual kendaraan self-driving yang dikatakannya akan “most powerful supercomputer on wheels”. Milestone pertama yaitu pada tahun 2020, ketika Toyota berencana untuk memperkenalkan kendaraan yang mampu mengemudi sendiri di jalan raya.
  5. Contrasting Hortonworks (HDP) and Dropbox (DBX)
    Dropbox (NASDAQ: DBX) dan Hortonworks (NASDAQ: HDP) keduanya adalah perusahaan komputer dan teknologi, tetapi mana yang merupakan saham unggulan?
  6. Here’s How Big Data Is Transforming Augmented Reality
    Big data benar-benar mengubah fungsi AR dan VR. Artikel berikut menceritakan bagaimana perusahaan modern mengubah AR dari mimpi menjadi kenyataan dengan memanfaatkan kekuatan kumpulan data yang sangat luas.
  7. Here’s What Cybersecurity Experts Worry About This Year
    “Ancaman keamanan big data berikutnya sedang berlangsung,” demikian diungkapkan Jason Hong, associate professor dari the human computer interaction institute, Carnegie Mellon University.
  8. Why Cloudera Stock Gained 22.1% in January
    Saham Cloudera (NYSE: CLDR) naik 22,1% pada Januari, menurut data dari S&P Global Market Intelligence. Saham perusahaan ini sempat mengalami penurunan sekitar 35% dalam tiga bulan terakhir tahun 2018, tetapi diuntungkan dari rebound pasar saham di awal tahun 2019 dan beberapa klarifikasi tentang strateginya setelah merger dengan Hortonworks.

Tutorial dan pengetahuan teknis

  1. Perfume Recommendations using Natural Language Processing
    Doc2Vec, Latent Semantic Analysis, and Sentiment Analysis dapat digabungkan untuk membuat rekomendasi yang tepat dalam sebuah antarmuka chatbot.
  2. Best Public Datasets for Machine Learning and Data Science: Sources and Advice on the Choice
    Ribuan kumpulan data publik tentang berbagai topik – mulai dari tren kebugaran teratas dan resep bir hingga tingkat keracunan pestisida – tersedia online. Untuk menghabiskan lebih sedikit waktu dalam pencarian dataset yang tepat, kita harus tahu di mana mencarinya.
  3. Learning from Graph data using Keras and Tensorflow
    Ada banyak data yang dapat direpresentasikan dalam bentuk graph seperti di jejaring sosial, jaringan biologis atau telekomunikasi. Penggunaan fitur graph dapat meningkatkan kinerja model. Namun, merepresentasikan data graf tidak mudah. Artikel ini mengeksplorasi beberapa cara untuk menangani graf generik untuk melakukan klasifikasi node berdasarkan representasi graf yang dipelajari langsung dari data.
  4. Introduction to Apache Spark’s Core API (Part II)
    Dalam bagian kedua dari serial pengenalan Spark API ini dibahas mengenai fungsi dan method yang dapat digunakan untuk bekerja dengan pair RDD, dilengkapi beberapa contoh dalam Python.
  5. KubernetesExecutor for Airflow
    Dalam rilis 1.10 Airflow memperkenalkan executor baru untuk menjalankan worker secara terskala: Kubernetes executor. Artikel ini membahas mengenai apa itu Airflow dan masalah apa yang dipecahkannya, Kubernetes executor dan bagaimana perbandingannya dengan Celery executor, serta contoh penerapannya di minikube.

Rilis Produk

  1. Microsoft announces general availability of Azure Data Explorer and Azure Data Lake Storage Gen2
    Microsoft mengumumkan ketersediaan umum Azure Data Explorer (ADX) dan Azure Data Lake Storage Gen2 (ADLS Gen2) – dua layanan yang dikatakan akan memberi pelanggan Azure fleksibilitas yang lebih besar dalam mengelola data yang tidak terstruktur, atau data yang dihasilkan dari interaksi di web, software-as-a-service, media sosial, aplikasi seluler, dan perangkat iot.
  2. Black Knight Launches Rapid Analytics Platform, a Premier Cloud-Based Virtual Lab for Working with Big Data and Complex Analytics
    Black Knight, Inc. (NYSE: NYSE: BKI), penyedia terkemuka perangkat lunak, data, dan analisis terintegrasi untuk industri hipotek dan real estat, mengumumkan peluncuran Rapid Analytics Platform (RAP), sebuah lab analitik virtual interaktif yang inovatif dan interaktif di mana pengguna dapat menggunakan dan mengunggah data, mengeksekusi SQL query, melakukan analitik kompleks dan melatih model machine learning – semua dalam satu ruang kerja tunggal.
  3. Apache Solr 7.7.0 released
    Apache Solr 7.7.0 mencakup 7 fitur baru, 20 bug fixes, 15 peningkatan dan 8 perubahan lain. Pengguna Solr versi sebelumnya sangat disarankan melakukan upgrade ke versi ini terkait isu security, yaitu mekanisme whitelist pada manajemen “shards”.
  4. Introducing Ludwig, a Code-Free Deep Learning Toolbox
    Uber merilis Ludwig, “toolbox” open source yang dibangun di atas kerangka kerja TensorFlow Google yang memungkinkan pengguna untuk melatih dan menguji model AI tanpa harus menulis kode. Dengan menggunakan Ludwig, para ahli dan peneliti dapat menyederhanakan proses prototyping dan merampingkan pemrosesan data sehingga mereka dapat lebih fokus pada pengembangan arsitektur deep learning daripada data wrangling.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 15 / 2018
  • Comments Off on Seputar Big Data edisi #54
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #54

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2018.

Artikel dan berita

  1. Waymo to Start First Driverless Car Service Next Month
    Waymo, sebuah anak perusahaan dari perusahaan induk Google, Alphabet Inc., berencana untuk meluncurkan layanan mobil tanpa pengemudi komersial pertama di dunia pada awal Desember, menurut sebuah sumber yang tidak disebutkan namanya. Layanan ini akan beroperasi di bawah merek baru dan bersaing langsung dengan Uber dan Lyft, akan diluncurkan di Phoenix Arizona.
  2. How Big Data can revolutionise education
    Big Data telah menjadi bagian erat dari hampir setiap sektor, termasuk juga untuk sektor pendidikan. Banyak studi kasus yang dapat diselesaikan menggunakan Big Data dan Machine Learning.
  3. Artificial intelligence could help doctors identify hard-to-spot colon polyps
    Kanker usus besar adalah penyebab utama kedua kematian terkait kanker di AS, tetapi kolonoskopi telah ditemukan untuk mengurangi risiko kematian akibat penyakit hingga 70 persen dengan menemukan dan mengangkat polip jinak sebelum mereka memiliki waktu untuk berubah menjadi kanker.
  4. Startups Can Leverage Big Data for Big Results
    Agar tetap kompetitif, startup modern semakin mencari untuk memanfaatkan Big Data. Karena berbagai perusahaan muda masuk ke pasar dengan produk dan layanan inovatif, transformatif, solusi data dapat membantu membuka jalan menuju kesuksesan.
  5. Google AI can spot advanced breast cancer more effectively than humans
    Google telah memberikan bukti lebih lanjut bahwa AI dapat membantu dalam mendeteksi kanker. Peneliti perusahaan ini telah mengembangkan aplikasi Deep Learning yang lebih akurat dalam menemukan metastatis pada kanker payudara.

Tutorial dan Pengetahuan Teknis

  1. Predicting Professional Players’ Chess Moves with Deep Learning
    Tutorial mengenai membuat model yang dapat bermain catur yang tidak menggunakan metode Reinforcement Learning dan bagaimana mengimplementasikan model menggunakan antarmuka web.
  2. How to Develop Convolutional Neural Network Models for Time Series Forecasting
    Dalam tutorial ini akan dijelaskan cara mengembangkan rangkaian model CNN untuk berbagai masalah time series forecasting.
  3. 5 Essential Neural Network Algorithms
    Data Scientist menggunakan banyak algoritma yang berbeda untuk melatih neural network, dan ada banyak variasi untuk masing-masingnya. Dalam artikel ini akan menguraikan lima algoritma yang akan memberikan pemahaman menyeluruh tentang bagaimana Neural Network bekerja.
  4. Uber’s Big Data Platform: 100+ Petabytes with Minute Latency
    Dalam artikel ini, akan dibahas mendalam mengenai perjalanan platform Hadoop yang digunakan Uber dan bagaimana memperluas ekosistemnya.
  5. UMulti-Class Text Classification with Doc2Vec & Logistic Regression
    Tutorial python mengenai klasifikasi teks ke dalam beberapa kategori, menggunakan doc2vec dan regresi logistik.

Rilis Produk

  1. Google Dataset Search Launched to Help Analysts Scour Repositories
    Google Dataset Search adalah produk baru yang masih dalam fase beta yang dapat digunakan untuk melakukan pencarian dataset yang dipublikasikan secara online. Antarmuka tunggal memungkinkan Anda untuk mencari repositori di seluruh dunia.
  2. Introducing Apache Spark 2.4
    Kami senang mengumumkan ketersediaan Apache Spark 2.4 sebagai bagian dari Databricks Runtime 5.0. Kami ingin mengucapkan terima kasih kepada komunitas Apache Spark untuk semua kontribusi berharga mereka untuk rilis Spark 2.4
  3. Apache Kafka 2.0.1
    Rilis ini adalah bug fixing rilis, mencakup penyelesaian dari 51 JIRA
  4. Google open sources BERT, an NLP pre-training technique
    Google meng-opensource-kan Bidirectional Encoder Representations from Transformers (BERT) untuk pre-training NLP pada 2 Nopember lalu. BERT adalah metode baru pre-training representasi bahasa yang memperoleh hasil terkini untuk berbagai macam tugas pada NLP, seperti sentimen analysis, penerjemahan bahasa dll.
  5. Apache HBase 2.1.1 is now available for download
    Merupakan rilis maintenance terbaru dari versi 2.1, mencakup 180 bug fixes. Pengguna HBase versi 2.1.0 sangat disarankan untuk melakukan upgrade ke versi ini.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on Seputar Big Data Edisi #52
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, Spark, Storm

Seputar Big Data Edisi #52

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Maret 2018

Artikel dan Berita

  1. Cambridge Analytica harvested data from millions of unsuspecting Facebook users
    Cambridge Analytica, perusahaan yang melakukan profiling pemilih dalam kampanye Donald Trump, diduga mengumpulkan informasi pribadi milik lebih dari 50 juta profil Facebook, yang kemudian mereka gunakan untuk mempengaruhi dan melakukan ‘perang budaya’ dalam pemilu 2016 lalu.
  2. How Machine Learning is Revolutionizing Cybersecurity
    Machine learning telah terbukti bermanfaat dalam berbagai penerapan analisis data. Machine learning is particularly useful in various applications of data analysis. Kemampuan untuk belajar dari data, mengidentifikasi pola, mengotomasi pembuatan model, dan pengambilan keputusan, sangat bermanfaat untuk bidang keamanan saiber (cybersecurity), yang memanfaatkan data besar serta analisa pola perilaku.
  3. Is Your Company Ready For AI? Ask Yourself These Nine Questions
    Statista memprediksi bahwa pasar AI secara global akan bernilai lebih dari $ 10,5 miliar pada tahun 2020, dan bisnis akan menerapkan AI ke dalam operasi sehari-hari mereka dalam bentuk otomatisasi dan chatbots layanan pelanggan. Menurut CIOs, CTOs dan technology executive anggota Forbes Technology Council, berikut adalah sembilan pertanyaan untuk menentukan apakah AI adalah investasi cerdas untuk bisnis Anda saat ini.
  4. Hortonworks, Confluent and Waterline attempt to make Big Data easier
    Big data dan produk yang menyertainya memiliki kompleksitas yang seringkali tidak terhindarkan. Beberapa vendor besar menyadari hal ini, dan menawarkan berbagai solusi untuk memudahkan implementasi dan adopsi teknologi mereka untuk bisnis. Hortonwork, Confluent dan Waterline adalah beberapa di antaranya.
  5. Deep Learning Achievements Over the Past Year
    Pada musim natal lalu, tim statbot melakukan beberapa review terhadap pencapaian dari berbagai produk machine learning dalam setahun terakhir
  6. Top 5 Reasons Most Big Data Projects Never Go Into Production
    Pada akhir tahun 2016, Gartner merilis sebuah laporan yang menyatakan : “Hanya 15 persen dari proyek big data yang diimplementasikan ke dalam sistim produksi”. Pada kenyataannya hingga saat ini pun masih terjadi kendala-kendala yang dihadapi dalam implementasi big data.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka for Real-Time Event Processing
    Bagaimana implementasi Apache Kafka dalam mendukung pemrosesan secara reltime? Dalam posting ini, diperlihatkan bagaimana membangun pipeline pemrosesan aliran data menggunakan Apache Kafka.
  2. Top 5 Best Jupyter Notebook Extensions
    Ekstensi Notebook adalah plug-in yang dapat dengan mudah ditambahkan ke notebook Jupyter Anda. Berikut 5 Jupyter Extension yang paling sering digunakan.
  3. Managing isolated Environments with PySpark
    Melakukan konfigurasi node dalam cluster Hadoop/Spark dengan dependensi non-JVM biasanya cukup menyulitkan. Artikel ini menguraikan contoh solusi dan memberikan beberapa contoh code untuk menjalankan PySpark dengan Pandas dan library python lainnya.
  4. Data infrastructure at GO-JEK
    Dengan 100M order per bulan, 700ribu pengemudi aktif, dan 125 ribu merchant, GO-JEK memerlukan sistem yang handal. Mari ‘mengintip’ ke dalam infrastruktur data milik perusahaan terkemuka di Indonesia ini.
  5. [DATASET] Mozilla Common Voice
    Sekitar 400.000 rekaman dari 20.000 orang yang berbeda, menghasilkan total sekitar 500 jam rekaman suara. Saat ini merupakan koleksi dataset suara terbesar ke dua, dan jumlahnya masih terus bertambah.

Rilis Produk

  1. Apache PredictionIO 0.12.1 Release
    Apache PredictionIO adalah machine learning server yang dibangun di atas open source stack. Rilis 0.12.1 mencakup penambahan support untuk Spark 2.2, CleanupFunctions untuk Python, dan beberapa perubahan.
  2. Altair 2.0
    Altair adalah library Python untuk visualisasi statistik deklaratif berbasis Vega dan Vega-Lite. Kandidat untuk versi 2.0 sudah tersedia, dengan support untuk visualisasi interaktif Vega-Lite di Python.
  3. Tensorflow 1.6.0 released
    Tensorflow 1.6.0 mendukung CUDA 9.0 dan cdDNN 7, beserta beberapa fitur tambahan perbaikan bugs lainnya
  4. R 3.4.4 is released
    Rilis ini direncanakan merupakan rilis terakhir dari seri 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 15 / 2018
  • Comments Off on Seputar Big Data Edisi #51
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas, Spark

Seputar Big Data Edisi #51

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2018.

Artikel dan Berita

  1. Dubai Decrees Itself the A.I. City-State of the Future
    Pemerintah UEA mencanangkan Dubai sebagai kota AI masa depan, dengan mendorong implementasi big data dan AI. Beberapa di antaranya adalah menyediakan menyediakan lingkungan yang terjangkau untuk melakukan inkubasi dan launching bisnis di bidang AI, setelah pada tahun 2016 PM UAE menginvestasikan US$270 juta untuk inovasi. Pada Oktober tahun lalu UAE menunjuk menteri bidang AI, yang merupakan menteri pertama di dunia yang khusus menangani bidang ini.
  2. Mengenal Kelas Big Data dan Komputasi Kognitif Pertama di Indonesia
    Fakultas Ekonomi dan Bisnis Universitas Indonesia (FEB UI) meluncurkan mata kuliah baru : Big Data dan Komputasi Kognitif yang pertama di Tanah Air. Kelas ini hadir atas kemitraan UI dengan perusahaan solusi kognitif dan platform cloud IBM Indonesia.
  3. Google’s March Madness AI contest offers 0,000 in prizes
    Google menyelenggarakan kompetisi AI untuk prediksi hasil turnamen basket antar perguruan tinggi, NCAA March Madness, dengan hadiah sebesar US$100,000. Dalam kompetisi ini peserta membuat software AI untuk prediksi pemenang, dengan data dari 40 juta pertandingan basket NCAA yang direkam sejak 2009.
  4. Baidu shows strategic vision with AI map merger
    Salah satu raksasa internet dari China, Baidu, baru-baru ini mengumumkan pengalihan bisnis peta digital mereka. Baidu Maps dialihkan ke bawah AI Group, setelah sebelumnya berada di bawah anak perusahaan yang memegang mesin pencari web. Langkah ini merupakan upaya mendorong bisnis AI mereka. Dikabarkan kemungkinan di masa datang Baidu Maps akan kembali dialihkan ke dalam bagian yang mengembangkan autonomous car.
  5. AI ‘more dangerous than nukes’: Elon Musk still firm on regulatory oversight
    Elon Musk mengatakan bahwa AI memiliki potensi bahaya yang lebih besar daripada nuklir. Oleh karena itu menurut Musk, perlu dibentuk sebuah badan independen yang dapat memastikan penerapan-penerapan AI dilakukan dalam batas yang aman untuk umat manusia di seluruh dunia.
  6. Elastic Plots Its Own Course to Big Data Success
    Elastic, perusahaan di belakang Elasticsearch, salah satu project open source terpopuler, adalah salah satu perusahaan terkemuka di bidang big data. Berikut ini beberapa ‘rahasia’ di balik kesuksesan Elastic.
  7. Waymo self-driving trucks to transport Google Atlanta data center gear
    Waymo, perusahaan self driving car milik Alphabet, melebarkan pengujian kendaraan swakemudi dari mobil penumpang biasa ke kendaraan besar, yaitu truk. Percobaan pertama mereka ditujukan untuk membantu data center Google di Atlanta, Georgia.

Tutorial dan Pengetahuan Teknis

  1. Gentle Introduction to Apache NiFi for Data Flow… and Some Clojure
    Tutorial mengenai Apache NiFi. Menjelaskan mengenai bagaimana membuat prosesor yang membaca dari file, prosesor yang menulis ke file, dan prosesor yang dapat menginsert data ke MongoDB.
  2. Getting started with Data Engineering
    Salah satu spesialisasi yang banyak dicari akhir-akhir ini adalah Data Engineer, bahkan kebutuhan data engineer ini diperkirakan melebihi kebutuhan terhadap data saintis. Artikel ini memberikan penjelasan yang cukup bagus mengenai apa itu data engineer, serta beberapa terminologi yang menyertainya.
  3. MongoDB and Data Streaming: Implementing a MongoDB Kafka Consumer
    Pengenalan singkat mengenai Apache Kafka dan bagaimana menggunakan MongoDB sebagai sumber dan tujuan data yang di-stream.
  4. Introducing Pulsar Functions
    For simple ETL, real-time aggregation, event routing, and similar use cases, Apache Pulsar is adding Pulsar Functions. Inspired by AWS Lambda and Google Cloud Functions, Pulsar Functions use a simple API and the Pulsar cluster for deployment. The post covers the design goals, deployment mechanism, runtime guarantees, and more.
    Apache pulsar menambahkan Pulsar Functions untuk menangani use case
  5. Installing Apache Spark 2.3.0 on macOS High Sierra
    Overview mengenai instalasi Apache Spark 2.3.0 di atas Mac OS.
  6. Daftar lengkap operasi aljabar linier yang diperlukan dalam menggunakan NumPy untuk aplikasi machine learning.
  7. [DATASET] LibriSpeech ASR corpus
    LibriSpeech adalah korpus yang berisi sekitar 1000 jam 16kHz audio dalam bahasa Inggris. Data didapatkan dari project audiobook LibriVox, yang telah disegmentasi dan diselaraskan.

Rilis Produk

  1. The Building Blocks of Interpretability
    Google merilis Lucid, library jaringan syaraf tiruan yang dibangun dari project DeepDream. Lucid digunakan untuk menambahkan efek artistik pada gambar. Di samping itu juga dirilis Google Colab, jupyter notebook yang disimpan di google drive, dan dapat langsung digunakan untuk menjalankan Lucid dan berbagai aplikasi deep learning tanpa perlu melakukan setup infrastruktur apapun.
  2. Semantic Image Segmentation with DeepLab in Tensorflow
    Google merilis DeepLab-v3+, model Tensorflow yang digunakan untuk melakukan segmentasi semantik image. Segmentasi semantik adalah proses memberikan label semantik setiap piksel dalam sebuah citra/image, seperti misalnya ‘langit’, ‘awan’, ‘ayam’, dsb.
  3. Apache MXNet (incubating) 1.1.0 Release
    Apache MXNet (incubating), sebuah framework deep learning, rilis versi 1.1.0.
    Tercakup di dalamnya peningkatan kinerja untuk GPU maupun CPU, penambahan dukungan operator, dan tutorial serta contoh penggunaan yang semakin lengkap.
  4. Apache Kylin 2.3.0 released
    Apache Kylin 2.3.0 merupakan rilis major, dengan lebih dari 250 perbaikan dan peningkatan. Apache Kylin adalah engine analytics terdistribusi, menyediakan antarmuka SQL dan OLAP di atas Hadoop.
  5. Apache Hivemall 0.5.0-incubating released
    Apache Hivemall adalah library machine learning yang diimplementasikan sebagai UDF/UDAF/UDTF. Versi 0.5.0 ini merupakan rilis pertama sejam Hivemall memasuki inkubator Apache. Hivemall berjalan di atas framework pemrosesan data berbasis Hadoop, yaitu Hive, Spark dan Pig.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung