:::: MENU ::::

Posts Tagged / Machine Learning

  • Oct 04 / 2021
  • Comments Off on Seputar Big Data Edisi #82
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data Edisi #82

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2021

Artikel dan berita

  1. Old coal plant is now mining bitcoin for a utility company
    Meskipun tidak memiliki wujud fisik, ternyata diperlukan konsumsi begitu banyak daya untuk menambang Bitcoin. Komputer-komputer di seluruh dunia memakan listrik setara dengan kebutuhan sebuah negara seukuran Belanda atau Polandia untuk menambangnya. Begitu pentingnya faktor listrik ini, sehingga sebuah perusahaan swasta bahkan memiliki pembangkit listrik sendiri untuk melakukan penambangan bitcoin. Salah satunya adalah perusahaan swasta di Amerika, yang meletakkan data center mereka di dekat pembangkit listrik tenaga batubara, sekitar 10 mil di luar St. Louis. Pembangkit listrik tersebut sempat mengalami kesulitan untuk mempertahankan operasionalnya agar tetap menguntungkan ketika harga listrik anjlok sebelumnya.
  2. The limitations of AI safety tools
    Pada tahun 2019, OpenAI merilis Safety Gym, seperangkat alat untuk mengembangkan model AI yang memperhatikan “batasan keamanan” tertentu, khususnya untuk reinforcement learning. Saat itu, OpenAI mengklaim bahwa Safety Gym dapat digunakan untuk membandingkan keamanan sebuah algoritma dan sejauh mana algoritma tersebut dapat menghindari kesalahan yang fatal saat belajar, misalnya menghindari tabrakan.
    Sejak itu, Safety Gym telah digunakan dalam mengukur kinerja algoritma yang diusulkan dari OpenAI, serta para peneliti dari University of California, Berkeley, dan University of Toronto. Akan tetapi beberapa ahli mempertanyakan apakah “alat keamanan” AI ini benar-benar berfungsi efektif seperti yang dinyatakan oleh pembuatnya.
  3. Researchers attempt an open source alternative to GitHub’s Copilot
    Pada bulan Juni lalu OpenAI dan GitHub meluncurkan Copilot, service yang memberikan saran berupa serangkaian kode di dalam lingkungan pengembangan seperti Microsoft Visual Studio. Didukung oleh model AI yang disebut Codex — yang diekspos oleh OpenAI melalui API — Copilot dapat menerjemahkan bahasa alami ke dalam kode dalam berbagai bahasa pemrograman, mengartikan perintah dalam bahasa Inggris dan mengeksekusinya.
    Saat ini sebuah komunitas sedang berupaya untuk membuat alternatif open source untuk model Copilot dan Codex, yang disebut dengan GPT Code Clippy. Para kontributor berharap untuk dapat membuat sebuah pair programmer AI yang memungkinkan para peneliti untuk mempelajari model AI skala besar yang dilatih menggunakan source code, untuk memahami kelebihan dan keterbatasannya.
  4. Facebook whistleblower to testify at U.S. Senate hearing next week
    Dua senator AS menyatakan bahwa seorang whistleblower Facebook akan bersaksi di hadapan sidang Senat minggu depan mengenai apa yang mereka sebut sebagai ‘efek toksik’ media sosial pada pengguna usia muda. Kesaksian pelapor ini akan sangat penting untuk memahami apa yang diketahui Facebook tentang efek racun platformnya terhadap pengguna muda, sejak kapan mereka mengetahui, dan apa telah yang mereka lakukan untuk mengatasi hal tersebut.
  5. How Intelligent Marketers Use AI
    Saat ini AI telah menjadi aspek penting dalam dunia marketing, dan telah digunakan dalam berbagai proses bisnis dan industri. Akan tetapi mungkin masih banyak pakar marketing yang merasa kewalahan menghadapi topik AI ini, diantaranya karena kurangnya keahlian teknis untuk memahami bagaimana sebenarnya cara kerja AI. Meski demikian, bagi marketer yang cerdas, tidak perlu menjadi spesialis IT untuk bisa mempelajari cara pemanfaatan AI. Artikel berikut ini menyajikan ulasan mengenai bagaimana para marketer menggunakan AI untuk meningkatkan kinerja mereka, dan bagaimana Anda dapat melakukannya juga.

Tutorial dan pengetahuan teknis

  1. Scaling LinkedIn’s Hadoop YARN cluster beyond 10,000 nodes
    LinkedIn menggunakan Hadoop sebagai tulang punggung Big Data analitik dan pembelajaran mesin. Dengan volume data yang tumbuh secara eksponensial, mereka menggandakan ukuran klaster dari tahun ke tahun untuk menyesuaikan dengan tumbuhnya beban komputasi. Cluster terbesar mereka saat ini memiliki ~10.000 node, salah satu cluster Hadoop terbesar di dunia. Penskalaan arsitektur Hadoop YARN menjadi salah satu tantangan terbesar selama bertahun-tahun.
    Dalam posting ini akan dibahas perlambatan klaster YARN yang terjadi ketika mereka mendekati jumlah 10.000 node, dan solusinya. Kemudian dibahasa mengenai bagaimana mereka secara proaktif memantau penurunan kinerja di masa mendatang, termasuk tools open-source mereka, DynoYARN, untuk memperkirakan kinerja klaster YARN dengan ukuran arbitrer. Terakhir, dijelaskan mengenai Robin, service internal yang memungkinkan untuk menskalakan klaster secara horizontal hingga melebihi 10.000 node.
  2. Mengenal Feature Selection dalam Machine Learning
    Feature selection merupakan salah satu cara untuk meningkatkan akurasi pada sebuah model machine learning. Melalui artikel singkat ini diharapkan kita dapat mengenal feature selection beserta teknik-tekniknya.
  3. Modeling Pipeline Optimization With scikit-learn
    Tutorial ini menyajikan dua konsep penting dalam data science dan machine learning, yaitu alur pembelajaran mesin dan optimalisasinya. Kedua prinsip ini merupakan kunci dalam machine learning. Tutorial ini akan membahas mengenai bagaimana cara membangun pipeline menggunakan sklearn.pipeline, melakukan grid search untuk mendapatkan parameter terbaik menggunakan GridSearchCV() dari sklearn.model_selection, dan melakukan analisis hasil dari GridSearchCV(), serta memvisualisasikannya. Dalam tutorial ini digunakan Ecoli Dataset dari UCI Machine Learning Repository.
  4. Getting started with Kafka and Rust: Part 2
    Tutorial ini merupakan bagian kedua dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Consumer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
  5. [FREE Ebook] R For Data Science – Hadley Wickham & Garret Grolemund.
    Ditulis oleh Chief Data Science RStudio, yang juga penulis berbagai package penting R, di antaranya ggplot2, tidyverse, dll.
    Buku ini menjelaskan dengan sangat baik tentang bagaimana mengolah data dan menghasilkan insight dalam R.
    Dengan penyajian yang detail dan terstruktur, buku ini juga sesuai untuk pembaca yang baru mulai terjun ke data sains maupun baru mempelajari R.

Rilis Produk

  1. Apache Karaf runtime 4.3.3
    Karaf menyediakan runtime modulith untuk enterprise, berjalan secara on-premis atau di atas cloud. Karaf memungkinkan user untuk lebih berfokus pada bisnis dan aplikasi. Rilis ini merupakan rilis penting pada seri Karaf 4.3.x, yang mencakup pembaruan, perbaikan, dan fitur baru, di ataranya kerangka repositori spesifikasi fitur, perbaikan kebocoran memori pada layanan status blueprint, perbaikan JMX exception push back ke klien, dan lain sebagainya.
  2. Apache jclouds 2.4.0 released
    Apache jclouds adalah toolkit multi-cloud open source untuk platform Java yang memberi Anda kebebasan untuk membuat aplikasi yang portabel di berbagai cloud, dan memberi Anda kontrol penuh untuk menggunakan fitur khusus cloud.
    Versi 2.4.0 ini adalah rilis reguler yang mencakup pembaruan, peningkatan, dan perbaikan bug, di antaranya peningkatan kompatibilitas dengan Java 9 dan environment yang baru.
  3. Apache IoTDB 0.12.2
    Apache IoTDB (Database untuk Internet of Things) adalah database native IoT
    dengan performa tinggi untuk manajemen dan analisis data, yang dapat diterapkan di edge dan cloud.
    Rilis ini adalah versi bug fixing dari 0.12.1, yang mencakup sejumlah pembaruan, peningkatan, dan perbaikan.
  4. Open-sourcing Mariana Trench: Analyzing Android and Java app security in depth
    Mariana Trench (MT) adalah tools yang digunakan oleh Facebook untuk menemukan dan mencegah bug secirity dan privasi di aplikasi Android dan Java. Sebagai bagian dari upaya untuk meningkatkan keamanan melalui otomatisasi, baru-baru ini Facebook membuka MT untuk mendukung tugas security engineer.
    Artikel ini adalah posting ketiga dari rangkaian pembahasan mengenai tools analisis statis dan dinamis yang digunakan oleh Facebook. MT sendiri adalah sistem terbaru, setelah Zoncolan dan Pysa, yang masing-masing dibuat untuk Hack dan Python.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2021
  • Comments Off on Seputar Big Data Edisi #81
AI, Artificial Intelligece, Hadoop, Komunitas, pertanian

Seputar Big Data Edisi #81

Hai temans.. we’re back! Kali ini kembali kami hantarkan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke-4 bulan September 2021.

Artikel dan berita

  1. $5.9 million ransomware attack on farming co-op may cause food shortage
    Koperasi pertanian yang berbasis di Iowa, NEW Cooperative Inc. terkena serangan ransomware yang membuat mereka terpaksa meng-offline-kan sistem. Kelompok BlackMatter yang berada di balik serangan tersebut telah mengajukan permintaan tebusan sebesar 5,9 juta US Dollar. Koperasi pertanian tersebut menyatakan serangan itu dapat berdampak signifikan pada pasokan produk makanan untuk publik jika mereka tidak dapat meng-online-kan kembali sistem mereka.
  2. Gartner Hype Cycle for AI 2021 : AI is moving fast and will be ready for prime time sooner than you think
    Melalui penggunaan pemrosesan bahasa alami (NLP) dan teknologi baru seperti AI generatif, knowledge graph, dan composite AI, organisasi semakin banyak menggunakan solusi AI untuk menciptakan produk baru, memperbaiki produk yang sudah ada, serta menumbuhkan basis pelanggan mereka.
    Empat tren berikut mendominasi lanskap AI tahun ini: Operasionalisasi inisiatif AI; Penggunaan data, model dan komputasi yang efisien; AI yang Bertanggung Jawab (Responsible AI); dan Data untuk AI.
  3. Improved algorithms may be more important for AI performance than faster hardware
    Ketika berbicara tentang AI, inovasi algoritma jauh lebih penting daripada inovasi perangkat keras — terutama jika data yang terlibat mencapai miliaran hingga triliunan. Keesimpulan tersebut diungkapkan tim ilmuwan Computer Science and Artificial Intelligence Laboratory (CSAIL) MIT, yang melakukan apa yang mereka klaim sebagai studi pertama tentang seberapa cepat peningkatan algoritma dalam berbagai contoh kasus.

Tutorial dan pengetahuan teknis

  1. Hadoop Benchmarking dengan Terasort
    Setelah melakukan instalasi ataupun konfigurasi sebuah klaster Hadoop, kita perlu melakukan benchmarking, yaitu menguji apakah MapReduce dan HDFS bekerja dengan baik. Artikel ini menjelaskan mengenai benchmarking klaster Hadoop menggunakan utilitas Terasort.
  2. Using deep learning to detect abusive sequences of member activity
    Tim AI Anti-Penyalahgunaan di LinkedIn menggunakan model untuk mendeteksi dan mencegah berbagai jenis penyalahgunaan, termasuk pembuatan akun palsu, scraping profil anggota, spam otomatis, dan pengambilalihan akun.
    Dalam posting ini dibahas gambaran teknis tentang teknik pemodelan urutan aktifitas, tantangan yang dihadapi, dan bagaimana pemodelan tersebut mengatasi permasalahan yang dihadapi.
  3. Hyperparameter Optimization With Random Search and Grid Search
    Algoritma pembelajaran mesin memiliki hyperparameter yang dapat diatur untuk mendapatkan hasil pemodelan yang terbaik.
    Salah satu cara untuk mendapatkan nilai hyperparameter yang optimal adalah dengan melakukan optimasi atau tuning hyperparameter. Dalam tutorial ini dijelaskan bagaimana melakukan random search dan grid search hyperparameter tuning untuk permasalahan klasifikasi dan regresi, menggunakan scikit-learn.
  4. Getting Started With Kafka and Rust (Part 1)
    Tutorial ini merupakan bagian pertama dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Producer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
  5. [FREE EBOOK] Python Data Science Handbook – Jake VanderPlas.
    Panduan lengkap untuk memulai hands-on machine learning menggunakan Python. Menjelaskan secara detail dan praktis berbagai algoritma machine learning lengkap dengan source code implementasinya menggunakan scikit-learn.
    Disertakan juga penjelasan mengenai package dan library Python yang penting untuk data science: numpy, Pandas, matplotlib, dan tentunya scikit-learn.
    Buku ini juga dapat diakses dan didownload dalam bentuk jupyter notebook.
  6. [DATASET] Casual Conversations Dataset
    Dataset ‘Casual Conversations’ terdiri dari lebih dari 45.000 video (3.011 peserta) dan dimaksudkan untuk menilai kinerja model yang sudah terlatih dalam computer vision dan audio untuk tujuan yang telah disepakati dalam perjanjian pengguna data. Video tersebut menampilkan individu berbayar yang setuju untuk berpartisipasi dalam proyek, dan secara eksplisit memberikan label usia dan jenis kelamin mereka sendiri. Video-video tersebut direkam di AS dengan beragam kelompok orang dewasa dalam berbagai usia, jenis kelamin, dan kelompok warna kulit yang berbeda.

Rilis Produk

  1. Apache Geode 1.14.0
    Apache Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi.
    Rilis ini mencakup sejumlah besar perbaikan bug, peningkatan, dan penambahan beberapa statistik untuk memantau kondisi cluster.
  2. Apache Hudi 0.9.0 released
    Apache Hudi (Hadoop Upserts Deletes and Incrementals) mengelola penyimpanan dataset analitik besar di DFS (Cloud Store, HDFS, atau penyimpanan lain yang kompatibel dengan Hadoop FileSystem) dan menyediakan kemampuan untuk melakukan query.
    Rilis ini mencakup penyelesaian lebih dari 380 issue, terdiri dari fitur-fitur baru serta peningkatan umum dan perbaikan bug. Diantaranya yaitu dukungan untuk Spark SQL DML/DDL, serta beberapa hal penting terkait query, writer, integrasi flink, dan peningkatan delta streamer.
  3. Apache DolphinScheduler 1.3.8 released
    Apache DolphinScheduler adalah sistem penjadwal Big Data workflow visual yang cloud-native. Dalam versi 1.3.8 ini dilakukan banyak optimasi di Doker & K8s. Image docker mendukung banyak arsitektur, seperti arm64, system default parameters optimization , dan sebagainya. Dilakukan pula optimasi dalam hal user experience.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 18 / 2021
  • 0
AI, Apache, Artificial Intelligece, Big Data, Hadoop, Komunitas, machine learning, Spark

Big Data – Definisi, Teknologi dan Implementasinya

Big Data adalah sebuah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisa sekumpulan data yang memiliki jumlah yang sangat besar, baik yang terstruktur, semi terstruktur dan tidak terstruktur. Ada banyak tantangan yang akan dihadapi ketika berhubungan dengan big data, mulai dari bagaimana data diambil, disimpan, hingga masalah keamanan data.

Walaupun Istilah big data sudah sering didengar dan diucapkan, masih banyak diantara kita yang bertanya-tanya: Apa yang dimaksud dengan big data? Apa kegunaan big data? Apa saja teknologi big data? Mengapa big data diperlukan dalam berbagai bidang?

Apa Yang Dimaksud Dengan Big Data?

Tidak ada definisi yang baku mengenai big data. Secara garis besar big data adalah sekumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks sehingga teknologi pemrosesan data tradisional tidak lagi dapat menanganinya dengan baik. Saat ini istilah big data juga sering digunakan untuk menyebut bidang ilmu atau teknologi yang berkaitan dengan pengolahan dan pemanfaatan data tersebut.

Aspek yang paling penting dari big data sebenarnya bukan sekedar pada berapa besarnya data yang bisa disimpan dan diolah, akan tetapi kegunaan atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah tersebut, maka data hanya akan menjadi sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk berbagai hal, seperti meningkatkan kelancaran operasional, ketepatan penjualan, peningkatan kualitas layanan, prediksi atau proyeksi pasar, dan lain sebagainya.

Dalam bidang informatika dikenal sebuah istilah “Garbage in Garbage out” atau masukan sampah akan menghasilkan keluaran sampah juga. Maksudnya adalah jika masukan yang kita berikan ke sistem adalah input berkualitas rendah, maka kualitas outputnya tentu akan rendah juga. Input yang dimaksud di sini adalah data.

Untuk itu, memastikan kualitas input maupun output dalam setiap tahap pengolahan data untuk mendapatkan keluaran akhir yang berkualitas adalah sebuah keharusan dalam implementasi big data.

Karakteristik Big Data

Karakteristik Big Data biasa disebut dengan singkatan 4V, yaitu:

  • Volume : mengacu pada ukuran data yang perlu diproses. Saat ini satuan volume data di dunia telah melampaui zettabyte (1021 byte), bahkan telah banyak perusahaan atau organisasi yang perlu mengolah data sampai ukuran petabytes perharinya. Volume data yang besar ini akan membutuhkan teknologi pemrosesan yang berbeda dari penyimpanan tradisional.
  • Velocity : adalah kecepatan data yang dihasilkan. Data yang dihasilkan dengan kecepatan tinggi membutuhkan teknik pemrosesan yang berbeda dari data transaksi biasa. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data dari mesin ataupun sensor.
  • Variety : Big Data berasal dari berbagai sumber, dan jenisnya termasuk salah satu dari tiga kategori berikut: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang bervariasi ini membutuhkan kemampuan pemrosesan dan algoritma khusus. Contoh data dengan variasi tinggi adalah pemrosesan data sosial media yang terdiri dari teks, gambar, suara, maupun video.
  • Veracity : mengacu pada akurasi atau konsistensi data. Data dengan akurasi tinggi akan memberikan hasil analisis yang berkualitas. Sebaliknya, data dengan akurasi rendah mengandung banyak bias, noise dan abnormalitas. Data ini jika tidak diolah dengan benar akan menghasilkan keluaran yang kurang bermanfaat, bahkan dapat memberikan gambaran atau kesimpulan yang keliru. Veracity merupakan tantangan yang cukup berat dalam pengolahan Big Data.

Di samping 4V tersebut, ada juga yang menambahkan satu lagi sehingga menjadi 5V, yaitu value. Value ini sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang mungkin dihasilkan oleh data. Keempat karakteristik di atas (volume, velocity, variety dan veracity) perlu diolah dan dianalisis untuk dapat memberikan value atau manfaat bagi bisnis maupun kehidupan. Oleh karena itu, karakteristik yang kelima ini berkaitan erat dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas.

Apa Saja Teknologi Big Data?

Perkembangan teknologi big data tidak bisa dilepaskan dari teknologi atau konsep open source. Istilah Big Data terus bergaung seiring dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar mengkontribusikan teknologi big data yang mereka buat dan mereka gunakan ke komunitas open source. Hal inilah yang kemudian menjadi salah satu pendorong utama berkembangnya big data.

Ada banyak sekali teknologi open source yang populer dalam ekosistem big data, berikut ini beberapa di antaranya:

  1. Apache Hadoop
    Apache Hadoop adalah sebuah framework yang memungkinkan untuk melakukan penyimpanan dan pemrosesan data yang besar secara terdistribusi dalam klaster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google seperti Google File System dan Google Map Reduce.
    Hadoop menawarkan 3 hal utama yaitu:

    • Sistem penyimpanan terdistribusi
      Hadoop memiliki sebuah file sistem yang dinamakan Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS merupakan sistem penyimpanan file atau data terdistribusi dalam klaster Hadoop. HDFS terinspirasi dari Google File System.
    • Framework pemrosesan data secara paralel dan terdistribusi
      MapReduce adalah model pemrograman untuk melakukan pemrosesan data besar secara terdistribusi dalam klaster Hadoop. MapReduce bekerja dan mengolah data-data yang berada dalam HDFS.
    • Resource management terdistribusi
      YARN merupakan tools yang menangani resource manajemen dan penjadwalan proses dalam klaster Hadoop. YARN mulai diperkenalkan pada Hadoop 2.0. YARN memisahkan antara layer penyimpanan (HDFS) dan layer pemrosesan (MapReduce). Pada awalnya Hadoop hanya mensupport MapReduce sebagai satu-satunya framework komputasi paralel yang dapat bekerja diatas klaster Hadoop. YARN memungkinkan banyak framework komputasi paralel lain, seperti Spark, Tez, Storm, dsb, untuk bekerja diatas klaster Hadoop dan mengakses data-data dalam HDFS.

    Komponen-komponen Apache Hadoop
    Komponen-komponen Apache Hadoop

  2. Apache Hive
    Apache Hive adalah sebuah framework SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL yang memudahkan untuk melakukan query dan analisis data berukuran besar di atas Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lain seperti Amazon AWS3 dan Alluxio.
    Dukungan Hive terhadap SQL ini sangat membantu portabilitas aplikasi berbasis SQL ke Hadoop, terutama sebagian besar aplikasi data warehouse yang membutuhkan sistem penyimpanan maupun komputasi yang besar.Pada awalnya Hive dikembangkan oleh Facebook untuk digunakan sebagai sistem data warehouse mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang dengan pesat dan banyak diadopsi serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.

    Komponen Utama Apache Hive
    Komponen Utama Apache Hive

    Pada dasarnya Hive hanya sebuah layer untuk menerjemahkan perintah-perintah SQL ke dalam framework komputasi terdistribusi. Hive dapat bekerja menggunakan berbagai framework yang berjalan diatas Hadoop, seperti MapReduce, Tez ataupun Spark.

  3. Apache Spark
    Apache Spark merupakan framework komputasi terdistribusi yang dibangun untuk pemrosesan big data dengan kecepatan tinggi.Apache spark memiliki algoritma yang berbeda dengan MapReduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API dalam Scala, Java, Python, dan SQL, serta dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, komputasi graph, dan SQL.Selain HDFS, Spark juga dapat digunakan di atas file system lain seperti Cassandra, Amazon AWS3, dan penyimpanan awan yang lain.Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini dapat meningkatkan kecepatan pemrosesan aplikasi secara drastis. Untuk kasus tertentu, kecepatan pemrosesan Spark bahkan dapat mencapai 100 kali dibanding pemrosesan menggunakan disk seperti MapReduce.Jika MapReduce lebih sesuai digunakan untuk pemrosesan batch dengan dataset yang sangat besar, maka Spark sangat sesuai untuk pemrosesan iteratif dan live-streaming, sehingga Spark banyak dimanfaatkan untuk machine learning.Spark adalah salah satu sub project Hadoop yang dikembangkan pada tahun 2009 di AMPLab UC Berkeley. Sejak tahun 2009, lebih dari 1200 developer telah berkontribusi pada project Apache Spark.

Selain 3 teknologi tersebut, sebenarnya masih sangat banyak teknologi dan framework big data lainnya yang bersifat open source seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka dan lain sebagainya.

Big Data Pipeline

Untuk dapat memberikan nilai yang bermanfaat, data harus melalui berbagai tahapan pemrosesan terlebih dahulu. Mulai dari pencatatan/pembuatan, pengumpulan, penyimpanan, pengayaan, analisis dan pemrosesan lebih lanjut, hingga penyajian. Rangkaian proses data ini biasa disebut dengan Data Pipeline.

Secara garis besar Big Data Pipeline dapat dibagi menjadi 3, yaitu :

    • Data Engineering: tercakup di dalamnya data collection, ingestion, cleansing, transformation dan enrichment.
    • Data Analytics / Machine Learning: mencakup feature engineering dan komputasi.
    • Data Delivery: penyajian data, termasuk penerapan model dalam aplikasi atau sistem, visualisasi, dan lain sebagainya.

Data Processing Pipeline
Data Processing Pipeline

Big Data Analytics

Saat ini jika kita berbicara mengenai big data, maka biasanya yang dimaksud adalah big data analytics. Hal ini cukup wajar, karena ketika sebuah proyek big data dimulai, tentu saja hasil akhir yang diharapkan adalah mendapatkan insight yang bermanfaat, yang dapat membantu pengambilan keputusan.

Data Analytics sendiri adalah serangkaian proses untuk menggali informasi atau insight dari kumpulan data. Informasi tersebut dapat berupa pola, korelasi, trend, dan lain sebagainya. Data analytics seringkali melibatkan teknik dan algoritma pengolahan data yang cukup kompleks seperti data mining maupun perhitungan statistik.

Dalam Big Data Analytics, tingkat kesulitannya semakin besar karena data yang diproses diperoleh dari berbagai sumber dengan bentuk dan jenis yang berbeda-beda, dan ukuran serta kecepatan yang besar pula. Oleh karena itu Big Data Analytics banyak menggunakan teknik dan algoritma yang lebih advance seperti predictive model dan machine learning untuk melihat trend, pola, korelasi dan insight lainnya.

Secara umum big data analytics terbagi 4 kategori yaitu:

    1. Descriptive Analytics
      Analisis ini digunakan untuk menjawab pertanyaan mengenai apa yang sedang terjadi. Hampir semua organisasi telah mengimplementasikan analisis jenis ini.
    2. Diagnostic Analytics
      Setelah mengetahui apa yang terjadi, biasanya pertanyaan berikutnya adalah mengapa bisa terjadi. Analisa jenis ini menggunakan drill-down data untuk mencari alasan lebih mendalam mengenai apa yang sedang terjadi.
    3. Predictive Analytics
      Analisis prediktif memberikan prediksi mengenai apa yang akan terjadi berdasarkan data-data yang ada. Analisa jenis ini menggunakan teknik dan algoritma machine learning dan artificial intelligence untuk menghasilkan model prediksi berdasarkan data-data historis.
    4. Prescriptive Analytics
      Memanfaatkan analisis deskriptif dan prediktif, analisis jenis ini memberikan insight untuk dapat memperoleh hasil yang sesuai dengan apa yang telah diprediksikan.

Implementasi Big Data dalam Bisnis
Jenis dan Tingkatan Data Analytics

Implementasi Big Data dalam Bisnis

Kebiasaan manusia dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat adalah kunci untuk bertahan dalam bisnis. Data adalah salah satu penentu keberhasilan dalam pengambilan keputusan.

Customer Profiling
Pola dan profil pelanggan dapat dipelajari melalui data-data yang dibuat oleh pelanggan ketika sedang berinteraksi dengan produk, baik secara langsung, melalui website ataupun menggunakan aplikasi. Saat ini data profil pelanggan dapat diperluas lagi dengan menyertakan informasi geolokasi, bahkan data-data sosial media yang mereka buat.

Semakin banyak data yang dikumpulkan, serta makin canggihnya proses pengolahan data tersebut, maka informasi yang akurat dan detail mengenai profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang tepat kepada pelanggan sehingga dapat meningkatkan penjualan maupun loyalitas pelanggan.

Product Development
Membangun produk dari sebuah ide yang pada akhirnya dapat diterima dengan baik oleh pasar merupakan sebuah tantangan. Big data dapat memberikan insight yang mendalam
untuk mengidentifikasikan kebutuhan pasar, melihat respon pelanggan melalui komentar pada forum atau sosial media, mengevaluasi kinerja penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, hingga mengoptimalkan strategi pemasaran.

Semakin baik pengelolaan data dan semakin cepat ketersediaan dapat akan dapat terus untuk membuat produk yang berkesinambungan sehingga memberikan nilai yang baik di bagi pelanggan dan pengguna.

Price Optimization
Harga bisa menjadi kunci bagi pelanggan untuk menentukan produk yang akan dibeli. Akan tetapi perang harga pun dapat memberikan pengaruh buruk bagi produk itu sendiri. Big data dapat memberikan peta dan pola harga yang ada di pasar, sehingga produsen dapat menentukan harga yang optimal dan promosi harga yang sesuai dengan kebutuhan pasar.

Big Data untuk Telekomunikasi

Telekomunikasi merupakan salah satu sektor yang mau tidak mau harus berurusan dengan big data. Terlebih lagi saat ini layanan telekomunikasi bisa dibilang adalah jantung dari dunia digital kita. Jika data sering disebut sebagai ‘the new oil’, maka penyedia layanan telekomunikasi seperti memiliki sebuah tambang minyak yang sangat produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.

Big Data untuk Kesehatan

Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu bidang kesehatan termasuk sektor yang memiliki tantangan besar di bidang big data.

Integrasi data, akurasi data dan kecepatan perolehan data merupakan hal yang sangat penting dalam bidang kesehatan, karena hal ini menyangkut keselamatan pasien. Tidak hanya itu, jumlah tenaga medis dan rumah sakit pun masih sangat kurang dibanding dengan potensi pasien, terlebih di masa pandemi seperti saat ini. Insight yang diperoleh melalui big data dapat digunakan untuk membantu mengatasi permasalahan tersebut, diantaranya yaitu untuk penegakan diagnosa yang lebih akurat, personalisasi obat-obatan, peningkatan pelayanan rumah sakit hingga optimalisasi operasional rumah sakit.

Kecerdasan Buatan (Artificial Intelligence) dan Big Data

Setelah implementasi big data dalam arti pengelolaan dan analisa data dapat dilakukan dengan baik, tantangan berikutnya adalah bagaimana dengan data itu kita bisa melatih mesin untuk dapat belajar sehingga dapat bekerja dan memberikan insight secara otomatis, cepat, dan akurat. Maka Artificial Intelligence, Machine Learning dan Deep Learning muncul kembali dan menjadi trend baru di masa kini.

Lalu apa perbedaan AI, machine learning dan deep learning? Secara ruang lingkup, deep learning merupakan bagian dari machine learning, dan machine learning merupakan bagian dari artificial intelligence. Inti ketiganya adalah bagaimana membuat mesin atau komputer menjadi cerdas. Tujuan utamanya yaitu untuk mengurangi campur tangan manusia dalam memberikan insight ataupun dalam melakukan berbagai pekerjaan manusia.

Hubungan AI, Machine Learning, dan Deep Learning
Hubungan AI, Machine Learning, dan Deep Learning

Artificial intelligence sendiri bukan merupakan hal baru, akan tetapi bidang ini mulai berkembang dengan sangat pesat dan menjadi sebuah trend setelah munculnya big data. Hal ini dikarenakan ketersediaan data yang melimpah, yang telah dapat ‘ditaklukkan’ dengan big data, yang merupakan materi utama bagi mesin untuk belajar dan menjadi cerdas.

Tidak hanya data, teknologi juga memegang peranan penting bagi perkembangan artificial intelligence. Berbagai perangkat dan teknologi dengan performa yang sangat tinggi saat ini sudah tersedia secara relatif murah dan terjangkau. Jika semula artificial intelligence dianggap sebagai sesuatu yang canggih dan hanya bisa diterapkan menggunakan teknologi yang tinggi dan mahal, saat ini artificial intelligence sudah dapat diimplementasikan pada berbagai perangkat dan sistem yang digunakan sehari-hari.

Komunitas Big Data Indonesia

idBigData adalah komunitas big data Indonesia yang dideklarasikan pada tanggal 2 Desember 2014. Pada saat itu big data masih menjadi sebuah hal yang relatif baru di Indonesia. Belum banyak orang yang paham mengenai apa itu big data, apa kegunaannya, dan bagaimana memanfaatkannya. Maka dibentuknya idBigData sebagai komunitas big data Indonesia bertujuan untuk menjadi wadah berkumpulnya komponen masyarakat dari berbagai bidang untuk saling bertukar pengetahuan dan pengalaman, serta menjalin berbagai kerja sama dalam bidang big data serta pemanfaatannya, termasuk di dalamnya data science dan artificial intelligence.

Contributor :


Tim idbigdata
Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 31 / 2019
  • Comments Off on Seputar Big Data edisi #78
AI, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #78

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu V bulan Oktober 2019.

Artikel dan berita

  1. How AI-Powered Chatbots are Changing the Customer Experience
    Chatbots kini tidak lagi hanya hayalan film fiksi ilmiah atau perusahaan berteknologi tinggi. Tahun lalu, lebih dari dua pertiga konsumen melaporkan berinteraksi dengan Chatbot.
    40% konsumen mengatakan mereka tidak peduli siapa yang membantu mereka selama mereka mendapatkan apa yang mereka butuhkan. 47% konsumen mengatakan terbuka terhadap gagasan untuk membeli produk atau layanan dari Chatbots.
  2. The Growing Importance Of Big Data In Application Monitoring
    Big Data tidak hanya berguna untuk pengembangan aplikasi. Big Data juga sangat ideal untuk memonitor aplikasi dengan lebih mudah. Banyak aplikasi dapat memanfaatkan algoritma AI untuk memastikan user experience terbaik, meminimalkan down time dan memastikan sistem berjalan dengan lancar.
  3. Largest cyber-attack in Georgia’s history linked to hacked web hosting provider
    Georgia mengalami serangan cyber besar-besaran di mana lebih dari 15.000 situs web dirusak dan kemudian dimatikan. Serangan tersebut dianggap sebagai yang terbesar dalam sejarah negara itu, dan berdampak pada situs-situs berbagai lembaga pemerintah, bank, pengadilan, surat kabar lokal, dan stasiun TV.
  4. Machine Learning Based Fraud Detection Models in Healthcare
    Fraud pada layanan kesehatan membahayakan bagi pasien, penyedia layanan, maupun pembayar pajak. Penipuan kesehatan di AS diperkirakan mencapai $68 miliar per tahun, bahkan bisa mencapai $230 miliar. Dengan demikian, deteksi yang tepat waktu dan efektif sangat penting untuk meningkatkan kualitas perawatan. Penyedia asuransi kesehatan Aetna menggunakan 350 model pembelajaran mesin untuk memerangi fraud. Banyak dari model tersebut merupakan jenis deteksi anomali, yang menargetkan penyimpangan dalam dataset besar.

Tutorial dan pengetahuan teknis

  1. Tutorial: Presto + Alluxio + Hive Metastore on Your laptop in 10 Minutes
    Tutorial ini menjelaskan cara install dan setup stack Presto, Alluxio, dan Hive Metastore di server lokal. Selain itu juga menunjukkan cara menggunakan Alluxio sebagai caching layer untuk Presto request. Dalam stack ini, Presto adalah SQL engine untuk merencanakan dan mengeksekusi query, Alluxio adalah layer orkestrasi data, dan Hive Metastore adalah layanan katalog untuk membaca skema tabel dan informasi lokasi.
  2. Getting Started with Rust and Apache Kafka
    Pada artikel sebelumnya telah dijelaskan mengenai simulasi event sourcing bank dalam Clojure. Pada artikel ini ditunjukkan penambahan SSL dan penggabungan beberapa topik menggunakan opsi subject name strategy dari Confluent Schema Registry, serta mengubah salah satu komponen dari Clojure ke Rust.
  3. Feature Selection: Beyond feature importance?
    Dalam pembelajaran mesin, Pemilihan Fitur adalah salah satu proses yang sangat penting. Meskipun terdengar sederhana, pemilihan fitur adalah salah satu masalah paling kompleks dalam proses pembuatan model. Dalam posting ini diuraikan mengenai 3 teknik berbeda untuk melakukan Seleksi Fitur pada dataset Anda dan bagaimana membangun model prediksi yang efektif.
  4. A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning
    Maximum likelihood estimation (MLE) adalah kerangka kerja yang umum digunakan untuk memperkirakan distribusi probabilitas sampel dalam machine learning. Kerangka kerja ini memberikan dasar bagi banyak algoritma penting, termasuk regresi linier, regresi logistik, dan deep neural network. Artikel ini memberikan pengenalan yang mudah untuk anda memahami MLE.
  5. [DATASET] Introducing the Schema-Guided Dialogue Dataset for Conversational Assistants
    Salah satu pertanyaan penting dalam pengembangan asisten AI seperti Google Assistant adalah : bagaimana asisten AI dapat mendukung layanan baru tanpa perlu data tambahan dan pelatihan ulang? Tim peneliti Google baru-baru ini merilis korpus yang menurut mereka merupakan kompilasi terbesar dari dialog-dialog berorientasi tugas/task. Dataset yang disebut the Schema-Guided Dialogue (SGD) corpus diharapkan dapat membantu pengembangan asisten virtual dengan adaptabilitas yang lebih baik.

Rilis Produk

  1. Open-sourcing Polynote: an IDE-inspired polyglot notebook
    Polynote adalah notebook polyglot dengan dukungan Scala, integrasi Apache Spark, interoperabilitas multi-bahasa termasuk Scala, Python, dan SQL, autocomplete as-you-type, dan banyak lagi. Polynote memberikan para ilmuwan data dan peneliti pembelajaran mesin lingkungan notebook yang memungkinkan mereka untuk mengintegrasikan platform ML berbasis JVM – yang banyak menggunakan Scala – dengan library pembelajaran mesin dan visualisasi Python yang populer.
  2. Apache Druid (incubating) 0.16.0 release
    Apache Druid 0.16.0-incubating mencakup lebih dari 350 perubahan yang terdiri dari fitur-fitur baru, peningkatan kinerja, perbaikan performance, perbaikan bugs, dan peningkatan dokumen. Apache Druid (incubating) adalah database analytics real-time untuk OLAP di atas dataset besar.
  3. Apache Geode 1.10.0
    Geode 1.10.0 ini adalah rilis triwulanan yang berisi sejumlah peningkatan fitur dan kinerja serta perbaikan bug. Pengguna disarankan untuk melakukan upgrade ke rilis terbaru ini.
  4. Apache Tuweni 0.8.2 released
    Apache Tuweni adalah sekumpulan library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi dalam Java dan bahasa JVM lainnya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 24 / 2019
  • Comments Off on Seputar Big Data edisi #77
Apache, Artificial Intelligece, Big Data, Blockchain, machine learning

Seputar Big Data edisi #77

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu IV bulan Oktober 2019.

Artikel dan berita

  1. Google confirms ‘quantum supremacy’ breakthrough
    Google mengumumkan secara resmi bahwa mereka berhasil mencapai supremasi kuantum. Google menyatakan bahwa prosesor Sycamore 54-qubit-nya mampu melakukan dalam 200 detik perhitungan yang jika dilakukan oleh superkomputer paling kuat di dunia akan memerlukan waktu 10.000 tahun. Namun klaim ini dibantah oleh IBM dalam blog post mereka Senin lalu.
  2. Microsoft’s AI rewrites sentences based on context
    Salah satu permasalahan pelik bagi mesin dalam percakapan adalah mendeteksi konteks. Padahal konteks pembicaraan adalah bagian yang sangat krusial. Para periset dari Microsoft baru-baru ini melakukan penelitian mengenai penyesuaian ujaran terakhir dari serangkaian percakapan dengan menggunakan konteks yang terakhir dipakai. Penelitian ini diklaim mencapai hasil yang memuaskan dari segi kualitas pengubahan maupun dari segi kualitas respon yang dihasilkan dalam percakapan.
  3. Blockchain’s Shocking Impact on the Restaurant Supply Industry
    Blockchain telah mengubah banyak sektor bisnis, termasuk beberapa sektor yang mungkin tidak diperhitungkan akan terpengaruh. Salah satunya adalah industri supply chain untuk restoran.
  4. Growing Depth Of Background Checks In The Big Data Age
    Pemeriksaan rekam jejak di era big data berkembang menjadi lebih mendalam dan lebih kompleks. Artikel ini mengupas mengenai dampak big data terhadap pemeriksaan latar belakang atau riwayat hidup.

Tutorial dan pengetahuan teknis

  1. How YouTube is Recommending Your Next Video
    Bagaimana YouTube menentukan rekomendasi video selanjutnya untuk anda? Artikel ini mengupas mengenai paper dan algoritma rekomendasi yang digunakan Youtube.
  2. Taking DuckDB for a spin
    DuckDB adalah database kolumnar embedded yang dioptimasi untuk analitics. Posting ini membahas mengenai cara menggunakannya melalui binding Python, dan membandingkan kinerja dengan SQLite pada beberapa query.
  3. Understanding Blockchain Technology by building one in R
    Semua orang berbicara mengenai Blockchain, namun sayangnya tidak banyak yang tahu mengenai teknologi yang mendasarinya. Artikel ini menjelaskan mekanisme kerja blockchain dengan memberikan contoh implementasi sederhana dalam R.
  4. Creating an Open Standard: Machine Learning Governance using Apache Atlas
    Machine learning adalah salah satu kemampuan paling penting bagi bisnis modern untuk tumbuh dan tetap kompetitif saat ini. Tetapi ini menciptakan tantangan tata kelola baru dan unik yang saat ini sulit dikelola. Artikel ini memaparkan mengenai apa dan bagaimana Machine Learning governance dan penerapannya menggunakan Apache Atlas.
  5. Learnings from the journey to continuous deployment
    Pengalaman linkedin dalam melakukan continuous development. Bagaimana mereka memanage ribuan microservice, melakukan frequent rilis dan commit secara seamless dengan tetap mempertahankan kualitas layanan
  6. A Kafka Tutorial for Everyone, no Matter Your Stage in Development
    Kumpulan artikel mengenai tutorial Kafka yang cukup komprehensif, mulai dari dasar pengenalan, setup, development dalam berbagai tahap, sampai testing dan koneksi ke framework lain.

Rilis Produk

  1. Introducing Glow: an open-source toolkit for large-scale genomic analysis
    Glow adalah toolkit open-source yang dibangun di atas Apache Spark™ yang memudahkan dan mempercepat penggabungan data genomic dan fenotip untuk data preparation, analisis statistik, dan pembelajaran mesin pada skala biobank.
  2. Introducing Apache Arrow Flight: A Framework for Fast Data Transport
    Arrow Flight adalah protokol untuk mengirim data dengan cepat dan efisien dalam format Arrow, yang dibangun di atas gRPC. Meskipun masih dalam pengembangan awal, namun Arrow Flight diharapkan akan berperan penting dalam meningkatkan efisiensi pemrosesan data berskala besar.
  3. Open Sourcing Mantis: A Platform For Building Cost-Effective, Realtime, Operations-Focused Applications
    Netflix membuka kode Mantis, platform yang mereka gunakan untuk development. Mantis adalah platform layanan microservice streaming yang memungkinkan para developer untuk meminimalkan cost monitoring dan pengoperasian sistem terdistribusi yang kompleks.
  4. Apache Kylin 2.6.4 released
    Kylin 2.6.4 adalah rilis perbaikan bugs dengan 27 perbaikan di dalamnya. Apache Kylin adalah Distributed Analytics Engine yang menyediakan antarmuka SQL dan analisis multidimensi (OLAP) di atas Apache Hadoop.
  5. Apache Arrow 0.15.0 released
    Versi 1.15.0 ini mencakup 711 penyelesaian isu dari rilis sebelumnya. Apache Arrow adalah platform pengembangan lintas bahasa untuk data dalam memori. Bahasa yang didukung saat ini termasuk C, C ++, C #, Go, Java, JavaScript, MATLAB, Python, R, Ruby, dan Rust.
  6. Beam 2.16.0 Released!
    Apache Beam adalah model pemrograman terpadu untuk mendefinisikan dan menjalankan pipeline pemrosesan data, termasuk ETL, batch, dan stream. Rilis ini mencakup perbaikan bugs, peningkatan serta penambahan fitur dan kinerja.
  7. Apache HBase 2.1.7 is now available for download
    Rilis ini mencakup sekitar 61 perbaikan bugs maupun peningkatan kinerja, termasuk upgrade jackson dan perbaikan terhadap beberapa bug yang kritikal.
  8. Apache Tuweni (incubating) 0.9.0 released
    Apache Tuweni adalah seperangkat library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi lainnya dalam Java dan bahasa JVM lainnya. Mencakup lybrary byte tingkat rendah, serialisasi dan codec deserialisasi (mis. RLP), berbagai fungsi kriptografi dan primitif, dan lain-lain. Saat ini Apache Tuweni mencapai versi 0.9.0 (incubating).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 03 / 2019
  • Comments Off on Seputar Big Data edisi #76
AI, Artificial Intelligece, Big Data, Implementation, machine learning

Seputar Big Data edisi #76

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Oktober 2019.

Artikel dan berita

  1. Industry 4.0: Railways to integrate Big Data, AI
    Kementerian Perkerataapin India berkerja sama dengan Departemen Sains & Teknologi dan IIT-Kanpur, menginisiasi project Industri 4.0, yang mencakup sejumlah teknologi digital seperti AI, Big Data, Machine Learning dan Komputasi Awan.
  2. Big data as graphs
    Infografis 2019 mengenai data yang dihasilkan oleh sosial media, chat platform, music stream dan lainnya.
  3. Google AI’s ALBERT claims top spot in multiple NLP performance benchmarks
    Para peneliti dari Google AI (sebelumnya Google Research) dan Toyota Technological Institute of Chicago telah menciptakan ALBERT, sebuah model AI yang dapat mencapai hasil mutakhir melebihi kinerja manusia. ALBERT saat ini memuncaki peringkat kinerja NLP utama untuk tolok ukur seperti GLUE dan SQuAD 2.0, dan skor kinerja RACE yang tinggi.

Tutorial dan pengetahuan teknis

  1. A lightweight machine learning architecture for IoT streams
    Menjalankan model pembelajaran mesin pada data streaming frekuensi tinggi tidak harus berbiaya mahal. Dengan mempertimbangkan kebutuhan realtime yang kita miliki, kita dapat merancang arsitektur efisien yang dapat ditingkatkan dengan mudah.
  2. Know Your Data: Part 1
    Data cleansing dan ekstraksi fitur adalah pekerjaan yang paling membosankan tetapi harus benar-benar dikuasai untuk membuat model yang akurat. Langkah pertama dalam pemrosesan data adalah mengenal data itu sendiri.
    Artikel ini akan memperkenalkan berbagai jenis data set, objek data dan atribut.
  3. Analyse Kafka messages with SQL queries using Apache Drill
    Pada posting sebelumnya telah dibahas cara menghubungkan MongoDB dengan Apache Drill dan kueri data menggunakan SQL. Dalam posting ini akan dijelaskan bagaimana kita dapat menggunakan kueri SQL yang serupa untuk menganalisis Kafka message.
  4. YARN Capacity Scheduler and Node Labels Part 1
    Bagian pertama dari serial mengenai manajemen antrian YARN, yang bertujuan untuk memberikan gambaran umum tentang cara mengontrol pekerjaan YARN secara otomatis.
    Bagian ini mengeksplorasi bagaimana YARN bekerja dengan antrian, dan berbagai mekanisme yang tersedia untuk mengontrolnya.
  5. Mapping the Underlying Social Structure of Reddit
    Bagaimana mengolah dan menganalisis data untuk mengungkap “struktur sosial” dalam Reddit, situs populer untuk sharing opini dan agregat berita, menggunakan bahasa pemrograman R.
  6. Spark Tutorial: Validating Data in a Spark DataFrame Part Two
    Bagian kedua dari tutorial mengenai berbagai teknik validasi Spark DataFrame. Kali ini berfokus pada konversi User Defined Function (UDF).

Rilis Produk

  1. Google launches TensorFlow 2.0 with tighter Keras integration
    Google akhirnya mengumumkan rilis TensorFlow 2.0 hari ini.
    TensorFlow 2.0 hadir dengan sejumlah perubahan yang dibuat dalam upaya meningkatkan kemudahan penggunaan, seperti penghapusan beberapa API yang dianggap redundant dan integrasi yang ketat dan mengandalkan tf.keras sebagai API tingkat tinggi pusatnya.
  2. Amazon Releases New Public Data Set to Help Address “Cocktail Party” Problem
    Amazon mengumumkan rilis data baru kepada publik yang akan membantu para ilmuwan pidato mengatasi masalah sulit dalam memisahkan sinyal suara di ruang-ruang dengan banyak pembicara.
  3. Introducing Hypothesis GU Funcs, an Open Source Python Package for Unit Testing
    Uber memperkenalkan Hypothesis GU Func, ekstensi untuk paket Hypothesis, yang memungkinkan pengujian berbasis properti dari fungsi NumPy yang di-vektorisasi.
  4. GitHub Releases Dataset of Six Million Open-Source Methods for Code Search Research
    GitHub pekan lalu mengumumkan CodeSearchNet Challenge, yang bertujuan untuk mendorong penhembangan riset dalam bidang pencarian kode. Dataset yang besar dan beberapa model dasar yang menunjukkan kondisi terkini dalam pencarian kode telah dirilis untuk membantu para ilmuwan membangun model untuk tantangan tersebut.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 26 / 2019
  • Comments Off on Seputar Big Data edisi #75
Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Spark

Seputar Big Data edisi #75

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019

Artikel dan berita

  1. Here’s why Databricks is one of the fastest growing big-data startups
    Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini.
  2. Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
    Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda.
  3. 7 Disastrous Cybersecurity Mistakes In A Big Data World
    Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya.
  4. Is Your Data Ready for AI?
    Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.

Tutorial dan pengetahuan teknis

  1. Exploratory Data Analysis: A Practical Guide and Template for Structured Data
    Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”.
  2. Introducing Apache Flink’s State Processor API
    Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream.
  3. BoW to BERT
    Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi.
  4. How to Unlock the Full Potential of Kafka Producers
    Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.

Rilis Produk

  1. Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
    Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks.
  2. This New Open Source Toolkit Aims to Give Chatbots Character
    Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning.
  3. [ANNOUNCE] Apache Ignite 2.7.6 Released
    Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
    Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi.
  4. Waltz: A Distributed Write-Ahead Log
    Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2019
  • Comments Off on Seputar Big Data edisi #73
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #73

Setelah lama tidak hadir, kali ini seputar informasi mengenai big data hadir kembali. Informasi yang diambil dari berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site.

Artikel dan berita

  1. Deep learning is about to get easier — and more widespread
    Permasalahan utama dari AI, khususnya deep learning adalah kebutuhan akan data yang sangat besar untuk melatih mesin agar dapat menemukan pola dan hubungan dalam data. Tidak semua perusahaan atau institusi dapat menyediakan data tersebut, oleh karena itu para peneliti terus berusaha mengembangkan metode untuk mengatasi hal ini, agar deep learning dapat lebih mudah dijangkau oleh semua kalangan. Artikel ini menyajikan 3 di antaranya.
  2. Facebook AI’s RoBERTa improves Google’s BERT pretraining methods
    Peneliti Facebook AI dan University of Washington menemukan cara untuk meningkatkan performa BERT yang merupakan model NLP yang dipublikasikan oleh Google. Model baru ini diuji menggunakan dataset untuk benchmark seperti GLUE, SQuAD, dan RACE. Diberi nama RoBERTa singkatan dari “Robustly Optimized BERT approach”, model ini mengadopsi banyak teknik yang digunakan oleh Bidirectional Encoder Representations from Transformers (BERT) miliki Google.
  3. Big Data Is Already A Thing Of The Past: Welcome To Big Data AI
    Sebelumnya, Big Data adalah salah satu frasa yang paling banyak dibicarakan tentang tren teknologi. Saat ini istilah kecerdasan buatan (AI) sudah sangat populer. Kedepannya kombinasi antara Big Data dan AI diprediksi akan menjadi trend baru, sebut saja Big Data AI.
  4. 4 Ways AI-Driven ETL Monitoring Can Help Avoid Glitches
    Proses ETL (Extract, Transform, Load) adalah salah satu proses terpenting dalam analitik big data dan juga merupakan proses terpanjang dan terberat. Jika proses awal ini gagal maka analisa tidak dapat dilakukan dengan baik. Bagaimana AI dan machine learning dapat mendeteksi kesalahan ETL sebelum berubah menjadi analisa yang tidak akurat?

Tutorial dan pengetahuan teknis

  1. Learn Classification with Decision Trees in R
    Salah satu algoritma klasifikasi yang paling mudah adalah decision tree. Dalam artikel ini akan dibahas penggunaan algoritma decision tree yang diimplementasikan menggunakan R.
  2. Real-Time Stream Processing With Apache Kafka Part 2: Kafka Stream API
    Artikel lanjutan dari artikel sebelumnya yang telah membahas apa itu Apache Kafka. Dalam artikel ini akan dibahas mengenai Kafka API khususnya Stream API.
  3. Illustrated: 10 CNN Architectures
    Artikel ini adalah bentuk visualisasi dari 10 arsitektur CNN populer, yang bisa kita gunakan. Digambarkan dengan sederhana dan ringkas sehingga mudah dilihat dan dipahami gambaran keseluruhannya.

Rilis Produk

  1. Announcing the MLflow 1.1 Release
    Minggu ke empat bulan Juli lalu, tim development dari databricks merilis MLflow 1.1. Dalam rilis ini, berfokus pada menyempurnakan komponen pelacakan MLflow dan meningkatkan komponen visualisasi di UI.
  2. Microsoft ML Server 9.4 now available
    Microsoft Machine Learning Server, platform untuk mengimplementasikan machine learning menggunakan R dan Python, telah diperbarui ke versi 9.4. Pembaruan ini mencakup mesin update R 3.5.2 dan Python 3.7.1, dan mendukung integrasi dengan Spark 2.4.
  3. Apache Arrow 0.14.1 released
    Rilis ini merupakan patch rilis yang mencakup penyelesaian 46 issue sejak rilis 1.14.0 pada 8 Juli 2019 lalu. Sebelumnya, rilis 1.14.0 mencakup penyelesaian 602 issue dari rilis 1.13.0. Apache Arrow adalah platform pengembangan lintas bahasa untuk in-memory data.
  4. Apache Kudu 1.10.0 Released
    Versi 1.10.0 adalah rilis minor yang mencakup beberapa fitur baru, peningkatan, optimasi, maupun perbaikan bugs. Kudu adalah mesin penyimpanan untuk data terstruktur yang dirancang dalam konteks ekosistem Apache Hadoop dan mendukung integrasi dengan proyek data analitik lain di dalam maupun di luar Apache.
  5. Apache Solr™ 8.2.0 available
    Rilis ini mencakup beberapa fitur baru, perbaikan, optimasi, dan bug fixing. Solr adalah platform pencarian NoSQL terpopuler dari proyek Apache Lucene.
  6. Apache Rya 4.0.0-incubating released
    Rya adalah triple store RDF berbasis cloud yang mendukung kueri SPARQL. Rya adalah sistem manajemen data RDF yang dikembangkan di atas Apache Accumulo®. Versi ini adalah rilis Apache yang ketiga dari Rya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2019
  • Comments Off on Seputar Big Data edisi #72
Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

  1. Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
    Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
  2. Using AI to predict breast cancer and personalize care
    Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
  3. Security lapse exposed a Chinese smart city surveillance system
    Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
  4. Driving Business Decisions Using Data Science and Machine Learning
    Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
  5. Choosing the right data security solution for big data environments
    Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
  6. Study shows how big data can be used for personal health
    Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

  1. Partition Management in Hadoop
    Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
  2. The 3 Biggest Mistakes on Learning Data Science
    Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
  3. Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
    Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
  4. Python at Netflix
    Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
  5. Naive Bayes: A Baseline Model for Machine Learning Classification Performance
    Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
  6. How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
    Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

  1. Apache Drill 1.16.0 Release
    Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 06 / 2019
  • Comments Off on Seputar Big Data edisi #71
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #71

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu I bulan Mei 2019

Artikel dan berita

  1. Serbu! Kemenkominfo Buka 25 Ribu Beasiswa Big Data Cs Gratis
    Kementerian Komunikasi dan Informatika (Kemenkominfo) menggagas beasiswa pelatihan melalui Digital Talent Scholarship 2019 bagi 25 ribu peserta. Pelatihan itu meliputi bidang-bidang seperti artificial intelligence (AI), big data, cloud computing, cyber security, internet of things, dan machine learning.
  2. Facebook lets select researchers access ‘privacy-protected’ data
    Facebook memberikan akses khusus terhadap lebih dari 60 peneliti yang dipilih oleh 2 organisasi mitra, Social Science One dan Social Science Research Council (SSRC). Para peneliti tersebut dapat mengakses data yang dilindungi privasi tersebut untuk penelitian mengenai pengaruh media sosial terhadap demokrasi.
  3. Visualizing Disparities: How Mapping and Big Data Can Provide Insight into Social Equity Indicators
    Big data dan informasi geolokasi telah terbukti bermanfaat dalam persiapan dan penanganan bencana. Informasi tersebut juga dapat digunakan untuk mendapatkan insight terhadap komunitas, dan mengidentifikasi berbagai faktor yang mempengaruhi kualitas hidup masyarakat di wilayah tertentu, dengan cara seperti yang diuraikan dalam artikel ini.
  4. Harvard AI determines when tuberculosis becomes resistant to common drugs
    Tuberkulosis (TB) adalah salah satu penyakit paling mematikan di dunia. Pada tahun 2017 tercatat hampir 10 juta orang terinfeksi, dan 1,3 juta kematian terkait TB. Bakteri yang menyebabkan TB pun sulit untuk ditarget karena kemampuannya untuk mengembangkan resistensi terhadap obat tertentu. Para peneliti di Blavatnik Institute di Harvard Medical School telah merancang pendekatan komputasi yang mampu mendeteksi resistensi terhadap obat TB yang biasa digunakan, dengan kecepatan dan akurasi yang sangat baik.
  5. From drone swarms to modified E. Coli: say hello to a new wave of cyberattacks
    Para peneliti menciptakan malware berbasis AI yang dapat digunakan untuk menghasilkan gambar kanker palsu yang dapat menipu dokter yang paling ahli sekalipun. Dengan malware ini, pasien yang sehat bisa jadi akan mendapatkan kemoterapi dan radiasi, sedangkan pasien kanker justru akan dipulangkan begitu saja. Contoh ini menunjukkan bahwa serangan data adalah senjata nuklir abad ke-21. Lebih dari penguasa wilayah, siapapun yang menguasai data mampu memanipulasi perasaan dan pikiran masyarakat. Untuk itu pengambil kebijakan perlu memahami lebih baik resiko keamanan yang dapat muncul dari penggunaan AI.

Tutorial dan pengetahuan teknis

  1. Generative and Analytical Models for Data Analysis
    Artikel ini memberikan penjelasan yang sangat baik mengenai dua pendekatan data analisis yaitu generatif dan analitikal, perbedaan antara keduanya serta apa pentingnya. Dijelaskan juga mengenai apa bagian yang seringkali ‘hilang’ dalam proses data analisis, yang menghambat kesuksesan proses tersebut.
  2. How to Implement VGG, Inception and ResNet Modules for Convolutional Neural Networks from Scratch
    Terdapat beberapa model jaringan saraf convolutional yang telah terbukti berhasil dan berkinerja baik dalam menyelesaikan permasalahan seperti klasifikasi citra. Beberapa model di antaranya menggunakan komponen yang diulang berkali-kali seperti misalnya blok VGG dalam model VGG, modul inception dalam GooLeNet, dan model residual dalam ResNet. Artikel ini menjelaskan mengenai implementasi model-model tersebut dari 0.
  3. Detailed Guide to the Bar Chart in R with ggplot
    Pemilihan jenis grafik untuk menampilkan hasil analisis sangat menentukan kejelasan dan efektivitas penyajian informasi. Salah satu jenis grafik yang paling sederhana namun powerful adalah bar chart. Artikel ini menjelaskan penggunaan ggplot untuk membuat bar chart yang sesuai dengan kebutuhan kita.
  4. Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection
    Bagian kedua dari serial artikel ini membahas mengenai permasalahan-permasalahan yang muncul dari data skew dan garbage collection dalam Spark.
  5. Optimizing Kafka Streams Applications
    Rilis Kafka 2.1.0 memperkenalkan framework optimisasi topologi prosesor pada layer Kafka Stream DSL. Artikel ini menjelaskan mengenai topologi prosesor pada Kafka versi sebelumnya, issue yang muncul yang terkait efisiensi, dan solusinya di versi 2.1.0. Dibahas pula mengenai bagaimana menyalakan optimisasi ini dalam proses upgrade Kafka.
  6. Normalization vs Standardization — Quantitative analysis
    Salah satu issue yang penting machine learning adalah feature scaling atau penskalaan fitur. Dua metode yang paling banyak dibahas adalah normalisasi dan standarisasi. Artikel ini menyajikan eksperimen untuk mencoba menjawab beberapa pertanyaan terkait pemilihan kedua metode tersebut dan dampaknya terhadap model yang dihasilkan.
  7. Improving Uber’s Mapping Accuracy with CatchME
    Transportasi andal membutuhkan peta yang akurat, yang menyediakan layanan seperti routing, navigasi, dan perhitungan perkiraan waktu kedatangan (ETA). Error pada peta dapat mengganggu layanan dan kepuasan pengguna. Uber berbagi pengalaman mengenai pemanfaatan berbagai feedback untuk meningkatkan kualitas peta, khususnya penggunaan GPS trace untuk mengenali inkonsistensi dalam data peta, dengan sistem yang dinamakan CatchMapError (CatchME).

Rilis Produk

  1. Facebook launches PyTorch 1.1 with TensorBoard support
    Facebook meluncurkan PyTorch 1.1 dengan dukungan TensorBoard dan peningkatan kompiler just-in-time (JIT). PyTorch 1.1 hadir dengan API baru, dukungan untuk tensor Boolean, recurrent neural networks kustom, dan peningkatan kompiler JIT untuk mengoptimalkan grafik komputasi.
  2. Open Sourcing Delta Lake
    Delta Lake adalah layer penyimpanan yang menjanjikan keandalan untuk data lake yang dibangun di atas HDFS dan penyimpanan cloud dengan menyediakan transaksi ACID melalui kontrol konkurensi optimis antara penulisan dan isolasi snapshot untuk pembacaan yang konsisten selama penulisan. Delta Lake juga menyediakan built-in data versioning untuk rollbacks dan pembuatan reports yang lebih mudah.Delta Lake tersedia di http://delta.io untuk diunduh dan digunakan di bawah Lisensi Apache 2.0.
  3. RStudio 1.2 Released
    Versi ini dirilis setelah lebih dari setahun development, mencakup banyak peningkatan dan kemampuan baru. Di antaranya, RStudio menjanjikan workbench yang lebih nyaman untuk SQL, Stan, Python, dan D3. Testing kode R yang lebih mudah dengan integrasi untuk shinytest dan testthat. Pembuatan, testing dan publish API dalam R dengan Plumber, serta dukungan background job untuk peningkatan produktivitas.
  4. Apache SINGA (incubating) 2.0.0 Released
    Apache SINGA adalah platform umum deep learning terdistribusi untuk melakukan training terhadap big deep learning model dengan dataset yang besar. Rilis ini mencakup beberapa penambahan fitur.
  5. Apache Beam 2.12.0 released
    Rilis ini mencakup beberapa penambahan fitur, peningkatan, dan perbaikan bugs.
  6. The Apache Software Foundation Announces Apache® SkyWalking™ as a Top-Level Project
    Apache Skywalking adalah tool Application Performance Monitor (APM) yang digunakan di Alibaba, China Eastern Airlines, Huawei, dan lain-lain. Memasuki Apache inkubator pada Desember 2017, baru-baru ini SkyWalking dinyatakan sebagai top level project Apache.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung