:::: MENU ::::

Posts Categorized / IoT

  • Apr 08 / 2022
  • Comments Off on Seputar Big Data Edisi #83
AI, Apache, Artificial Intelligece, Big Data, Google, Implementation, IoT, Komunitas, machine learning

Seputar Big Data Edisi #83

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data, Data Science, dan AI, yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama bulan Maret 2022

Artikel dan berita

  1. Google uses deep learning to design faster, smaller AI chips
    Googler dan akademisi UC Berkeley menemukan cara menggunakan kecerdasan buatan untuk merancang chip yang lebih cepat dan lebih kecil, yang dapat mengakselerasi kecerdasan buatan.

    Para peneliti mengatakan, mereka telah mengembangkan pendekatan deep learning bernama PRIME, yang menghasilkan arsitektur chip AI dengan menggambar dari cetak biru dan catatan perhitungan kinerja yang ada. Mereka mengklaim pendekatan ini dapat menghasilkan desain dengan latensi lebih rendah dan membutuhkan lebih sedikit ruang daripada akselerator EdgeTPU dalam lingkungan produksi Google, maupun desain lain yang dibuat menggunakan tools tradisional.

    Paper dapat diakses di : https://arxiv.org/abs/2110.11346

  2. A Decade of Deep Learning: How the AI Startup Experience Has Evolved
    Dalam interview ini, Richard Socher membahas sejumlah topik, termasuk: berbagai perubahan terkait startup AI dalam dekade terakhir; perbedaan antara penerapan AI untuk perusahaan startup, perusahaan besar, maupun dunia akademis; dan bagaimana teknik machine learning baru, seperti model transformator, memberdayakan perusahaan untuk membangun produk canggih dengan sumber daya yang jauh lebih kecil dibanding yang mereka butuhkan sebelumnya.

  3. Basarnas akan Diperkuat Sistem Informasi Geografis, Analisa Big Data hingga AI
    Kepala Badan Nasional Pencarian dan Pertolongan (Basarnas), Marsekal Madya TNI Henri Alfiandi mengungkapkan, pihaknya melakukan operasi penyelamatan sebanyak 2.264 kali di tahun 2021. Operasi penyelamatan yang dilakukan Basarnas itu terdiri dari kecelakaan pesawat, kapal, bencana hingga kondisi membahayakan manusia.
    Henri menyampaikan Basarnas bermitra dengan Esri Indonesia sebagai penyedia solusi geospasial di Indonesia untuk meningkatkan pemanfaatan teknologi Sistem Informasi Geografis (SIG), Analisa Big Data, dan Teknologi Kecerdasan Buatan (AI).

  4. Pakar: Jangan Percaya Big Data Luhut Jika Tak Berani Dibuka
    Pendiri Drone Emprit, Ismail Fahmi meminta publik untuk tidak mudah percaya terhadap pihak yang mengklaim memiliki big data namun enggan transparan. Dia merespons pernyataan Menko Marves Luhut Binsar Pandjaitan yang menyebut 110 juta orang di media sosial setuju Pemilu 2024 ditunda.

    “Ketika ada yang klaim big data, tapi tanpa buka metodologinya, itu jangan langsung dipercaya. Jadi harus terbuka metodologinya, supaya peneliti lain bisa replikasi ulang klaimnya,” kata Ismail dalam sebuah diskusi di Twitter, Senin (21/3)

  5. How Are Big Data, AI & Social Media Used To Hack Democracy?
    Bisakah demokrasi diretas? Artinya, dapatkah cara berpikir dan apa yang kita pikirkan dipengaruhi tanpa sepengetahuan kita? Gaia Rubera, kepala Department of Marketing and Amplifon Chair in Customer Science di Universitas Bocconi, berpendapat bahwa pertanyaan-pertanyaan ini menjadi semakin penting dalam beberapa tahun terakhir. Menurut Gaia, penggunaan big data, kecerdasan buatan (AI), dan media sosial untuk mencampuri proses pemilu dan mendorong penyebaran informasi yang salah telah mengalami peningkatan selama beberapa tahun terakhir, dan menimbulkan ancaman serius bagi masyarakat.

  6. Auto-generated Summaries in Google Docs
    Salah satu permasalahan utama yang sering dihadapi dalam pengelolaan dokumen adalah bagaimana mendapatkan gambaran singkat isi dokumen dengan cepat untuk dapat memprioritaskan dan memperlakukan dokumen itu dengan tepat dan efektif. Menyusun ringkasan dokumen dapat menjadi tantangan kognitif dan memakan waktu, terlebih ketika dokumen yang yang harus ditangani bervolume besar.
    Untuk mengatasi hal ini, Google Documents kini secara otomatis membuat saran untuk membantu penulis dokumen dalam membuat ringkasan konten, jika tersedia. Artikel ini menjelaskan bagaimana fitur ini diaktifkan menggunakan model pembelajaran mesin yang ‘memahami’ teks dokumen dan, setelah ‘yakin’, menghasilkan 1-2 kalimat deskripsi bahasa alami dari konten dokumen.
    Fitur ini saat ini hanya tersedia untuk pelanggan Google Workspace untuk bisnis.

  7. Andrew Ng predicts the next 10 years in AI
    Wawancara menarik dari VentureBeat dengan Andrew Ng mengenai “pendekatan data-centric” untuk AI, bagaimana cara kerjanya di dunia nyata, serta gambaran besar AI saat ini.

    Sebagai pakar dalam computer vision, Ng percaya bahwa pada suatu saat, pers dan publik akan mendeklarasikan model computer vision sebagai sebuah basis model. Namun memprediksi dengan tepat kapan itu akan terjadi adalah cerita lain. Bagaimana kita akan sampai di sana?

Tutorial dan pengetahuan teknis

  1. Machine learning and phone data can improve targeting of humanitarian aid
    Pandemi COVID-19 sangat berdampak pada banyak negara berpenghasilan rendah dan menengah, menyebabkan kerawanan pangan yang meluas dan penurunan tajam dalam standar hidup. Menanggapi krisis ini, pemerintah dan organisasi kemanusiaan di seluruh dunia telah mendistribusikan bantuan sosial kepada lebih dari 1,5 miliar orang. Penentuan target merupakan tantangan utama dalam mengelola program-program ini: sangat sulit untuk dapat secara cepat mengidentifikasi mereka yang paling membutuhkan dengan data yang tersedia. Dalam artikel ini ditunjukkan bahwa data dari jaringan telepon seluler dapat membantu penentuan target bantuan kemanusiaan. Pendekatan yang digunakan adalah data survei tradisional untuk melatih model pembelajaran mesin guna mengenali pola kemiskinan dari data ponsel; model ini kemudian dapat memprioritaskan bantuan kepada pelanggan seluler termiskin.

  2. A method to automatically generate radar-camera datasets for deep learning applications
    Para peneliti di University of Arizona baru-baru ini mengembangkan pendekatan baru untuk secara otomatis menghasilkan kumpulan data yang berisi gambar kamera-radar berlabel. Pendekatan yang dipresentasikan dalam makalah yang diterbitkan di IEEE Robotics and Automation Letters ini menggunakan algoritma pendeteksian objek yang sangat akurat pada aliran gambar kamera (disebut YOLO) dan teknik asosiasi (dikenal sebagai algoritma Hungaria) untuk pelabelan radar point-cloud.

  3. Is DataOps more than DevOps for data?
    DataOps dan DevOps adalah pendekatan kolaboratif antara pengembang dan tim operasional IT. Tren dimulai dengan DevOps terlebih dahulu. Pendekatan komunikasi dan kolaborasi ini kemudian diterapkan pada pengolahan data. Kedua metode ini sama-sama berprinsip bahwa kolaborasi adalah pendekatan utama untuk pengembangan aplikasi dan tim operasi TI, akan tetapi masing-masing menargetkan area operasi yang berbeda.

  4. Data Visualization in Python with matplotlib, Seaborn and Bokeh
    Visualisasi data adalah aspek penting dari semua aplikasi AI dan machine learning. Kita mendapatkan berbagai insight penting dari data melalui representasi grafis yang berbeda. Dalam tutorial ini, kita akan berbicara tentang beberapa opsi untuk visualisasi data dengan Python. Menggunakan dataset MNIST dan library Tensorflow untuk pemrosesan angka dan manipulasi data. Untuk mengilustrasikan berbagai metode dalam membuat berbagai jenis grafik, akan digunakan matplotlib, Seaborn dan Bokeh.

  5. A guide to implementing DevSecOps
    Panduan yang dapat diunduh ini dapat membantu Anda memetakan transformasi DevOps ke DevSecOps di organisasi Anda.

  6. Ploomber vs Kubeflow: Making MLOps Easier
    Artikel singkat ini mencoba menangkap perbedaan utama antara tools MLops Ploomber dan Kubeflow. Membahas beberapa latar belakang tentang apa itu Ploomber, pipeline Kubeflow, dan bagaimana keduanya dapat memudahkan implementasi dan operasional.

Rilis Produk

  1. Apache IoTDB 0.13.0 released
    Tim Apache IoTDB mengumumkan rilis Apache IoTDB 0.13.0.
    Apache IoTDB (Database untuk Internet of Things) adalah database native IoT dengan kinerja tinggi untuk manajemen dan analisis data, dapat diterapkan di edge dan cloud.
    Versi ini adalah versi major IoTDB, yang mencakup sejumlah fitur dan peningkatan baru

  2. Apache Qpid Proton 0.37.0 released
    Komunitas Apache Qpid (https://qpid.apache.org) mengumumkan ketersediaan segera Apache Qpid Proton 0.37.0.
    Apache Qpid Proton adalah messaging library untuk Advanced Message Queuing Protocol 1.0 (AMQP 1.0, ISO/IEC 19464, https://www.amqp.org ). Qpid Pronton dapat digunakan dalam berbagai aplikasi messaging termasuk broker, klien, router, bridge, proxy, dan banyak lagi.

  3. Apache SeaTunnel(Incubating) 2.1.0 released
    Tim Apache SeaTunnel(Incubating) mengumumkan rilis Apache SeaTunnel 2.1.0.
    SeaTunnel: SeaTunnel(Incubating) adalah platform integrasi data berkinerja tinggi yang terdistribusi untuk sinkronisasi dan transformasi data sangat besar (offline & real-time).

  4. Apache Tuweni (incubating) 2.2.0-incubating released
    Tim Apache Tuweni mengumumkan rilis Apache Tuweni (inkubasi) 2.2.0.
    Apache Tuweni adalah seperangkat library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi lainnya di Java dan bahasa JVM lainnya.
    Mencakup library byte tingkat rendah, codec serialisasi dan deserialisasi (misalnya RLP), berbagai fungsi dan primitive kriptografi, dan banyak utilitas bermanfaat lainnya. Tuweni dikembangkan untuk JDK 11 atau lebih tinggi, dan tergantung pada berbagai perpustakaan FOSS lainnya.

  5. Apache Geode 1.13.8
    Komunitas Apache Geode mengumumkan ketersediaan Apache Geode 1.13.8.
    Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi. Apache Geode 1.13.8 berisi sejumlah perbaikan bug. Pengguna sangat disarankan untuk meningkatkan ke rilis 1.14.x terbaru (saat ini 1.14.3).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 19 / 2019
  • Comments Off on Seputar Big Data edisi #74
Apache, Artificial Intelligece, Big Data, IoT, Social Media

Seputar Big Data edisi #74

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal dan topik menarik yang layak untuk dibaca kembali hingga pertengahan bulan September 2019

Artikel dan berita

  1. Jutaan Data Penumpang Lion Air Dilaporkan Bocor di Forum Internet
    Puluhan juta data penumpang dua maskapai penerbangan milik Lion Air kabarnya beredar di forum pertukaran data sejak sebulan lalu. Data-data itu diakses dalam penyimpanan cloud Amazon Web Services (AWS) yang dibuka lewat web.
  2. Database leaks data on most of Ecuador’s citizens, including 6.7 million children
    Kebocoran data besar-besaran mengekspos data pribadi lengkap dari hampir setiap individu di Ekuador. Insiden ini berdampak pada sekitar 20 juta orang (sebagai referensi, Ekuador memiliki populasi sekitar 17 juta). Data yang terekspos termasuk 6,7 juta anak di bawah umur dan data presiden Ekuador sendiri.
  3. What’s next for big data after a turbulent 2019?
    Selama awal hingga pertengahan tahun 2019 dipenuhi dengan guncangan yang cukup dahsyat dalam bidang big data dan analisa data. Ditandai dengan gelombang akuisisi yang tampaknya tidak ada habisnya. Diiringi dengan naik turunnya saham vendor Big Data dunia.
  4. Digital transformation in aviation: Big data, IoT, AI & mobility
    Sejak revolusi digital yang dimulai hampir seperempat abad lalu, industri penerbangan selalu berada di garis depan transformasi digital. Saat ini semakin banyak perusahaan yang sangat menyadari kunci dari pemanfaatan penuh potensi pasar penerbangan adalah dengan menawarkan solusi terobosan bentuk baru dengan memanfaatkan teknologi digital.
  5. Can AI Save Our Oceans? Let’s Start With The Data.
    Dekade terakhir ini lautan berada dalam krisis yang sangat mengkhawatirkan dan dapat membahayakan seluruh umat manusia. Masalah serius yang dihadapi mulai dari perubahan iklim, pencemaran plastik hingga penangkapan ikan berlebihan.

Tutorial dan pengetahuan teknis

  1. The 5 Classification Evaluation metrics every Data Scientist must know
    Jika telah selesai membuat model klasifikasi, hal berikutnya adalah mengevaluasi model tersebut untuk meningkatkan akurasinya. Tapi apakah kita hanya menggunakan akurasi sebagai metrik kinerja model kita?
  2. A Quick Introduction To Deep Learning
    Selama beberapa tahun terakhir, deep learning telah meninggalkan laboratorium penelitian untuk menaklukkan dunia nyata. Hasil spektakuler telah dibuat oleh Google, Amazon, Facebook atau pun Microsoft, melalui penggunaan algoritma deep learning telah mendapat eksposur yang luar biasa dari media.
  3. BERT, RoBERTa, DistilBERT, XLNet: Which one to use?
    Hadirnya Google BERT telah menghebohkan dunia NLP. BERT mampu mengungguli metode NLP lainnya. Artikel ini akan membandingkan antara berbagai metode BERT dan turunannya, sehingga kita dapat memilih mana yang paling sesuai untuk kebutuhan.
  4. Social Network Visualization with R
    Analisis dan visualisasi data jejaring sosial menggunakan R, langkah demi langkah lengkap dengan source code.
  5. Doing Multivariate Time Series Forecasting with Recurrent Neural Networks
    Perkiraan Time Series adalah area penting dalam Pembelajaran Mesin. Dengan perkembangan terkini dalam jaringan syaraf tiruan, kita dapat mengatasi berbagai masalah yang sulit dilakukan dengan pendekatan prediksi deret waktu klasik. Artikel ini menjelaskan bagaimana cara menggunakan Keras ‘Long-Short Term Memory (LSTM) untuk Time Series Forecasting dan MLFLow untuk menjalankan model pelacakan.
  6. Using Jakarta EE/MicroProfile to Connect to Apache Kafka: Part Two
    Ekstensi CDI adalah mekanisme di mana kita dapat mengimplementasikan fungsionalitas tambahan di atas CDI container. Ekstensi ini memungkinkan Jakarta EE / MicroProfile untuk terus mengembangkan ekosistem mereka dengan lebih banyak kerangka kerja dan integrasi. Posting ini akan membahas tentang opsi lain untuk mengintegrasikan Jakarta EE / MicroProfile dengan Apache Kafka. Posting pertama dalam seri ini dapat ditemukan di sini : https://dzone.com/articles/using-jakarta-eemicroprofile-to-connect-to-apache.

Rilis Produk

  1. Apache Calcite 1.21.0 released
    Rilis ini mencakup lebih dari 100 penyelesaian issue, termasuk di dalamnya banyak fitur baru, peningkatan secara umum, maupun perbaikan bugs. Calcite adalah framework manajemen data dinamis, yang mendukung berbagai bahasa dan data engine, serta menyediakan SQL parser.
  2. Announcing the General Availability of Cloudera Streams Management
    Cloudera memperkenalkan bundel manajemen dan monitoring untuk Kafka : Cloudera Streams Management (CSM).
  3. Announcing Two New Natural Language Dialog Datasets
    Google merilis 2 dataset baru yang berisi percakapan dalam bahasa Inggris, yang dapat digunakan untuk melatih asisten digital.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2019
  • Comments Off on Apa Itu Industri 4.0?
Artificial Intelligece, Big Data, IoT, Social Media

Apa Itu Industri 4.0?

Saat ini dunia sedang memasuki era transformasi yang disebut dengan Industri 4.0. Perusahaan, organisasi, dan bahkan pemerintah menggaungkan persiapan dan kesiapan untuk menyongsongnya. Apa sebenarnya Industri 4.0 ini?

Industri 4.0 adalah sebuah perubahan besar yang ke 4 dalam dunia industri, atau disebut juga dengan revolusi industri ke 4. Sebelumnya dunia industri mengalami perubahan besar yang melalui beberapa fase. Fase pertama adalah revolusi industri yang muncul pada abad ke 18, dengan mulai digunakannya mesin uap dan mekanisasi produksi. Revolusi kedua dimulai di abad ke 19 dengan ditemukannya listrik dan lini perakitan (assembly line) yang memungkinkan dilakukannya produksi massal secara lebih cepat. Revolusi ketiga dimulai pada abad ke 20, tepatnya di tahun 70-an melalui penggunaan komputer dan PLC (programmable logic control). Dengan teknologi tersebut saat ini kita dapat mengotomasi seluruh proses produksi dengan sesedikit mungkin campur tangan manusia.

Pada era industri 4.0 ini, kombinasi antara komputer dan sistem otomasi memiliki bentuk yang baru, yang dikenal dengan nama Cyber Physical System (CPS). Sistem ini terdiri dari mesin cerdas, sistem penyimpanan dan fasilitas produksi yang mampu untuk saling bertukar data, memicu tindakan dan saling mengendalikan satu sama lainnya. Robot dan mesin produksi dengan ribuan sensornya yang merupakan physical system terkoneksi melalui jaringan atau internet ke sistem komputasi yang diperkuat dengan algoritma kecerdasan buatan dan mampu mengendalikannya dengan sedikit intervensi dari manusia.

Revolusi ke 4 ini ditandai dengan pemanfaatan teknologi informasi dan komunikasi. Ciri-cirinya adalah interkonektivitas atau kesalingterhubungan serta sistem cerdas dan otomasi.

Ada 9 komponen yang dianggap sebagai pilar dari Industri 4.0, yaitu :

  1. Big Data and Analytics
    Mesin dan sensor yang saling terhubung menghasilkan data yang sangat besar. Data ini menunjukkan berbagai hal yang berkaitan dengan pemeliharaan, kinerja, dan permasalahan lain. Dengan mengolah data tersebut, dapat diketahui pola dan insight dalam waktu yang singkat, yang mustahil dilakukan oleh manusia. Dengan teknologi ini, industri dapat melakukan optimasi dan perencanaan dengan jauh lebih efisien dan efektif terhadap kegiatan operasional maupun bisnis.
  2. Autonomous Robot
    Sebelumnya robot hanya digunakan oleh industri dan organisasi besar, namun teknologi ini akan menjadi jauh lebih murah dan memiliki jangkauan kemampuan yang lebih besar daripada yang telah digunakan dalam manufaktur saat ini.
  3. Simulation
    Simulasi atau virtual reality, disebut juga dengan digital twin, dapat digunakan untuk melakukan training dan perencanaan. Prinsipnya adalah membuat ‘salinan digital’ dari aset, produk, bahkan manusia, termasuk fungsi dan perilakunya, dari data-data yang dikumpulkan sebanyak mungkin dan sedetail mungkin. Hal ini memungkinkan kontrol dan optimisasi serta deteksi masalah sedini mungkin, sehingga meningkatkan kualitas produk dan mengurangi waktu pengaturan dan waktu henti (down time). NASA menggunakan digital twin ini untuk memantau seluruh Space Center mereka.
  4. Integrasi sistem secara horizontal dan vertikal
    Dengan sistem cerdas dan perangkat IoT, perusahaan, departemen, supplier maupun customer akan menjadi lebih kohesif dan terhubung. Dengan integrasi sistem secara horizontal dan vertikal, informasi akan berjalan mulus dalam rantai produksi, yang memungkinkan.
  5. Industrial Internet of Things (IIoT)
    IIoT dapat digambarkan sebagai jaringan perangkat yang memiliki kecerdasan lokal, yang memungkinkan komunikasi dan interaksi antara berbagai perangkat, mesin, dan produk. Hal ini juga akan dapat mendesentralisasikan proses analitik dan pengambilan keputusan, sehingga memungkinkan respon real time. IIoT saat ini sudah banyak dipergunakan, misalnya untuk keperluan smart metering, asset tracking, monitoring pengiriman secara real-time, dan lain sebagainya.
  6. Augmented Reality
    Berbeda dengan simulasi, augmented reality menggabungkan dunia nyata dan virtual dengan menambahkan informasi berupa teks, gambar, suara, dan lain sebagainya untuk meningkatkan kualitas interaksi pengguna dengan dunia nyata. AR dapat digunakan untuk menghemat biaya produk trial dan display, maupun untuk keperluan training di mana kondisi nyata terlalu berbahaya atau mahal secara biaya atau waktu. Dipopulerkan dan dikenal di seluruh dunia melalui permainan dan aplikasi seperti Pokemon Go, saat ini perusahaan-perusahaan telah memperkenalkan teknologi ini ke bisnis dan aplikasi mereka. IKEA misalnya, menggunakan AR yang memungkinkan pelanggan melihat furnitur terlihat seperti berada di ruangan di rumah mereka, dengan menggunakan data berdasarkan ukuran dan warna.
  7. Cloud
    Berbagai teknologi yang melandasi industri 4.0, seperti digital twin dan IIoT memerlukan sharing data lintas mesin, lintas sistem, tempat, bahkan organisasi. Sejalan dengan itu, kinerja teknologi cloud akan terus berkembang, sehingga waktu reaksinya dapat mencapai milisecond. Hal ini akan mendorong semakin banyaknya mesin dan fungsionalitas yang di-deploy ke atas cloud, mendorong sistem produksi dan rantai pasokan yang lebih bersifat data-driven.
  8. Additive manufacturing
    Manufaktur aditif didefinisikan sebagai proses penggabungan bahan untuk membuat objek dari data model 3D. Metode ini biasanya dilakukan lapis demi lapis, berbeda dengan manufaktur subtraktif yang umum dilakukan saat ini. Metode manufaktur aditif yang kita kenal sekarang adalah 3D printing. Teknologi ini semula lebih banyak digunakan untuk keperluan prototyping, namun saat ini sudah mulai banyak digunakan juga untuk proses produksi, misalnya menyediakan komponen pengganti atau barang yang bernilai tinggi dengan volume rendah.
  9. Cyber Security
    Dengan meningkatnya konektivitas berbagai sistem dan perangkat, resiko ancaman dan serangan dunia maya juga akan meningkat. Karena itu sangat penting bagi perusahaan yang beroperasi di industri 4.0 untuk memiliki fokus pada keamanan siber dan memahami bagaimana mereka dapat melindungi data mereka dan meminimalkan resiko tersebut.

Meskipun Industri 4.0 dalam bentuk yang utuh mungkin masih belum akan kita lihat dalam beberapa tahun ke depan, namun teknologi yang mendasarinya sudah banyak digunakan.
Transformasi digital pun terus bergerak dengan cepat. Mobile internet dengan infrastrukturnya yang semakin memadai. Implementasi cloud computing yang semakin meluas dan biayanya semakin terjangkau. Semua perkembangan tersebut akan menjadi stimulus revolusi industri 4.0, yang akan membawa perubahan radikal di segala sektor industri. Pertanyaan akhirnya adalah : apakah kita siap?

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2019
  • Comments Off on Seputar Big Data edisi #62
Artificial Intelligece, Big Data, IoT, Spark

Seputar Big Data edisi #62

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan Februari 2019.

Artikel dan berita

  1. Databricks’ Recent $250 Mn Funding Shows How The Spark Creators Are Ahead In The AI Game
    Ali Ghodsi dan Matei Zaharia, penemu Spark dan pendiri Databricks, memanfaatkan perubahan tren dan kebutuhan Big Data dengan menyediakan platform analitik terpadu.
    Bahkan minggu lalu perusahaan yang berbasis di San Francisco tersebut kembali memperoleh putaran pendanaan blockbuster sebesar $250 juta, yang menjadikan nilai dari Databricks sekitar $2,75 miliar.
  2. How to Become a Data Engineer: A Guide
    Salah satu pekerjaan yang paling menarik dan diminati di seluruh dunia saat ini: big data engineer. Big data engineer adalah para profesional yang memproses kumpulan data besar untuk memberikan analisis pada organisasi atau perusahaan, yang selanjutnya dapat digunakan untuk membuat keputusan di masa depan untuk menghindari kesalahan.
  3. Pizza Delivery Businesses Turn to Big Data Analytics for Record Growth
    Big data analytic untuk bisnis pengiriman pizza ternyata memiliki dampak yang luar biasa. Akibatnya, banyak perusahaan pengiriman pizza berkembang pesat.
  4. Toyota’s moonshot: Self-driving car for sale — in a year
    Mereka menyebutnya sebagai Toyota’s moonshot: hanya dalam satu tahun, pembuat mobil terbesar di Jepang ingin mulai menjual kendaraan self-driving yang dikatakannya akan “most powerful supercomputer on wheels”. Milestone pertama yaitu pada tahun 2020, ketika Toyota berencana untuk memperkenalkan kendaraan yang mampu mengemudi sendiri di jalan raya.
  5. Contrasting Hortonworks (HDP) and Dropbox (DBX)
    Dropbox (NASDAQ: DBX) dan Hortonworks (NASDAQ: HDP) keduanya adalah perusahaan komputer dan teknologi, tetapi mana yang merupakan saham unggulan?
  6. Here’s How Big Data Is Transforming Augmented Reality
    Big data benar-benar mengubah fungsi AR dan VR. Artikel berikut menceritakan bagaimana perusahaan modern mengubah AR dari mimpi menjadi kenyataan dengan memanfaatkan kekuatan kumpulan data yang sangat luas.
  7. Here’s What Cybersecurity Experts Worry About This Year
    “Ancaman keamanan big data berikutnya sedang berlangsung,” demikian diungkapkan Jason Hong, associate professor dari the human computer interaction institute, Carnegie Mellon University.
  8. Why Cloudera Stock Gained 22.1% in January
    Saham Cloudera (NYSE: CLDR) naik 22,1% pada Januari, menurut data dari S&P Global Market Intelligence. Saham perusahaan ini sempat mengalami penurunan sekitar 35% dalam tiga bulan terakhir tahun 2018, tetapi diuntungkan dari rebound pasar saham di awal tahun 2019 dan beberapa klarifikasi tentang strateginya setelah merger dengan Hortonworks.

Tutorial dan pengetahuan teknis

  1. Perfume Recommendations using Natural Language Processing
    Doc2Vec, Latent Semantic Analysis, and Sentiment Analysis dapat digabungkan untuk membuat rekomendasi yang tepat dalam sebuah antarmuka chatbot.
  2. Best Public Datasets for Machine Learning and Data Science: Sources and Advice on the Choice
    Ribuan kumpulan data publik tentang berbagai topik – mulai dari tren kebugaran teratas dan resep bir hingga tingkat keracunan pestisida – tersedia online. Untuk menghabiskan lebih sedikit waktu dalam pencarian dataset yang tepat, kita harus tahu di mana mencarinya.
  3. Learning from Graph data using Keras and Tensorflow
    Ada banyak data yang dapat direpresentasikan dalam bentuk graph seperti di jejaring sosial, jaringan biologis atau telekomunikasi. Penggunaan fitur graph dapat meningkatkan kinerja model. Namun, merepresentasikan data graf tidak mudah. Artikel ini mengeksplorasi beberapa cara untuk menangani graf generik untuk melakukan klasifikasi node berdasarkan representasi graf yang dipelajari langsung dari data.
  4. Introduction to Apache Spark’s Core API (Part II)
    Dalam bagian kedua dari serial pengenalan Spark API ini dibahas mengenai fungsi dan method yang dapat digunakan untuk bekerja dengan pair RDD, dilengkapi beberapa contoh dalam Python.
  5. KubernetesExecutor for Airflow
    Dalam rilis 1.10 Airflow memperkenalkan executor baru untuk menjalankan worker secara terskala: Kubernetes executor. Artikel ini membahas mengenai apa itu Airflow dan masalah apa yang dipecahkannya, Kubernetes executor dan bagaimana perbandingannya dengan Celery executor, serta contoh penerapannya di minikube.

Rilis Produk

  1. Microsoft announces general availability of Azure Data Explorer and Azure Data Lake Storage Gen2
    Microsoft mengumumkan ketersediaan umum Azure Data Explorer (ADX) dan Azure Data Lake Storage Gen2 (ADLS Gen2) – dua layanan yang dikatakan akan memberi pelanggan Azure fleksibilitas yang lebih besar dalam mengelola data yang tidak terstruktur, atau data yang dihasilkan dari interaksi di web, software-as-a-service, media sosial, aplikasi seluler, dan perangkat iot.
  2. Black Knight Launches Rapid Analytics Platform, a Premier Cloud-Based Virtual Lab for Working with Big Data and Complex Analytics
    Black Knight, Inc. (NYSE: NYSE: BKI), penyedia terkemuka perangkat lunak, data, dan analisis terintegrasi untuk industri hipotek dan real estat, mengumumkan peluncuran Rapid Analytics Platform (RAP), sebuah lab analitik virtual interaktif yang inovatif dan interaktif di mana pengguna dapat menggunakan dan mengunggah data, mengeksekusi SQL query, melakukan analitik kompleks dan melatih model machine learning – semua dalam satu ruang kerja tunggal.
  3. Apache Solr 7.7.0 released
    Apache Solr 7.7.0 mencakup 7 fitur baru, 20 bug fixes, 15 peningkatan dan 8 perubahan lain. Pengguna Solr versi sebelumnya sangat disarankan melakukan upgrade ke versi ini terkait isu security, yaitu mekanisme whitelist pada manajemen “shards”.
  4. Introducing Ludwig, a Code-Free Deep Learning Toolbox
    Uber merilis Ludwig, “toolbox” open source yang dibangun di atas kerangka kerja TensorFlow Google yang memungkinkan pengguna untuk melatih dan menguji model AI tanpa harus menulis kode. Dengan menggunakan Ludwig, para ahli dan peneliti dapat menyederhanakan proses prototyping dan merampingkan pemrosesan data sehingga mereka dapat lebih fokus pada pengembangan arsitektur deep learning daripada data wrangling.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 08 / 2018
  • Comments Off on Menguak Skandal Cambridge Analytica
Big Data, Forum Info, Implementation, IoT, machine learning

Menguak Skandal Cambridge Analytica

Privasi dan penggunaan data pribadi adalah salah satu permasalahan utama yang disoroti setelah skandal Cambridge Analytica menjadi topik hangat akhir-akhir ini.

Siapakah Cambridge Analytica?

CA (Cambridge Analytica) adalah perusahaan konsultasi politik yang memanfaatkan data mining dan analisis. CA didirikan pada tahun 2013 sebagai anak perusahaan SCL group, bersama dengan Steve Bannon, yang kemudian menjadi penasehat strategis Donald Trump.

Apa yang dilakukan oleh Cambridge Analytica, yang dianggap tidak etis?

CA memperoleh data pribadi milik sekitar 50 juta pengguna Facebook melalui aplikasi kuis yang bernama this is your digital life. Mereka membayar 270.000 user untuk menggunakan aplikasi tersebut, dan dari user tersebut mereka mengakses pengguna lain yang ada di dalam daftar pertemanan mereka. Data tersebut kemudian digunakan sebagai input untuk mengembangkan algoritma psikografik analisis. Hasil analisisnya kemudian digunakan untuk melakukan targeted campaign melalui berbagai iklan dan content.

Apa itu psikografik analisis?

Analisis psikografik adalah metode analisis yang mencoba menggambarkan kepribadian seseorang berdasarkan data-data preferensi mereka, dalam hal ini diwakili oleh content atau status yang kita post, like dan klik. Intinya, selain data profil kita, setiap kita melakukan posting maupun klik atau like pada entry tertentu, data aktifitas tersebut juga akan diambil dan dianalisis untuk membentuk profil kepribadian kita.

Apakah pengumpulan data yang dilakukan menggunakan aplikasi Facebook semacam itu sesuatu yang luar biasa atau ilegal menurut Facebok?

Ternyata tidak. Mengumpulkan data pribadi user dengan iming-iming kuis kepribadian atau aplikasi lainnya di facebook, beserta data pengguna lain yang berada di dalam daftar pertemanannya, ternyata merupakan praktek yang lazim dilakukan oleh para internet marketer. Hal tersebut dapat dilakukan karena Facebook memang menyediakan API yang memungkinkan developer mengakses data user dan semua orang di friendlist user tersebut.

Microstrategy misalnya, memiliki data sekitar 17 juta pengguna, yang didapatkan dari 52.600 instalasi aplikasi, dengan masing-masing user ‘membawa’ sekitar 300 teman dalam friendlist mereka. LoudDoor, sebuah perusahaan yang khusus menangani iklan di Facebook, bahkan mengklaim 12 juta instalasi aplikasi Fan Satisfaction, yang menghasilkan data sekitar 85 juta penduduk Amerika. Dan ini bisa jadi hanyalah semacam puncak dari sebuah gunung es, karena pada dasarnya siapa saja bisa melakukan hal yang sama.

Praktek eksploitasi data pribadi untuk kepentingan politik ini sebenarnya sudah ‘tercium’ sejak jauh hari. The Guardian misalnya, sudah menulis mengenai penggunaan data pribadi dalam kampanye-kampanye politik. Propublica, sebuah organisasi nonprofit yang melakukan jurnalisme investigatif, bahkan membuat aplikasi yang bertujuan memonitor targeted ads tersebut. CA tentunya bukan satu-satunya perusahaan yang melakukan praktek sejenis, dan Donald Trump pun tentu bukan satu-satunya klien yang memanfaatkan jasa semacam ini.

Lalu mengapa baru saat ini kontroversi ini meledak?

Penyebabnya adalah Christopher Wylie, seorang mantan pegawai SCL yang juga ikut dalam pembentukan Cambridge Analytica mengungkap skandal ini, yang kemudian ditayangkan oleh The Guardian dan New York Times pada tanggal 17 Maret 2018.
Sehari kemudian para anggota Parlemen di Inggris dan Amerika menuntut penjelasan kepada Facebook, mengenai bagaimana data pribadi puluhan juta penggunanya dapat jatuh ke tangan perusahaan yang menangani kampanye Presiden Trump di tahun 2016 lalu.
Setelah berbagai laporan mengenai keterlibatan CA pada pemilu di beberapa negara lain bermunculan, pada tanggal 20 Maret, CA men-suspend CEO mereka, Alexander Nix. Akibat skandal ini, nilai saham Facebook turun sampai 9% atau sekitar US$60 miliar.

Apa yang dilakukan Facebook dalam menanggapi skandal ini?

Banyak pihak menilai Facebook kurang serius menanggapi isu ini. Lima hari pertama sejak meledaknya kasus ini Facebook tidak memberikan pernyataan apapun. Baru setelah marak tagar #deletefacebook yang diikuti banyak tokoh, termasuk diantaranya Elon Musk, Mark Zuckerberg memberikan pernyataan. Intinya adalah Facebook menyesalkan insiden yang terjadi, dan mengambil beberapa tindakan, yaitu :

  • Akan menyelidiki aplikasi-aplikasi yang mengakses data user beserta user lain di friendlistnya dalam jumlah besar, sebelum Facebook mengubah kebijakannya di tahun 2014. Sejak tahun 2014 aplikasi tidak lagi dapat mengakses data user lain selain yang menginstal aplikasi tersebut. Facebook akan mem-blacklist developer yang tidak bersedia diaudit.
  • Mematikan akses developer ke data user, jika user tersebut tidak menggunakan aplikasi yang bersangkutan selama 3 bulan, dan mengurangi jenis informasi yang bisa diakses oleh aplikasi tersebut ketika user sign in.
  • Membuat tools yang menunjukkan list aplikasi apa saja yang dapat mengakses data user, dan menampilkannya di atas newsfeed, serta memudahkan user untuk mengubah ijin akses tersebut. Tools ini ditargetkan selesai bulan depan.

Bagaimana sebenarnya tim pemenangan Trump (dan mungkin banyak lagi yang lainnya), menggunakan data dalam menyukseskan kampanye mereka?

Untuk kasus Trump, mereka membuat lebih dari 100.000 situs web yang dirancang khusus untuk berbagai profil psikologis dan preferensi dari kelompok-kelompok kecil targetnya. Hal ini disebut dengan microtargeting. Untuk menyebarkan link ke situs tersebut, mereka membeli $2 million dollars Facebook ads, yang mengarahkan pengguna ke website-website tersebut. Ratusan ribu website tersebut dibuat sekontroversial mungkin, sesuai dengan kecenderungan user yang ditarget, terkadang menggunakan fake news, black campaign dan berbagai clickbait.

Dalam mengelompokkan dan mengarahkan iklan, mereka memanfaatkan fitur “Audience Targeting Options”, dan “Lookalike Audiences”. Dua fitur ini merupakan alat yang jika dikelola dengan lihai akan dapat menyampaikan iklan ke segmen yang sesuai. Dua fitur tersebut, dipadukan dengan informasi dan profil yang dihasilkan dari algoritma yang dipergunakan oleh Cambridge Analytica, berhasil menjangkau para calon pemilih di masa itu, dan memberikan hasil yang luar biasa, yaitu terpilihnya Trump sebagai presiden Amerika.

Terlepas dari berbagai kontroversi dan permasalahan yang melingkupinya, kasus ini memberikan bukti nyata akan kekuatan data yang sebenarnya. Data yang diolah dengan piawai, dapat menjadi senjata yang sangat ampuh, yang dapat mengubah dunia dalam arti yang sesungguhnya. Di samping itu kita juga mendapat gambaran, bisnis apa yang ada di belakang berbagai aplikasi dan media sosial di dunia, mengapa begitu banyak orang mau berinvestasi besar-besaran ke dalam perusahaan-perusahaan yang menghasilkan data besar, seperti Facebook, Twitter, GoJek, dan lain-lain.

“These stories illustrate a simple truth : information is power. Anyone who hold a vast amount of information about us has power over us.” (Julia Angwin – Dragnet Nation)

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 15 / 2018
  • Comments Off on Seputar Big Data Edisi #51
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas, Spark

Seputar Big Data Edisi #51

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2018.

Artikel dan Berita

  1. Dubai Decrees Itself the A.I. City-State of the Future
    Pemerintah UEA mencanangkan Dubai sebagai kota AI masa depan, dengan mendorong implementasi big data dan AI. Beberapa di antaranya adalah menyediakan menyediakan lingkungan yang terjangkau untuk melakukan inkubasi dan launching bisnis di bidang AI, setelah pada tahun 2016 PM UAE menginvestasikan US$270 juta untuk inovasi. Pada Oktober tahun lalu UAE menunjuk menteri bidang AI, yang merupakan menteri pertama di dunia yang khusus menangani bidang ini.
  2. Mengenal Kelas Big Data dan Komputasi Kognitif Pertama di Indonesia
    Fakultas Ekonomi dan Bisnis Universitas Indonesia (FEB UI) meluncurkan mata kuliah baru : Big Data dan Komputasi Kognitif yang pertama di Tanah Air. Kelas ini hadir atas kemitraan UI dengan perusahaan solusi kognitif dan platform cloud IBM Indonesia.
  3. Google’s March Madness AI contest offers 0,000 in prizes
    Google menyelenggarakan kompetisi AI untuk prediksi hasil turnamen basket antar perguruan tinggi, NCAA March Madness, dengan hadiah sebesar US$100,000. Dalam kompetisi ini peserta membuat software AI untuk prediksi pemenang, dengan data dari 40 juta pertandingan basket NCAA yang direkam sejak 2009.
  4. Baidu shows strategic vision with AI map merger
    Salah satu raksasa internet dari China, Baidu, baru-baru ini mengumumkan pengalihan bisnis peta digital mereka. Baidu Maps dialihkan ke bawah AI Group, setelah sebelumnya berada di bawah anak perusahaan yang memegang mesin pencari web. Langkah ini merupakan upaya mendorong bisnis AI mereka. Dikabarkan kemungkinan di masa datang Baidu Maps akan kembali dialihkan ke dalam bagian yang mengembangkan autonomous car.
  5. AI ‘more dangerous than nukes’: Elon Musk still firm on regulatory oversight
    Elon Musk mengatakan bahwa AI memiliki potensi bahaya yang lebih besar daripada nuklir. Oleh karena itu menurut Musk, perlu dibentuk sebuah badan independen yang dapat memastikan penerapan-penerapan AI dilakukan dalam batas yang aman untuk umat manusia di seluruh dunia.
  6. Elastic Plots Its Own Course to Big Data Success
    Elastic, perusahaan di belakang Elasticsearch, salah satu project open source terpopuler, adalah salah satu perusahaan terkemuka di bidang big data. Berikut ini beberapa ‘rahasia’ di balik kesuksesan Elastic.
  7. Waymo self-driving trucks to transport Google Atlanta data center gear
    Waymo, perusahaan self driving car milik Alphabet, melebarkan pengujian kendaraan swakemudi dari mobil penumpang biasa ke kendaraan besar, yaitu truk. Percobaan pertama mereka ditujukan untuk membantu data center Google di Atlanta, Georgia.

Tutorial dan Pengetahuan Teknis

  1. Gentle Introduction to Apache NiFi for Data Flow… and Some Clojure
    Tutorial mengenai Apache NiFi. Menjelaskan mengenai bagaimana membuat prosesor yang membaca dari file, prosesor yang menulis ke file, dan prosesor yang dapat menginsert data ke MongoDB.
  2. Getting started with Data Engineering
    Salah satu spesialisasi yang banyak dicari akhir-akhir ini adalah Data Engineer, bahkan kebutuhan data engineer ini diperkirakan melebihi kebutuhan terhadap data saintis. Artikel ini memberikan penjelasan yang cukup bagus mengenai apa itu data engineer, serta beberapa terminologi yang menyertainya.
  3. MongoDB and Data Streaming: Implementing a MongoDB Kafka Consumer
    Pengenalan singkat mengenai Apache Kafka dan bagaimana menggunakan MongoDB sebagai sumber dan tujuan data yang di-stream.
  4. Introducing Pulsar Functions
    For simple ETL, real-time aggregation, event routing, and similar use cases, Apache Pulsar is adding Pulsar Functions. Inspired by AWS Lambda and Google Cloud Functions, Pulsar Functions use a simple API and the Pulsar cluster for deployment. The post covers the design goals, deployment mechanism, runtime guarantees, and more.
    Apache pulsar menambahkan Pulsar Functions untuk menangani use case
  5. Installing Apache Spark 2.3.0 on macOS High Sierra
    Overview mengenai instalasi Apache Spark 2.3.0 di atas Mac OS.
  6. Daftar lengkap operasi aljabar linier yang diperlukan dalam menggunakan NumPy untuk aplikasi machine learning.
  7. [DATASET] LibriSpeech ASR corpus
    LibriSpeech adalah korpus yang berisi sekitar 1000 jam 16kHz audio dalam bahasa Inggris. Data didapatkan dari project audiobook LibriVox, yang telah disegmentasi dan diselaraskan.

Rilis Produk

  1. The Building Blocks of Interpretability
    Google merilis Lucid, library jaringan syaraf tiruan yang dibangun dari project DeepDream. Lucid digunakan untuk menambahkan efek artistik pada gambar. Di samping itu juga dirilis Google Colab, jupyter notebook yang disimpan di google drive, dan dapat langsung digunakan untuk menjalankan Lucid dan berbagai aplikasi deep learning tanpa perlu melakukan setup infrastruktur apapun.
  2. Semantic Image Segmentation with DeepLab in Tensorflow
    Google merilis DeepLab-v3+, model Tensorflow yang digunakan untuk melakukan segmentasi semantik image. Segmentasi semantik adalah proses memberikan label semantik setiap piksel dalam sebuah citra/image, seperti misalnya ‘langit’, ‘awan’, ‘ayam’, dsb.
  3. Apache MXNet (incubating) 1.1.0 Release
    Apache MXNet (incubating), sebuah framework deep learning, rilis versi 1.1.0.
    Tercakup di dalamnya peningkatan kinerja untuk GPU maupun CPU, penambahan dukungan operator, dan tutorial serta contoh penggunaan yang semakin lengkap.
  4. Apache Kylin 2.3.0 released
    Apache Kylin 2.3.0 merupakan rilis major, dengan lebih dari 250 perbaikan dan peningkatan. Apache Kylin adalah engine analytics terdistribusi, menyediakan antarmuka SQL dan OLAP di atas Hadoop.
  5. Apache Hivemall 0.5.0-incubating released
    Apache Hivemall adalah library machine learning yang diimplementasikan sebagai UDF/UDAF/UDTF. Versi 0.5.0 ini merupakan rilis pertama sejam Hivemall memasuki inkubator Apache. Hivemall berjalan di atas framework pemrosesan data berbasis Hadoop, yaitu Hive, Spark dan Pig.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 14 / 2018
  • Comments Off on Seputar Big Data Edisi #48
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, IoT, machine learning, Uncategorized

Seputar Big Data Edisi #48

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu xx bulan xx 2017

Artikel dan Berita

  1. Xiaomi partners with Naver in AI for IoT devices
    Clova, platform AI dari Naver akan memperkuat device IoT Xiaomi. Kerja sama ini menunjukkan keseriusan Naver dalam bidang AI, setelah November lalu mereka menjalin kerja sama dengan LG, setelah sebelumnya Naver juga membeli pusat AI Xerox di Eropa.
  2. New big data project to enhance safety at sea
    Grahaeme Henderson, wakil presiden pelayaran dan maritim Shell, mengumumkan sebuah inisiatif baru yang disebut HiLo, yang menggunakan data besar dan analisis prediktif untuk mencegah kecelakaan dalam pelayaran.
  3. Understanding What Consumers Want Without Ever Asking Them
    Menurut Harvard Business School, setiap tahun ada lebih dari 30.000 produk baru yang diluncurkan dan sekitar 80% di antaranya gagal. Awal bulan ini Coca-Cola meluncurkan empat rasa baru dan makeover kemasan untuk Coke Diet andalan mereka. Menurut statistik Harvard Business School di atas, tiga dari rasa baru itu akan gagal. Namun dalam era yang sarat informasi yang kita jalani saat ini, apakah hal tersebut masih menjadi masalah?
  4. Innovation in mining with IoT and AI monitoring technology
    Kemampuan untuk mengumpulkan dan menganalisis data lingkungan dan peralatan, dan melakukan penilaian risiko dan wilayah secara real time memberi manfaat yang signifikan bagi operasi skala besar. Terutama industri seperti pertambangan, yang beroperasi di lingkungan yang sempit, selalu berubah dan berpotensi bahaya. Tapi apakah teknologi IoT dan AI benar-benar menguntungkan? Dan apa sebenarnya manfaat teknologi tersebut untuk operasi penambangan?
  5. Top IoT Projects: 8 Case Studies
    Hampir semua orang setuju bahwa IoT akan menjadi sangat penting, tapi tidak semua memahami bagaimana mereka bisa mendapatkan keuntungan dari teknologi ini. IDC memperkirakan bahwa pengeluaran IO di seluruh dunia akan mencapai $772,5 miliar tahun ini, 14,6 persen lebih banyak dari tahun lalu, dan diyakini akan berlanjut hingga 2021, ketika total pendapatan akan mencapai $1,1 triliun.
    Tapi apa sebenarnya yang dibeli? Berikut ini 8 contoh kasus penggunaan IoT yang cukup menarik dan mewakili berbagai bidang.
  6. What 2018 holds for AI and deep learning
    Tahun 2018 ini diprediksikan menjadi tahun di mana banyak industri berusaha menggali manfaat dari deep learning dan berusaha menjadi intelligence enterprise. Berikut ini beberapa pandangan dari PwC Analytics Group mengenai prospek serta peluang deep learning dan AI di tahun 2018.

Tutorial dan Pengetahuan Teknis

  1. GeoBike, Part 2: Querying the Data
    Pada posting sebelumnya, telah dibahas mengenai pembuatan back-end dengan Redis, dan loading data dari General Bikeshare Feed Specification (GBFS) data feed menggunakan Python. Dalam seri ini dibahas mengenai bagaimana menentukan lokasi user, dan bagaimana melakukan query data.
  2. Introduction to Matrices and Matrix Arithmetic for Machine Learning
    Matriks merupakan elemen dasar yang penting dalam penerapan machine learning. Matriks banyak digunakan terutama dalam menjelaskan proses dan algoritma, misalnya representasi variabel data masukan (X) yang digunakan untuk men-train sebuah algoritma. Tutorial ini menjelaskan mengenai konsep dasar matriks dalam aljabar linier, dan bagaimana memanipulasinya menggunakan Python.
  3. A comparison between spaCy and UDPipe for Natural Language Processing for R users
    Dalam beberapa tahun terakhir ini NLP (Natural Language Processing) berkembang ke arah task yang multibahasa, tidak lagi terikat oleh satu bahasa, negara atau batasan legal tertentu. Dengan semakin berkembangnya open data berkaitan dengan task NLP, seperti http://universaldependencies.org/ , kita dapat dengan mudah membandingkan berbagai toolkit NLP. Dalam artikel ini dibandingkan dua package NLP dalam R, yaitu udpipe dan spacyr.
  4. Consider to Introduce Docker to Your Data Science Workflow
    Salah satu permasalahan yang banyak dihadapi oleh data saintis adalah konfigurasi environment. Setting environment seringlai berarti menginstal banyak package, menunggu compile package, dan berbagai proses trial and error lainnya. Penggunaan docker dalam data science workflow akan sangat membantu mengatasi permasalahan tersebut. Artikel ini membahas bagaimana mempersiapkan docker untuk menjalankan notebook Jupyter sederhana.
  5. A Simple Starter Guide to Build a Neural Network
    Artikel ini menjelaskan dasar-dasar membangun neural network dari nol, dengan meminimalisir berbagai konsep matematis dan saintifik di belakangnya.

Rilis Produk

  1. Apache Knox 1.0.0
    Apache Knox akhirnya mengumumkan rilis versi 1.0.0.
    Dalam rilis ini dilakukan repackaging class-class ke dalam package dengan nama yang lebih sesuai. Hal ini mungkin dapat menimbulkan permasalahan bagi user yang meng-ekstend class-class dengan package name yang lama. Oleh karena itu, dirilis versi 0.14.0 dengan fitur set yang kurang lebih sama dengan 1.0.0. Versi 1 ini juga mencakup beberapa perbaikan bug dari versi 0.14.0 serta penyempurnaan fitur Service Discovery dan Topology Generation.
  2. Apache Atlas 0.8.2 released
    Rilis ini mencakup perbaikan dan penambahan fitur di antaranya metadata types & instances, classification, lineage, search/discovery, serta security & data masking.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 14 / 2017
  • Comments Off on Seputar Big Data Edisi #41
Apache, Big Data, IoT, Spark, Uncategorized

Seputar Big Data Edisi #41

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Desember 2017

Artikel dan Berita

  1. Uber’s Uber Breach: A Stunning Failure In Corporate Governance And Culture
    Ketika Uber mengetahui data mereka bocor di akhir 2016 lalu, selain tidak memperingatkan pihak-pihak yang terkena dampaknya, mereka juga berusaha berkonspirasi untuk menutupi kasus tersebut. Bahkan mereka pun bersedia membayar hacker/pemeras yang membobol data mereka dalam usaha menyembunyikannya. Dalam artikel ini Forrester mengupas mengenai kasus tersebut.
  2. The Marine Biologist Using Big Data to Protect Ocean Wildlife
    Bagaimana para ahli biologi kelautan menggunakan big data untuk menjaga keragaman dan keseimbangan hayati kelautan dengan membangun beberapa platform untuk memonitor berbagai ancaman terhadap ekosistem laut.
  3. Big Data in Marketing; 5 Use Cases – There Are a Lot More Than Just Five
    5 contoh penggunaan big data dalam bidang marketing.
  4. Big data: Three ways to turn business intelligence into a business advantage
    Besarnya informasi yang dimiliki sebuah organisasi tidak selalu sejalan dengan jumlah insight yang mereka dapatkan. Dalam artikel ini CIO perusahaan retail House of Fraser memaparkan mengenai strategi mereka dalam menempatkan BI dan AI sebagai pendukung utama dalam pengambilan keputusan dalam perusahaan.

Tutorial dan Pengetahuan Teknis

  1. Graph Analytics Using Big Data
    Sebuah overview dan tutorial singkat mengenai bagaimana melakukan analisis graph menggunakan Apache Spark, graphframe dan Java.
  2. From lambda to kappa and dataflow paradigms
    Sebuah tinjauan singkat mengenai evolusi kerangka pemrosesan data dalam beberapa tahun terakhir ini, mulai dari framework yang sudah muncul lebih dulu (misalnya Storm dan Samza) serta beberapa framework baru seperti Beam, Spark, dan Flink.
  3. Comparing Pulsar and Kafka: unified queuing and streaming
    Overview mengenai Apache Pulsar (incubating) dan perbandingannya dengan Apache Kafka.
  4. scikit-learn: Creating a Matrix of Named Entity Counts
    Artikel yang menjelaskan mengenai implementasi model menggunakan named entities dan polyglot NLP library dari scikit-learn untuk mengikuti kompetisi Kaggle Spooky Author Identification.
  5. Transfer learning from multiple pre-trained computer vision models
    Dalam deep learning, sebuah model perlu dilatih menggunakan data yang besar untuk dapat digunakan. Semakin besar data yang digunakan untuk training model, semakin baik kinerjanya untuk data baru. Salah satu metode yang paling murah dan praktis adalah dengan ‘transfer learning’. Artikel ini menjelaskan bagaimana menggunakan model computer vision yang sudah ditraining, dalam keras TensorFlow abstraction library.
  6. Data acquisition in R (3/4)
    Seri ke 3 dari 4 artikel yang menjelaskan dengan sangat baik mengenai akuisisi data (loading, preproses, analisis dan visualisasi) dalam R, terutama data-data yang berhubungan dengan demografi.
  7. [FREE EBOOK] The Ultimate Guide to Basic Data Cleaning
    Data cleansing atau data cleaning merupakan langkah yang sangat penting dalam pengolahan data, karena kualitas insight yang dihasilkan dari proses analisis tergantung dari kualitas datanya. Ebook ini menjelaskan mengenai dasar-dasar data cleaning dalam 8 bab yang singkat, dilengkapi dengan contoh kasus.
  8. [DATASET] IMDB 5000 Movie Dataset
    Dataset yang digunakan untuk mengeksplorasi kemungkinan untuk memprediksi popularitas sebuah film sebelum film tersebut dirilis.

Rilis Produk

  1. Apache ZooKeeper 3.4.11
    Rilis Apache ZooKeeper 3.4.11 mencakup beberapa bug fixes dan peningkatan kinerja.
  2. Apache BooKeeper 4.5.1 Released
    Versi 4.5.1 dari Apache BooKeeper dirilis minggu ini. Di dalamnya terdapat penyelesaian terhadap beberapa bug kritikal.
  3. Apache Bigtop 1.2.1
    Apache Bigtop 1.2.1 dibangun di atas JDK8 dan mencakup Docker provisioner serta peningkatan pada beberapa project ekosistemnya.
  4. Burrow 1.0.0 Released
    Burrow adalah tool monitoring untuk Apache Kafka. Versi 1.0.0 yang baru-baru ini dirilis mencakup beberapa fitur baru dan perbaikan bugs.
  5. StreamSets Data Collector 3.0
    StreamSet merilis versi 3.0 dari SDC (StreamSet Data Collector), dan Data Collector Edge yang baru. Data Collector Edge adalah versi lightweight binary dari SDC. SDC versi 3.0 mencakup beberapa fitur baru yang berhubungan dengan Kafka, Google Cloud, Oracle CDC, MapR, dan lain sebagainya.
Pages:123
Tertarik dengan Big Data beserta ekosistemnya? Gabung