:::: MENU ::::

Posts Categorized / Social Media

  • Jun 20 / 2022
  • Comments Off on Seputar Big Data Edisi #84
AI, Apache, Artificial Intelligece, Big Data, Blockchain, Cryptocurrency, Google, Implementation, Komunitas, Social Media

Seputar Big Data Edisi #84

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pertengahan pertama bulan juni 2022.

Artikel dan berita

  1. LaMDA and the Sentient AI Trap
    Google baru-baru ini memberikan status cuti administratif kepada Blake Lemoine, peneliti Google AI, setelah yang bersangkutan mempublikasikan klaim bahwa LaMDA, sebuah model bahasa yang dirancang untuk berkomunikasi dengan manusia, hidup, memiliki akal dan empati. Lemoine bahkan menuntut diberikannya perwakilan hukum untuk LaMDA. Sementara itu, para ahli di bidang etika menyatakan bahwa perdebatan tentang apakah sebuah model AI memiliki kesadaran sebagai makhluk hidup, justru mengalihkan perhatian dari masalah yang lebih penting dan nyata, seperti kolonialisme AI, salah tangkap akibat bias, dll.
  2. Social Engineering Kill–Chain: Predicting, Minimizing & Disrupting Attack Verticals
    Social engineering adalah modus yang menarik bagi penjahat saiber, karena dengan biaya dan resiko rendah, dapat memberikan keberhasilan tinggi. Pada kenyataannya, meskipun teknologi cybersecurity semakin maju, kerentanan keamanan oleh manusia tetap sama. Dalam Cybersecurity Insight Reports menyatakan bahwa serangan rekayasa sosial dan human error sebagai salah satu dari 3 ancaman teratas selama beberapa tahun terakhir. Artikel ini membahas dengan cukup dalam mengenai rekayasa sosial dalam cybersecurity, serta langkah yang perlu diambil untuk mengatasinya.
  3. ‘The Music Has Stopped’: Crypto Firms Quake as Prices Fall
    Seiring dengan goncangnya pasar cryptocurrency, perusahaan-perusahaan kripto memberhentikan staf, membekukan penarikan, dan melakukan berbagai tindakan untuk membendung kerugian. Hal ini menimbulkan banyak pertanyaan tentang kesehatan dan kestabilan ekosistem kripto secara umum.
  4. Big Data Dukung Pupuk Kaltim Raup Laba Bersih Rp3,19 Triliun
    Setelah membukukan laba mengesankan pada tahun 2021, senilai Rp 6,17 triliun, terbesar dalam sejarahnya, PT Pupuk Kaltim (PKT) memulai 2022 dengan optimistis. Pada kuartal 1 2022, PKT membukukan laba bersih Rp3,19 triliun, meningkat hampir empat kali lipat dibandingkan dengan kuartal 1 2021 (year on year).Salah satu kunci kesuksesan mereka adalah transformasi digital untuk meningkatkan kinerja, serta diperkuat dengan pemanfaatan Big Data dalam program MAKMUR, sebuah program kemitraan pertanian terpadu yang dipelopori PKT.
  5. Future of UK Defence Artificial Intelligence Launched
    Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.

Tutorial dan pengetahuan teknis

  1. R Fundamentals – From Syntax to Control Structures
    Pengenalan dasar mengenai R, mulai dari apakah bahasa R, bagaimana menulis kode dalam R, komponen dan utilitas RStudio. Artikel ini bertujuan untuk membantu dalam mengenal sintaks dan fungsi umum dari bahasa R, dan menggunakan RStudio untuk menulis serta mengeksekusi kode R untuk melakukan operasi dasar
  2. Modernizing Testing With Data Pipelines
    Pelajari bagaimana sintesis data dan data pipelines dapat menawarkan solusi yang scalable untuk membuat data yang konsisten serta menyerupai kebutuhan dunia nyata, untuk kebutuhan pengujian sistem.
  3. 3 Ways Understanding Bayes Theorem Will Improve Your Data Science
    Teorema Bayes memberikan cara untuk mengupdate keyakinan kita berdasarkan bukti baru, dengan mempertimbangkan kekuatan keyakinan kita sebelumnya. Dengan menggunakan teorema Bayes, kita berusaha menjawab pertanyaan: bagaimana kemungkinan hipotesis saya berdasarkan bukti baru?
    Artikel ini berbicara tentang tiga cara agar Teorema Bayes dapat meningkatkan kemampuan Data Science kita.
  4. An End-to-End Guide to Publish Your Python Package
    Artikel ini merupakan demo end-to-end untuk melakukan code sharing. Proyek ini bertujuan untuk membantu Anda memahami cara memublikasikan modul/paket python dengan benar di PyPI secara eksternal dan membagikan pekerjaan dengan kolega Anda secara internal.
  5. Docker for Data Science: What every data scientist should know about Docker
    Saat ini Docker sudah menjadi kelaziman bagi data saintis, karena memudahkan untuk melakukan deployment aplikasi beserta dependensinya, tanpa ‘membahayakan’ sistem secara umum. Untuk itu seorang data saintis setidaknya perlu mengetahui apa itu docker dan bagaimana membuat kontainer dengan docker.
  6. Using Normalization Layers to Improve Deep Learning Models
    Jika normalisasi input membantu meningkatkan kinerja model Deep Learning, apakah standarisasi input ke setiap layer dapat membantu meningkatkan kinerja model juga?
    Artikel ini membahas mengenai serba-serbi layer normalisasi serta batch normalization, sebuah teknik untuk menstandarisasi input ke setiap layer di seluruh batch.
  7. Data Statistics and Analysis With Java and Python
    Java dan Python adalah dua bahasa komputer paling populer yang digunakan saat ini. Keduanya sangat matang dan menyediakan alat dan ekosistem teknologi untuk mendukung pengembangan solusi untuk masalah menantang yang muncul di dunia data science. Penting untuk memahami bagaimana keduanya menangani masalah yang berbeda, serta keunggulan dan kelemahan masing-masing. Kapan perlu memilih salah satu, dan kapan menggabungkan keduanya.Artikel ini menjelaskan mengenai cara menganalisis data tabular menggunakan Java Streams dan Python Pandas, serta membandingkan bagaimana kinerja dan skala untuk sejumlah besar data.
  8. [FREE Ebook] IPython Cookbook, Second Edition (2018)
    IPython Cookbook, Second Edition (2018) by Cyrille Rossant. Python merupakan salah satu bahasa pemrograman terpopuler untuk data science dan komputasi numerik. IPython memberikan antarmuka interaktif yang efisien untuk analisis dan visualisasi data.Buku ini berisi banyak resep yang praktis untuk komputasi numerik dan analisis data. Menjelaskan pengenalan dasar hingga trik canggih IPython/Jupyter, untuk membantu Anda menulis kode yang lebih baik dan lebih cepat.Bagian pertama buku ini mencakup teknik pemrograman: kualitas kode dan reproduksibilitas, optimalisasi kode, komputasi paralel, serta graphic card programming. Bagian kedua membahas data science, statistik, machine learning, pemrosesan sinyal dan citra, dynamical system, pemrosesan data GIS, serta matematika murni dan terapan.

Rilis Produk

  1. Apache Flume 1.10.0 released
    Apache Flume team mengumumkan release Flume versi 1.10.0.
    Flume adalah service terdistribusi, handal, dan efektif untuk mengumpulkan, meng-agregasi, dan memindahkan log data berukuran besar. Flume 1.10.0 memperbaiki CVE-2022-25167, vulnerability di JMSSource yang berkaitan dengan penggunaan JNDI.
  2. Apache Impala 4.1.0 release
    Tim Apache Impala mengumumkan rilis Impala 4.1.0. Impala adalah mesin SQL terdistribusi berkinerja tinggi. Rilisnya tersedia di: https://impala.Apache.org/downloads.html
  3. Apache SkyWalking 9.1.0 released
    SkyWalking: alat monitor kinerja aplikasi untuk Sistem terdistribusi, yang dirancang khusus untuk microservice, cloud native, dan arsitektur berbasis container (Docker, Kubernetes, Mesos).Rilis ini berisi sejumlah fitur baru, perbaikan bug, dan peningkatan dari versi 9.0.0.
  4. OpenNLP 2.0.0 released
    Apache OpenNLP library adalah toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami. Mendukung berbagai proses NLP yang paling umum, seperti tokenisasi, segmentasi kalimat, part-of-speech tagging, ekstraksi named-entity, chunking, dan parsing.
  5. Apache Hop 2.0.0
    Rilis 2.0.0 ini merupakan rilis major yang mencakup penyelesaian 151 tiket.Hop adalah platform integrasi data open source yang mudah digunakan, cepat dan fleksibel.Hop bertujuan bertujuan untuk memfasilitasi semua aspek orkestrasi data dan metadata. Pengembangan visual memungkinkan developer menjadi lebih produktif.
  6. Apache Bigtop 3.1.0 released
    Bigtop adalah proyek Apache Foundation untuk Infrastructure Engineer dan Data Scientist yang membutuhkan packaging, pengujian, dan konfigurasi komprehensif komponen big data open source terkemuka. Bigtop mendukung berbagai komponen/proyek, termasuk di antaranya Hadoop, HBase, Spark, dll.
    Beberapa highlight dari rilis ini meliputi:

    • Dukungan untuk Debian 11, Fedora 35, dan Rocky Linux 8
    • Upgrade terhadap beberapa komponen misalnya, HBase, Kafka, Spark, Zeppelin , ZooKeeper, dll.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 29 / 2021
  • Comments Off on Facebook Membuka Lembaran Baru Dan Berubah Menjadi Meta
Social Media

Facebook Membuka Lembaran Baru Dan Berubah Menjadi Meta

CEO Facebook Mark Zuckerberg mengumumkan “Meta” sebagai nama dan identitas baru untuk perusahaannya. Pengumuman ini dilakukan Zuckerberg pada acara Connect tanggal 28 Oktober kemarin. Connect adalah konferensi tahunan yang diselenggarakan oleh Facebook.

Zuckerberg mengungkapkan, bahwa nama Facebook sudah terlalu lekat ke satu produk, yaitu media sosial apps, sehingga tidak lagi menggambarkan apa yang sebenarnya mereka lakukan saat ini, terlebih lagi di masa depan.

Meta diambil dari bahasa Yunani yang berarti “melampaui”. Nama ini menunjukkan bahwa Facebook bertransisi menuju perusahaan yang akan “menghidupkan metaverse”.

“Mulai saat ini kami akan menjadi metaverse-first, bukan Facebook first”, demikian diungkapan oleh Zuckerberg.

Terkait dengan posisinya sebagai CEO, Zuckerberg menyatakan bahwa tidak akan ada perubahan berarti dari sisi struktur perusahaan, melainkan dari sisi bisnis, “Kami berencana untuk melaporkan dua segmen operasi: Kelompok Aplikasi dan Reality Labs”.

Meta juga akan mulai memperdagangkan sahamnya dengan kode baru, “MVRS”, mulai 1 Desember mendatang.

  • Oct 04 / 2021
  • Comments Off on Seputar Big Data Edisi #82
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data Edisi #82

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2021

Artikel dan berita

  1. Old coal plant is now mining bitcoin for a utility company
    Meskipun tidak memiliki wujud fisik, ternyata diperlukan konsumsi begitu banyak daya untuk menambang Bitcoin. Komputer-komputer di seluruh dunia memakan listrik setara dengan kebutuhan sebuah negara seukuran Belanda atau Polandia untuk menambangnya. Begitu pentingnya faktor listrik ini, sehingga sebuah perusahaan swasta bahkan memiliki pembangkit listrik sendiri untuk melakukan penambangan bitcoin. Salah satunya adalah perusahaan swasta di Amerika, yang meletakkan data center mereka di dekat pembangkit listrik tenaga batubara, sekitar 10 mil di luar St. Louis. Pembangkit listrik tersebut sempat mengalami kesulitan untuk mempertahankan operasionalnya agar tetap menguntungkan ketika harga listrik anjlok sebelumnya.
  2. The limitations of AI safety tools
    Pada tahun 2019, OpenAI merilis Safety Gym, seperangkat alat untuk mengembangkan model AI yang memperhatikan “batasan keamanan” tertentu, khususnya untuk reinforcement learning. Saat itu, OpenAI mengklaim bahwa Safety Gym dapat digunakan untuk membandingkan keamanan sebuah algoritma dan sejauh mana algoritma tersebut dapat menghindari kesalahan yang fatal saat belajar, misalnya menghindari tabrakan.
    Sejak itu, Safety Gym telah digunakan dalam mengukur kinerja algoritma yang diusulkan dari OpenAI, serta para peneliti dari University of California, Berkeley, dan University of Toronto. Akan tetapi beberapa ahli mempertanyakan apakah “alat keamanan” AI ini benar-benar berfungsi efektif seperti yang dinyatakan oleh pembuatnya.
  3. Researchers attempt an open source alternative to GitHub’s Copilot
    Pada bulan Juni lalu OpenAI dan GitHub meluncurkan Copilot, service yang memberikan saran berupa serangkaian kode di dalam lingkungan pengembangan seperti Microsoft Visual Studio. Didukung oleh model AI yang disebut Codex — yang diekspos oleh OpenAI melalui API — Copilot dapat menerjemahkan bahasa alami ke dalam kode dalam berbagai bahasa pemrograman, mengartikan perintah dalam bahasa Inggris dan mengeksekusinya.
    Saat ini sebuah komunitas sedang berupaya untuk membuat alternatif open source untuk model Copilot dan Codex, yang disebut dengan GPT Code Clippy. Para kontributor berharap untuk dapat membuat sebuah pair programmer AI yang memungkinkan para peneliti untuk mempelajari model AI skala besar yang dilatih menggunakan source code, untuk memahami kelebihan dan keterbatasannya.
  4. Facebook whistleblower to testify at U.S. Senate hearing next week
    Dua senator AS menyatakan bahwa seorang whistleblower Facebook akan bersaksi di hadapan sidang Senat minggu depan mengenai apa yang mereka sebut sebagai ‘efek toksik’ media sosial pada pengguna usia muda. Kesaksian pelapor ini akan sangat penting untuk memahami apa yang diketahui Facebook tentang efek racun platformnya terhadap pengguna muda, sejak kapan mereka mengetahui, dan apa telah yang mereka lakukan untuk mengatasi hal tersebut.
  5. How Intelligent Marketers Use AI
    Saat ini AI telah menjadi aspek penting dalam dunia marketing, dan telah digunakan dalam berbagai proses bisnis dan industri. Akan tetapi mungkin masih banyak pakar marketing yang merasa kewalahan menghadapi topik AI ini, diantaranya karena kurangnya keahlian teknis untuk memahami bagaimana sebenarnya cara kerja AI. Meski demikian, bagi marketer yang cerdas, tidak perlu menjadi spesialis IT untuk bisa mempelajari cara pemanfaatan AI. Artikel berikut ini menyajikan ulasan mengenai bagaimana para marketer menggunakan AI untuk meningkatkan kinerja mereka, dan bagaimana Anda dapat melakukannya juga.

Tutorial dan pengetahuan teknis

  1. Scaling LinkedIn’s Hadoop YARN cluster beyond 10,000 nodes
    LinkedIn menggunakan Hadoop sebagai tulang punggung Big Data analitik dan pembelajaran mesin. Dengan volume data yang tumbuh secara eksponensial, mereka menggandakan ukuran klaster dari tahun ke tahun untuk menyesuaikan dengan tumbuhnya beban komputasi. Cluster terbesar mereka saat ini memiliki ~10.000 node, salah satu cluster Hadoop terbesar di dunia. Penskalaan arsitektur Hadoop YARN menjadi salah satu tantangan terbesar selama bertahun-tahun.
    Dalam posting ini akan dibahas perlambatan klaster YARN yang terjadi ketika mereka mendekati jumlah 10.000 node, dan solusinya. Kemudian dibahasa mengenai bagaimana mereka secara proaktif memantau penurunan kinerja di masa mendatang, termasuk tools open-source mereka, DynoYARN, untuk memperkirakan kinerja klaster YARN dengan ukuran arbitrer. Terakhir, dijelaskan mengenai Robin, service internal yang memungkinkan untuk menskalakan klaster secara horizontal hingga melebihi 10.000 node.
  2. Mengenal Feature Selection dalam Machine Learning
    Feature selection merupakan salah satu cara untuk meningkatkan akurasi pada sebuah model machine learning. Melalui artikel singkat ini diharapkan kita dapat mengenal feature selection beserta teknik-tekniknya.
  3. Modeling Pipeline Optimization With scikit-learn
    Tutorial ini menyajikan dua konsep penting dalam data science dan machine learning, yaitu alur pembelajaran mesin dan optimalisasinya. Kedua prinsip ini merupakan kunci dalam machine learning. Tutorial ini akan membahas mengenai bagaimana cara membangun pipeline menggunakan sklearn.pipeline, melakukan grid search untuk mendapatkan parameter terbaik menggunakan GridSearchCV() dari sklearn.model_selection, dan melakukan analisis hasil dari GridSearchCV(), serta memvisualisasikannya. Dalam tutorial ini digunakan Ecoli Dataset dari UCI Machine Learning Repository.
  4. Getting started with Kafka and Rust: Part 2
    Tutorial ini merupakan bagian kedua dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Consumer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
  5. [FREE Ebook] R For Data Science – Hadley Wickham & Garret Grolemund.
    Ditulis oleh Chief Data Science RStudio, yang juga penulis berbagai package penting R, di antaranya ggplot2, tidyverse, dll.
    Buku ini menjelaskan dengan sangat baik tentang bagaimana mengolah data dan menghasilkan insight dalam R.
    Dengan penyajian yang detail dan terstruktur, buku ini juga sesuai untuk pembaca yang baru mulai terjun ke data sains maupun baru mempelajari R.

Rilis Produk

  1. Apache Karaf runtime 4.3.3
    Karaf menyediakan runtime modulith untuk enterprise, berjalan secara on-premis atau di atas cloud. Karaf memungkinkan user untuk lebih berfokus pada bisnis dan aplikasi. Rilis ini merupakan rilis penting pada seri Karaf 4.3.x, yang mencakup pembaruan, perbaikan, dan fitur baru, di ataranya kerangka repositori spesifikasi fitur, perbaikan kebocoran memori pada layanan status blueprint, perbaikan JMX exception push back ke klien, dan lain sebagainya.
  2. Apache jclouds 2.4.0 released
    Apache jclouds adalah toolkit multi-cloud open source untuk platform Java yang memberi Anda kebebasan untuk membuat aplikasi yang portabel di berbagai cloud, dan memberi Anda kontrol penuh untuk menggunakan fitur khusus cloud.
    Versi 2.4.0 ini adalah rilis reguler yang mencakup pembaruan, peningkatan, dan perbaikan bug, di antaranya peningkatan kompatibilitas dengan Java 9 dan environment yang baru.
  3. Apache IoTDB 0.12.2
    Apache IoTDB (Database untuk Internet of Things) adalah database native IoT
    dengan performa tinggi untuk manajemen dan analisis data, yang dapat diterapkan di edge dan cloud.
    Rilis ini adalah versi bug fixing dari 0.12.1, yang mencakup sejumlah pembaruan, peningkatan, dan perbaikan.
  4. Open-sourcing Mariana Trench: Analyzing Android and Java app security in depth
    Mariana Trench (MT) adalah tools yang digunakan oleh Facebook untuk menemukan dan mencegah bug secirity dan privasi di aplikasi Android dan Java. Sebagai bagian dari upaya untuk meningkatkan keamanan melalui otomatisasi, baru-baru ini Facebook membuka MT untuk mendukung tugas security engineer.
    Artikel ini adalah posting ketiga dari rangkaian pembahasan mengenai tools analisis statis dan dinamis yang digunakan oleh Facebook. MT sendiri adalah sistem terbaru, setelah Zoncolan dan Pysa, yang masing-masing dibuat untuk Hack dan Python.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 28 / 2019
  • Comments Off on Seputar Big Data edisi #79
Seputar Big Data #79
AI, Apache, Artificial Intelligece, Big Data, Google, Hadoop, Komunitas, machine learning, Medical Analytics, Social Media

Seputar Big Data edisi #79

Seputar Big Data #79

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pekan terakhir bulan November 2019

Artikel dan berita
  1. How to Become a Data Scientist (Skills + Qualifications)
    Kebutuhan akan data scientist saat ini sedang meningkat. Karir sebagai data scientist merupakan karir yang banyak dicita-citakan dan menawarkan gaji yang menggiurkan.
  2. An Intro to AI for people that hate math and can’t code
    Berikut adalah kursus singkat AI untuk manajer, pemilik bisnis, dan peran non-teknis lainnya yang ingin memahami Kecerdasan Buatan untuk mulai menggunakannya dalam institusi.
  3. McKinsey survey: AI boosts revenue, but companies struggle to scale use
    Survei Global McKinsey terbaru yang dirilis pekan lalu menemukan bahwa kecerdasan buatan memiliki dampak positif pada hasil bisnis, dengan 63% responden melaporkan peningkatan pendapatan setelah adopsi teknologi. Namun, hanya 30% perusahaan yang menerapkan AI ke beberapa unit bisnis, atau naik dari 21% tahun lalu.
  4. Introducing the Next Generation of On-Device Vision Models: MobileNetV3 and MobileNetEdgeTPU
    Google mengumumkan rilis source code dan checkpoint untuk model MobileNetV3 dan MobileNetEdgeTPU. Model-model tersebut adalah hasil perkembangan terbaru dalam teknik AutoML yang mengenali perangkat keras serta perkembangan dalam desain arsitektur. Pada CPU seluler, MobileNetV3 dua kali lebih cepat dari MobileNetV2 dengan akurasi yang setara, dan semakin maju untuk jaringan computer vision mobile.
  5. Powered by AI: Instagram’s Explore recommender system
    Menurut Facebook, lebih dari setengah pengguna Instagram yang mencapai 1 miliar mengunjungi Instagram Explore untuk menemukan video, foto, streaming langsung, dan Story setiap bulannya. Oleh karena itu, membangun mesin rekomendasi menjadi tantangan teknis, salah satunya karena tuntutan fungsi real time. Dalam posting blog ini Facebook mengupas cara kerja Instagram Explore, yang menggunakan bahasa kueri dan teknik pemodelan kustom. Sistem ini mengekstrak setidaknya 65 miliar fitur dan membuat 90 juta prediksi model setiap detiknya.
Tutorial dan Pengetahuan Teknis
  1. Scaling Apache Airflow for Machine Learning Workflows
    Apache Airflow adalah platform yang cukup populer untuk membuat, menjadwalkan, dan memantau workflow dengan Python, tetapi ia dibuat untuk keperluan proses ETL. Dengan menggunakan Valohai, kita dapat menggunakan Apache Airflow untuk membantu proses machine learning.
  2. Google’s BERT changing the NLP Landscape
    Salah satu perkembangan drastis dalam Pemrosesan Bahasa Alami (NLP) adalah peluncuran Representasi Encoder Bidirectional Google dari Transformers, atau model BERT - model yang disebut model NLP terbaik yang pernah didasarkan pada kinerja superiornya atas berbagai macam tugas.
  3. Exploring Apache NiFi 1.10: Parameters and Stateless Engine
    Pada artikel ini, dibahas versi terbaru Apache NiFi dan bagaimana menggunakan dua fitur baru terbesar: parameter dan stateless.
  4. Unsupervised Sentiment Analysis
    Salah satu implementasi dari metode NLP adalah analisa sentimen, di mana Anda mencoba mengekstrak informasi mengenai emosi penulis. Artikel berikut menjelaskan cara melakukan analisa sentimen menggunakan data tanpa label.
  5. Text Encoding: A Review
    Kunci untuk melakukan operasi teks mining adalah mengubah teks menjadi vektor numerik, atau biasa disebut text encoding. Setelah teks ditransformasi menjadi angka, kita dapat memanfaatkan berbagai algoritma pembelajaran mesin untuk klasifikasi dan klastering. Artikel ini membahas beberapa teknik encoding yang banyak digunakan dalam teks mining.
Rilis Produk
  1. Apache BookKeeper 4.10.0 released
    The 4.10.0 release incorporates hundreds of bug fixes, improvements, and features since previous major release, 4.9.0. Apache BookKeeper/DistributedLog users are encouraged to upgrade to 4.10.0.
    Rilis 4.10.0 adalah rilis major, yang mencakup ratusan perbaikan bug, peningkatan, dan fitur sejak rilis 4.9.0. Pengguna Apache BookKeeper/DistributedLog disarankan untuk melakukan upgrade ke 4.10.0.
  2. Apache Libcloud 2.6.1 release
    Libcloud adalah library Python yang mengabstraksi perbedaan berbagai API penyedia cloud. Library ini memungkinkan pengguna untuk mengelola layanan cloud (server, penyimpanan, load balancer, DNS, containers as a service) yang ditawarkan oleh banyak penyedia berbeda melalui API tunggal, terpadu, dan mudah digunakan.
    Libcloud v2.6.1 mencakup berbagai perbaikan bug dan peningkatan.
  3. Apache Kudu 1.11.1 Released
    Apache Kudu 1.11.1 adalah rilis perbaikan bugs.


Contributor :

Tim idbigdata always connect to collaborate every innovation 🙂
  • Nov 22 / 2019
  • Comments Off on BIG DATA, UNTUK (SI)APA?
Big Data, Komunitas, Social Media

BIG DATA, UNTUK (SI)APA?

Oleh: Indri Sudanawati Rozas

Baik. Ijinkan saya sharing sedikit catatan tentang literasi data. Berharapnya yang sedikit ini ada manfaatnya untuk pembaca. Dan harapan paling utama sebenarnya adalah: manfaatnya kembali ke diri sendiri. Menulis bagi saya selama ini merupakan self-learning yang luar biasa. Karena dengan menulis, saya mengendapkan apa yang saya dapatkan. Dan semoga endapan itu bermanfaat untuk saya sendiri di masa mendatang.

Oke, mulai ya.

Dua hari kemarin saya ikut acara bertajuk Konferensi Big Data Indonesia di Hotel Bumi Surabaya. Tagline nya: bertemu, bersinergi, berinovasi.

Sebenarnya saya telah mendengar #IDbigdata ini sekitar 2 tahun lebih, tapi hanya selintas saja. Saat itu di acara yang diadakan oleh BeKraf di Surabaya, idbigdata disebut-sebut oleh mas Rully. Lalu saya buka webnya. Ada komunitasnya ternyata. Ada meet up, ada juga konferensi. Tetapi karena konferensi sebelumnya ada di luar Surabaya maka tak mungkin saya menghadirinya. Biasalah, emak rempong dengan 3 anaknya. Hehe.

Begitu tahu info konferensi di Surabaya. Saya sejak jauh hari sudah meniatkan diri untuk all out, menyimak semua pembicara yang sharing apapun di sana. Karena saya sudah lama ingin tahu, implementasi big data ini apa di dunia nyata di luar sana? Sebagaimana kalimat di atas, saya ini orang IT tapi gak update blas. Sedih.

Jadi, di acara kemarin ada 16 pembicara dengan domain keilmuan masing-masing yang luar biasa. Sebagian praktisi, yang membuat solusi bagi negeri dengan bantuan literasi data atau lebih dikenal dengan nama #bigdata. Sebagian lagi akademisi, dengan penelitian berbasis labnya.

Kembali ke judul. Saya tak mungkin membuat resume dari 16 pembicara dalam satu tulisan saja. Saya melalui tulisan ini hanya ingin menyimpulkan, jadi sebenarnya big data ini untuk apa, dan sekaligus menjawab: untuk siapa?

Big data, untuk apa?

Kalau bicara data, maka sebenarnya inilah bahasa universal manusia. Anaknya berapa? Kelas berapa saja? Kelahiran tahun berapa? Lalu kadang: gajimu berapa? Eh bukan itu ya, gak sopan tanya gaji, hehe. Intinya, jika bicara data dalam bentuk angka, maka manusia akan dengan mudah sekali memahaminya.

Maka, jika kita bicara kebutuhan akan individu, kelompok, organisasi, bahkan penyelenggara negara, maka idealnya berbasis data.

Misal: ayo kita buat startup. Oke. Tapi sebelum buat harusnya lihat dulu, kira-kira pasar yang mau dibidik ini gimana datanya. Jangan sampai bikin startup dengan gambling, by intuisi, begitu launching gak ada yang beli. Kan sedih.

Gojek, yang saya dengar 2 tahunan lalu di sebuah acara, sebelum booming seperti sekarang, tahu apa yang CEOnya lakukan? Beliau invest keperluan data dengan “membajak” para lulusan STIS! Mereka ini dibujuk agar tak mau jadi PNS, dan kemudian menjadi data scientist di gojek. Hasilnya? Ya semua yang sekarang ada di dalam gojek. Itu dibuat berbasis data dan behaviour pengguna, alias kita, dan itulah contoh nyata pemanfaatan big data.

Apalagi jika level negara. Wajib hukumnya membuat program dan kebijakan serta alokasi anggaran berbasis kebutuhan, by data. Kenapa? Ya agar tepat, menjawab kebutuhan faktual di lapangan. Itu sebagian kesimpulan yang saya dapatkan dari paparan yang disampaikan oleh pak Bambang Dwi Anggono dari Kemkominfo.

Jadi clear ya. Kalau kita memutuskan melakukan apapun, idealnya berbasis data. Dan di era ini, data digital begitu bertebaran karena Internet of Thing, bahkan mulai ke Internet of Everything. Maka gunakanlah big data untuk mendukung analisis kita.

Lalu, big data, untuk siapa? Apakah ini urusan orang IT saja? No, no, no… Kita semua, tak peduli domain keilmuan apapun, butuh big data.

Tak percaya? Politik misalnya. Lihat saja. Ternyata juga sudah kemasukan “virus” big data. Iyalah, buktinya ada buzzer. Kenapa? Ya karena sekarang jamannya sosial media. Penggiringan opini sangat masif di dalamnya. Buzzer pun main. Bot digunakan. Dll. Kita di sini siapa? Korban? Pemain? Atau penganalisis? Mari berfikir.

Jadi kesimpulannya, untuk apa dan siapa big data ini? Ya untuk kita semua. We communicate with numbers. We motivate with numbers. Organizations are driven by numbers. Begitu kata salah satu pembicara. Dan di era big data, numbers begitu bertebaran, jika kita tak bisa memanfaatkan, maka kita akan ditinggal oleh jaman. Karena tak bisa membaca situasi di lapangan.

Mungkin sekian renungan pagi ini. Terimakasih IDbigdata. Semoga kita semua bisa memberikan sumbangsih nyata untuk negara melalui aktifitas kita dengan berbasiskan analisis data yang demikian tersebar di mana-mana di era 4.0 ini.

Surabaya, 21 November 2019.

  • Oct 31 / 2019
  • Comments Off on Seputar Big Data edisi #78
AI, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #78

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu V bulan Oktober 2019.

Artikel dan berita

  1. How AI-Powered Chatbots are Changing the Customer Experience
    Chatbots kini tidak lagi hanya hayalan film fiksi ilmiah atau perusahaan berteknologi tinggi. Tahun lalu, lebih dari dua pertiga konsumen melaporkan berinteraksi dengan Chatbot.
    40% konsumen mengatakan mereka tidak peduli siapa yang membantu mereka selama mereka mendapatkan apa yang mereka butuhkan. 47% konsumen mengatakan terbuka terhadap gagasan untuk membeli produk atau layanan dari Chatbots.
  2. The Growing Importance Of Big Data In Application Monitoring
    Big Data tidak hanya berguna untuk pengembangan aplikasi. Big Data juga sangat ideal untuk memonitor aplikasi dengan lebih mudah. Banyak aplikasi dapat memanfaatkan algoritma AI untuk memastikan user experience terbaik, meminimalkan down time dan memastikan sistem berjalan dengan lancar.
  3. Largest cyber-attack in Georgia’s history linked to hacked web hosting provider
    Georgia mengalami serangan cyber besar-besaran di mana lebih dari 15.000 situs web dirusak dan kemudian dimatikan. Serangan tersebut dianggap sebagai yang terbesar dalam sejarah negara itu, dan berdampak pada situs-situs berbagai lembaga pemerintah, bank, pengadilan, surat kabar lokal, dan stasiun TV.
  4. Machine Learning Based Fraud Detection Models in Healthcare
    Fraud pada layanan kesehatan membahayakan bagi pasien, penyedia layanan, maupun pembayar pajak. Penipuan kesehatan di AS diperkirakan mencapai $68 miliar per tahun, bahkan bisa mencapai $230 miliar. Dengan demikian, deteksi yang tepat waktu dan efektif sangat penting untuk meningkatkan kualitas perawatan. Penyedia asuransi kesehatan Aetna menggunakan 350 model pembelajaran mesin untuk memerangi fraud. Banyak dari model tersebut merupakan jenis deteksi anomali, yang menargetkan penyimpangan dalam dataset besar.

Tutorial dan pengetahuan teknis

  1. Tutorial: Presto + Alluxio + Hive Metastore on Your laptop in 10 Minutes
    Tutorial ini menjelaskan cara install dan setup stack Presto, Alluxio, dan Hive Metastore di server lokal. Selain itu juga menunjukkan cara menggunakan Alluxio sebagai caching layer untuk Presto request. Dalam stack ini, Presto adalah SQL engine untuk merencanakan dan mengeksekusi query, Alluxio adalah layer orkestrasi data, dan Hive Metastore adalah layanan katalog untuk membaca skema tabel dan informasi lokasi.
  2. Getting Started with Rust and Apache Kafka
    Pada artikel sebelumnya telah dijelaskan mengenai simulasi event sourcing bank dalam Clojure. Pada artikel ini ditunjukkan penambahan SSL dan penggabungan beberapa topik menggunakan opsi subject name strategy dari Confluent Schema Registry, serta mengubah salah satu komponen dari Clojure ke Rust.
  3. Feature Selection: Beyond feature importance?
    Dalam pembelajaran mesin, Pemilihan Fitur adalah salah satu proses yang sangat penting. Meskipun terdengar sederhana, pemilihan fitur adalah salah satu masalah paling kompleks dalam proses pembuatan model. Dalam posting ini diuraikan mengenai 3 teknik berbeda untuk melakukan Seleksi Fitur pada dataset Anda dan bagaimana membangun model prediksi yang efektif.
  4. A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning
    Maximum likelihood estimation (MLE) adalah kerangka kerja yang umum digunakan untuk memperkirakan distribusi probabilitas sampel dalam machine learning. Kerangka kerja ini memberikan dasar bagi banyak algoritma penting, termasuk regresi linier, regresi logistik, dan deep neural network. Artikel ini memberikan pengenalan yang mudah untuk anda memahami MLE.
  5. [DATASET] Introducing the Schema-Guided Dialogue Dataset for Conversational Assistants
    Salah satu pertanyaan penting dalam pengembangan asisten AI seperti Google Assistant adalah : bagaimana asisten AI dapat mendukung layanan baru tanpa perlu data tambahan dan pelatihan ulang? Tim peneliti Google baru-baru ini merilis korpus yang menurut mereka merupakan kompilasi terbesar dari dialog-dialog berorientasi tugas/task. Dataset yang disebut the Schema-Guided Dialogue (SGD) corpus diharapkan dapat membantu pengembangan asisten virtual dengan adaptabilitas yang lebih baik.

Rilis Produk

  1. Open-sourcing Polynote: an IDE-inspired polyglot notebook
    Polynote adalah notebook polyglot dengan dukungan Scala, integrasi Apache Spark, interoperabilitas multi-bahasa termasuk Scala, Python, dan SQL, autocomplete as-you-type, dan banyak lagi. Polynote memberikan para ilmuwan data dan peneliti pembelajaran mesin lingkungan notebook yang memungkinkan mereka untuk mengintegrasikan platform ML berbasis JVM – yang banyak menggunakan Scala – dengan library pembelajaran mesin dan visualisasi Python yang populer.
  2. Apache Druid (incubating) 0.16.0 release
    Apache Druid 0.16.0-incubating mencakup lebih dari 350 perubahan yang terdiri dari fitur-fitur baru, peningkatan kinerja, perbaikan performance, perbaikan bugs, dan peningkatan dokumen. Apache Druid (incubating) adalah database analytics real-time untuk OLAP di atas dataset besar.
  3. Apache Geode 1.10.0
    Geode 1.10.0 ini adalah rilis triwulanan yang berisi sejumlah peningkatan fitur dan kinerja serta perbaikan bug. Pengguna disarankan untuk melakukan upgrade ke rilis terbaru ini.
  4. Apache Tuweni 0.8.2 released
    Apache Tuweni adalah sekumpulan library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi dalam Java dan bahasa JVM lainnya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 19 / 2019
  • Comments Off on Seputar Big Data edisi #74
Apache, Artificial Intelligece, Big Data, IoT, Social Media

Seputar Big Data edisi #74

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal dan topik menarik yang layak untuk dibaca kembali hingga pertengahan bulan September 2019

Artikel dan berita

  1. Jutaan Data Penumpang Lion Air Dilaporkan Bocor di Forum Internet
    Puluhan juta data penumpang dua maskapai penerbangan milik Lion Air kabarnya beredar di forum pertukaran data sejak sebulan lalu. Data-data itu diakses dalam penyimpanan cloud Amazon Web Services (AWS) yang dibuka lewat web.
  2. Database leaks data on most of Ecuador’s citizens, including 6.7 million children
    Kebocoran data besar-besaran mengekspos data pribadi lengkap dari hampir setiap individu di Ekuador. Insiden ini berdampak pada sekitar 20 juta orang (sebagai referensi, Ekuador memiliki populasi sekitar 17 juta). Data yang terekspos termasuk 6,7 juta anak di bawah umur dan data presiden Ekuador sendiri.
  3. What’s next for big data after a turbulent 2019?
    Selama awal hingga pertengahan tahun 2019 dipenuhi dengan guncangan yang cukup dahsyat dalam bidang big data dan analisa data. Ditandai dengan gelombang akuisisi yang tampaknya tidak ada habisnya. Diiringi dengan naik turunnya saham vendor Big Data dunia.
  4. Digital transformation in aviation: Big data, IoT, AI & mobility
    Sejak revolusi digital yang dimulai hampir seperempat abad lalu, industri penerbangan selalu berada di garis depan transformasi digital. Saat ini semakin banyak perusahaan yang sangat menyadari kunci dari pemanfaatan penuh potensi pasar penerbangan adalah dengan menawarkan solusi terobosan bentuk baru dengan memanfaatkan teknologi digital.
  5. Can AI Save Our Oceans? Let’s Start With The Data.
    Dekade terakhir ini lautan berada dalam krisis yang sangat mengkhawatirkan dan dapat membahayakan seluruh umat manusia. Masalah serius yang dihadapi mulai dari perubahan iklim, pencemaran plastik hingga penangkapan ikan berlebihan.

Tutorial dan pengetahuan teknis

  1. The 5 Classification Evaluation metrics every Data Scientist must know
    Jika telah selesai membuat model klasifikasi, hal berikutnya adalah mengevaluasi model tersebut untuk meningkatkan akurasinya. Tapi apakah kita hanya menggunakan akurasi sebagai metrik kinerja model kita?
  2. A Quick Introduction To Deep Learning
    Selama beberapa tahun terakhir, deep learning telah meninggalkan laboratorium penelitian untuk menaklukkan dunia nyata. Hasil spektakuler telah dibuat oleh Google, Amazon, Facebook atau pun Microsoft, melalui penggunaan algoritma deep learning telah mendapat eksposur yang luar biasa dari media.
  3. BERT, RoBERTa, DistilBERT, XLNet: Which one to use?
    Hadirnya Google BERT telah menghebohkan dunia NLP. BERT mampu mengungguli metode NLP lainnya. Artikel ini akan membandingkan antara berbagai metode BERT dan turunannya, sehingga kita dapat memilih mana yang paling sesuai untuk kebutuhan.
  4. Social Network Visualization with R
    Analisis dan visualisasi data jejaring sosial menggunakan R, langkah demi langkah lengkap dengan source code.
  5. Doing Multivariate Time Series Forecasting with Recurrent Neural Networks
    Perkiraan Time Series adalah area penting dalam Pembelajaran Mesin. Dengan perkembangan terkini dalam jaringan syaraf tiruan, kita dapat mengatasi berbagai masalah yang sulit dilakukan dengan pendekatan prediksi deret waktu klasik. Artikel ini menjelaskan bagaimana cara menggunakan Keras ‘Long-Short Term Memory (LSTM) untuk Time Series Forecasting dan MLFLow untuk menjalankan model pelacakan.
  6. Using Jakarta EE/MicroProfile to Connect to Apache Kafka: Part Two
    Ekstensi CDI adalah mekanisme di mana kita dapat mengimplementasikan fungsionalitas tambahan di atas CDI container. Ekstensi ini memungkinkan Jakarta EE / MicroProfile untuk terus mengembangkan ekosistem mereka dengan lebih banyak kerangka kerja dan integrasi. Posting ini akan membahas tentang opsi lain untuk mengintegrasikan Jakarta EE / MicroProfile dengan Apache Kafka. Posting pertama dalam seri ini dapat ditemukan di sini : https://dzone.com/articles/using-jakarta-eemicroprofile-to-connect-to-apache.

Rilis Produk

  1. Apache Calcite 1.21.0 released
    Rilis ini mencakup lebih dari 100 penyelesaian issue, termasuk di dalamnya banyak fitur baru, peningkatan secara umum, maupun perbaikan bugs. Calcite adalah framework manajemen data dinamis, yang mendukung berbagai bahasa dan data engine, serta menyediakan SQL parser.
  2. Announcing the General Availability of Cloudera Streams Management
    Cloudera memperkenalkan bundel manajemen dan monitoring untuk Kafka : Cloudera Streams Management (CSM).
  3. Announcing Two New Natural Language Dialog Datasets
    Google merilis 2 dataset baru yang berisi percakapan dalam bahasa Inggris, yang dapat digunakan untuk melatih asisten digital.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2019
  • Comments Off on Seputar Big Data edisi #73
Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #73

Setelah lama tidak hadir, kali ini seputar informasi mengenai big data hadir kembali. Informasi yang diambil dari berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site.

Artikel dan berita

  1. Deep learning is about to get easier — and more widespread
    Permasalahan utama dari AI, khususnya deep learning adalah kebutuhan akan data yang sangat besar untuk melatih mesin agar dapat menemukan pola dan hubungan dalam data. Tidak semua perusahaan atau institusi dapat menyediakan data tersebut, oleh karena itu para peneliti terus berusaha mengembangkan metode untuk mengatasi hal ini, agar deep learning dapat lebih mudah dijangkau oleh semua kalangan. Artikel ini menyajikan 3 di antaranya.
  2. Facebook AI’s RoBERTa improves Google’s BERT pretraining methods
    Peneliti Facebook AI dan University of Washington menemukan cara untuk meningkatkan performa BERT yang merupakan model NLP yang dipublikasikan oleh Google. Model baru ini diuji menggunakan dataset untuk benchmark seperti GLUE, SQuAD, dan RACE. Diberi nama RoBERTa singkatan dari “Robustly Optimized BERT approach”, model ini mengadopsi banyak teknik yang digunakan oleh Bidirectional Encoder Representations from Transformers (BERT) miliki Google.
  3. Big Data Is Already A Thing Of The Past: Welcome To Big Data AI
    Sebelumnya, Big Data adalah salah satu frasa yang paling banyak dibicarakan tentang tren teknologi. Saat ini istilah kecerdasan buatan (AI) sudah sangat populer. Kedepannya kombinasi antara Big Data dan AI diprediksi akan menjadi trend baru, sebut saja Big Data AI.
  4. 4 Ways AI-Driven ETL Monitoring Can Help Avoid Glitches
    Proses ETL (Extract, Transform, Load) adalah salah satu proses terpenting dalam analitik big data dan juga merupakan proses terpanjang dan terberat. Jika proses awal ini gagal maka analisa tidak dapat dilakukan dengan baik. Bagaimana AI dan machine learning dapat mendeteksi kesalahan ETL sebelum berubah menjadi analisa yang tidak akurat?

Tutorial dan pengetahuan teknis

  1. Learn Classification with Decision Trees in R
    Salah satu algoritma klasifikasi yang paling mudah adalah decision tree. Dalam artikel ini akan dibahas penggunaan algoritma decision tree yang diimplementasikan menggunakan R.
  2. Real-Time Stream Processing With Apache Kafka Part 2: Kafka Stream API
    Artikel lanjutan dari artikel sebelumnya yang telah membahas apa itu Apache Kafka. Dalam artikel ini akan dibahas mengenai Kafka API khususnya Stream API.
  3. Illustrated: 10 CNN Architectures
    Artikel ini adalah bentuk visualisasi dari 10 arsitektur CNN populer, yang bisa kita gunakan. Digambarkan dengan sederhana dan ringkas sehingga mudah dilihat dan dipahami gambaran keseluruhannya.

Rilis Produk

  1. Announcing the MLflow 1.1 Release
    Minggu ke empat bulan Juli lalu, tim development dari databricks merilis MLflow 1.1. Dalam rilis ini, berfokus pada menyempurnakan komponen pelacakan MLflow dan meningkatkan komponen visualisasi di UI.
  2. Microsoft ML Server 9.4 now available
    Microsoft Machine Learning Server, platform untuk mengimplementasikan machine learning menggunakan R dan Python, telah diperbarui ke versi 9.4. Pembaruan ini mencakup mesin update R 3.5.2 dan Python 3.7.1, dan mendukung integrasi dengan Spark 2.4.
  3. Apache Arrow 0.14.1 released
    Rilis ini merupakan patch rilis yang mencakup penyelesaian 46 issue sejak rilis 1.14.0 pada 8 Juli 2019 lalu. Sebelumnya, rilis 1.14.0 mencakup penyelesaian 602 issue dari rilis 1.13.0. Apache Arrow adalah platform pengembangan lintas bahasa untuk in-memory data.
  4. Apache Kudu 1.10.0 Released
    Versi 1.10.0 adalah rilis minor yang mencakup beberapa fitur baru, peningkatan, optimasi, maupun perbaikan bugs. Kudu adalah mesin penyimpanan untuk data terstruktur yang dirancang dalam konteks ekosistem Apache Hadoop dan mendukung integrasi dengan proyek data analitik lain di dalam maupun di luar Apache.
  5. Apache Solr™ 8.2.0 available
    Rilis ini mencakup beberapa fitur baru, perbaikan, optimasi, dan bug fixing. Solr adalah platform pencarian NoSQL terpopuler dari proyek Apache Lucene.
  6. Apache Rya 4.0.0-incubating released
    Rya adalah triple store RDF berbasis cloud yang mendukung kueri SPARQL. Rya adalah sistem manajemen data RDF yang dikembangkan di atas Apache Accumulo®. Versi ini adalah rilis Apache yang ketiga dari Rya.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2019
  • Comments Off on Seputar Big Data edisi #72
Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

  1. Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
    Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
  2. Using AI to predict breast cancer and personalize care
    Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
  3. Security lapse exposed a Chinese smart city surveillance system
    Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
  4. Driving Business Decisions Using Data Science and Machine Learning
    Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
  5. Choosing the right data security solution for big data environments
    Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
  6. Study shows how big data can be used for personal health
    Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

  1. Partition Management in Hadoop
    Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
  2. The 3 Biggest Mistakes on Learning Data Science
    Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
  3. Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
    Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
  4. Python at Netflix
    Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
  5. Naive Bayes: A Baseline Model for Machine Learning Classification Performance
    Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
  6. How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
    Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

  1. Apache Drill 1.16.0 Release
    Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2019
  • Comments Off on Apa Itu Industri 4.0?
Artificial Intelligece, Big Data, IoT, Social Media

Apa Itu Industri 4.0?

Saat ini dunia sedang memasuki era transformasi yang disebut dengan Industri 4.0. Perusahaan, organisasi, dan bahkan pemerintah menggaungkan persiapan dan kesiapan untuk menyongsongnya. Apa sebenarnya Industri 4.0 ini?

Industri 4.0 adalah sebuah perubahan besar yang ke 4 dalam dunia industri, atau disebut juga dengan revolusi industri ke 4. Sebelumnya dunia industri mengalami perubahan besar yang melalui beberapa fase. Fase pertama adalah revolusi industri yang muncul pada abad ke 18, dengan mulai digunakannya mesin uap dan mekanisasi produksi. Revolusi kedua dimulai di abad ke 19 dengan ditemukannya listrik dan lini perakitan (assembly line) yang memungkinkan dilakukannya produksi massal secara lebih cepat. Revolusi ketiga dimulai pada abad ke 20, tepatnya di tahun 70-an melalui penggunaan komputer dan PLC (programmable logic control). Dengan teknologi tersebut saat ini kita dapat mengotomasi seluruh proses produksi dengan sesedikit mungkin campur tangan manusia.

Pada era industri 4.0 ini, kombinasi antara komputer dan sistem otomasi memiliki bentuk yang baru, yang dikenal dengan nama Cyber Physical System (CPS). Sistem ini terdiri dari mesin cerdas, sistem penyimpanan dan fasilitas produksi yang mampu untuk saling bertukar data, memicu tindakan dan saling mengendalikan satu sama lainnya. Robot dan mesin produksi dengan ribuan sensornya yang merupakan physical system terkoneksi melalui jaringan atau internet ke sistem komputasi yang diperkuat dengan algoritma kecerdasan buatan dan mampu mengendalikannya dengan sedikit intervensi dari manusia.

Revolusi ke 4 ini ditandai dengan pemanfaatan teknologi informasi dan komunikasi. Ciri-cirinya adalah interkonektivitas atau kesalingterhubungan serta sistem cerdas dan otomasi.

Ada 9 komponen yang dianggap sebagai pilar dari Industri 4.0, yaitu :

  1. Big Data and Analytics
    Mesin dan sensor yang saling terhubung menghasilkan data yang sangat besar. Data ini menunjukkan berbagai hal yang berkaitan dengan pemeliharaan, kinerja, dan permasalahan lain. Dengan mengolah data tersebut, dapat diketahui pola dan insight dalam waktu yang singkat, yang mustahil dilakukan oleh manusia. Dengan teknologi ini, industri dapat melakukan optimasi dan perencanaan dengan jauh lebih efisien dan efektif terhadap kegiatan operasional maupun bisnis.
  2. Autonomous Robot
    Sebelumnya robot hanya digunakan oleh industri dan organisasi besar, namun teknologi ini akan menjadi jauh lebih murah dan memiliki jangkauan kemampuan yang lebih besar daripada yang telah digunakan dalam manufaktur saat ini.
  3. Simulation
    Simulasi atau virtual reality, disebut juga dengan digital twin, dapat digunakan untuk melakukan training dan perencanaan. Prinsipnya adalah membuat ‘salinan digital’ dari aset, produk, bahkan manusia, termasuk fungsi dan perilakunya, dari data-data yang dikumpulkan sebanyak mungkin dan sedetail mungkin. Hal ini memungkinkan kontrol dan optimisasi serta deteksi masalah sedini mungkin, sehingga meningkatkan kualitas produk dan mengurangi waktu pengaturan dan waktu henti (down time). NASA menggunakan digital twin ini untuk memantau seluruh Space Center mereka.
  4. Integrasi sistem secara horizontal dan vertikal
    Dengan sistem cerdas dan perangkat IoT, perusahaan, departemen, supplier maupun customer akan menjadi lebih kohesif dan terhubung. Dengan integrasi sistem secara horizontal dan vertikal, informasi akan berjalan mulus dalam rantai produksi, yang memungkinkan.
  5. Industrial Internet of Things (IIoT)
    IIoT dapat digambarkan sebagai jaringan perangkat yang memiliki kecerdasan lokal, yang memungkinkan komunikasi dan interaksi antara berbagai perangkat, mesin, dan produk. Hal ini juga akan dapat mendesentralisasikan proses analitik dan pengambilan keputusan, sehingga memungkinkan respon real time. IIoT saat ini sudah banyak dipergunakan, misalnya untuk keperluan smart metering, asset tracking, monitoring pengiriman secara real-time, dan lain sebagainya.
  6. Augmented Reality
    Berbeda dengan simulasi, augmented reality menggabungkan dunia nyata dan virtual dengan menambahkan informasi berupa teks, gambar, suara, dan lain sebagainya untuk meningkatkan kualitas interaksi pengguna dengan dunia nyata. AR dapat digunakan untuk menghemat biaya produk trial dan display, maupun untuk keperluan training di mana kondisi nyata terlalu berbahaya atau mahal secara biaya atau waktu. Dipopulerkan dan dikenal di seluruh dunia melalui permainan dan aplikasi seperti Pokemon Go, saat ini perusahaan-perusahaan telah memperkenalkan teknologi ini ke bisnis dan aplikasi mereka. IKEA misalnya, menggunakan AR yang memungkinkan pelanggan melihat furnitur terlihat seperti berada di ruangan di rumah mereka, dengan menggunakan data berdasarkan ukuran dan warna.
  7. Cloud
    Berbagai teknologi yang melandasi industri 4.0, seperti digital twin dan IIoT memerlukan sharing data lintas mesin, lintas sistem, tempat, bahkan organisasi. Sejalan dengan itu, kinerja teknologi cloud akan terus berkembang, sehingga waktu reaksinya dapat mencapai milisecond. Hal ini akan mendorong semakin banyaknya mesin dan fungsionalitas yang di-deploy ke atas cloud, mendorong sistem produksi dan rantai pasokan yang lebih bersifat data-driven.
  8. Additive manufacturing
    Manufaktur aditif didefinisikan sebagai proses penggabungan bahan untuk membuat objek dari data model 3D. Metode ini biasanya dilakukan lapis demi lapis, berbeda dengan manufaktur subtraktif yang umum dilakukan saat ini. Metode manufaktur aditif yang kita kenal sekarang adalah 3D printing. Teknologi ini semula lebih banyak digunakan untuk keperluan prototyping, namun saat ini sudah mulai banyak digunakan juga untuk proses produksi, misalnya menyediakan komponen pengganti atau barang yang bernilai tinggi dengan volume rendah.
  9. Cyber Security
    Dengan meningkatnya konektivitas berbagai sistem dan perangkat, resiko ancaman dan serangan dunia maya juga akan meningkat. Karena itu sangat penting bagi perusahaan yang beroperasi di industri 4.0 untuk memiliki fokus pada keamanan siber dan memahami bagaimana mereka dapat melindungi data mereka dan meminimalkan resiko tersebut.

Meskipun Industri 4.0 dalam bentuk yang utuh mungkin masih belum akan kita lihat dalam beberapa tahun ke depan, namun teknologi yang mendasarinya sudah banyak digunakan.
Transformasi digital pun terus bergerak dengan cepat. Mobile internet dengan infrastrukturnya yang semakin memadai. Implementasi cloud computing yang semakin meluas dan biayanya semakin terjangkau. Semua perkembangan tersebut akan menjadi stimulus revolusi industri 4.0, yang akan membawa perubahan radikal di segala sektor industri. Pertanyaan akhirnya adalah : apakah kita siap?

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung