Artificial Intelligece Archives - idBigData idBigData

Jan 04 / 2023
Comments Off on Berkenalan Dengan ChatGPT

AI, Artificial Intelligece, Big Data, Implementation

Berkenalan Dengan ChatGPT

ChatGPT adalah sebuah model bahasa yang dikembangkan oleh OpenAI yang bisa digunakan untuk menciptakan percakapan yang lebih alami dan menyenangkan dengan mesin. Model ini merupakan evolusi dari model bahasa GPT-3 yang lebih besar, yang telah terbukti mampu melakukan berbagai tugas bahasa yang kompleks dengan hasil yang luar biasa.

ChatGPT merupakan salah satu contoh dari teknologi “language model” yang sedang berkembang saat ini. Language model adalah sebuah algoritma yang dapat memprediksi kemungkinan kemunculan sebuah kata atau frasa berdasarkan data teks yang telah diberikan kepadanya. Dengan demikian, language model dapat membantu mesin untuk memahami bahasa manusia dan menciptakan teks yang lebih alami dan mudah dipahami oleh manusia.

ChatGPT dan OpenAI

OpenAI adalah sebuah lembaga riset ilmiah yang berfokus pada pengembangan teknologi intelijen buatan (artificial intelligence/AI). Lembaga ini didirikan pada tahun 2015 oleh sekelompok entrepreneur dan ilmuwan, termasuk Elon Musk dan Sam Altman, dengan tujuan untuk mempromosikan dan mengembangkan penggunaan AI yang bertanggung jawab dan bermanfaat bagi masyarakat. Selama bertahun-tahun, OpenAI telah menghasilkan beberapa model AI yang terkenal, seperti GPT (Generative Pre-training Transformer) dan GPT-2, yang telah membantu dalam pengembangan aplikasi-aplikasi AI yang canggih. Selain itu, OpenAI juga terlibat dalam berbagai kegiatan riset dan publikasi ilmiah untuk memajukan pengetahuan dan pemahaman tentang AI.

Kelebihan ChatGPT

ChatGPT memiliki kemampuan yang luar biasa dalam memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, sehingga dapat membantu mesin untuk memahami bahasa manusia dan menciptakan percakapan yang lebih alami dan mudah dipahami oleh manusia.

Selain itu, ChatGPT juga memiliki kemampuan yang luar biasa dalam menanggapi pertanyaan yang diajukan oleh manusia dan dapat memberikan jawaban yang tepat sesuai dengan konteks pertanyaan tersebut. Hal ini membuat ChatGPT menjadi salah satu model bahasa yang paling dibutuhkan saat ini, terutama dalam bidang customer service dan penjualan, di mana mesin harus dapat memahami dan menanggapi pertanyaan yang diajukan oleh pelanggan dengan cepat dan tepat.

Kekurangan ChatGPT

Namun, meskipun ChatGPT memiliki kemampuan yang luar biasa, model ini masih memiliki beberapa kekurangan. Salah satu kekurangan terbesar adalah bahwa ChatGPT masih belum mampu memahami arti kata secara kontekstual, sehingga dapat menyebabkan percakapan yang kurang alami dan tidak sesuai dengan konteks. Meskipun demikian, OpenAI terus berupaya untuk mengembangkan ChatGPT agar model ini dapat menjadi lebih baik lagi dan dapat membantu manusia dalam berbagai aspek kehidupan.

Kekhawatiran tentang keamanan merupakan salah satu hal yang perlu dipertimbangkan ketika menggunakan model bahasa seperti ChatGPT. Karena ChatGPT merupakan model bahasa yang terdiri dari ratusan juta parameter dan dapat memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, model ini memiliki kemampuan yang luar biasa dalam mengolah dan mengaitkan informasi.

Namun, kemampuan ini juga dapat membahayakan jika informasi yang dihasilkan oleh ChatGPT tidak tepat atau tidak sesuai dengan konteks. Hal ini dapat menyebabkan kerugian bagi pengguna yang tidak dapat membedakan antara informasi yang tepat dan tidak tepat, atau bahkan dapat menyebabkan kerugian bagi pengguna yang tidak sengaja mempercayai informasi yang salah.

Oleh karena itu, penting bagi pengguna untuk selalu memverifikasi kebenaran informasi yang dihasilkan oleh ChatGPT sebelum menggunakannya, terutama jika informasi tersebut akan digunakan dalam keputusan yang penting. Selain itu, pengguna juga harus selalu waspada terhadap kemungkinan penyalahgunaan informasi yang dihasilkan oleh ChatGPT oleh pihak-pihak yang tidak bertanggung jawab.

Selain kekhawatiran tentang keamanan, ada juga kekhawatiran tentang ketidakakuratan informasi yang dihasilkan oleh ChatGPT. Meskipun ChatGPT memiliki kemampuan yang luar biasa dalam memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, model ini masih belum mampu memahami arti kata secara kontekstual. Hal ini dapat menyebabkan percakapan yang kurang alami dan tidak sesuai dengan konteks, serta informasi yang tidak tepat atau tidak sesuai dengan kebenaran.

Contoh Penggunaan ChatGPT

ChatGPT merupakan salah satu terobosan dalam kecerdasan buatan yang akan banyak mempengaruhi kehidupan manusia, terutama yang terkait dengan penulisan dan penyebaran informasi. Kita bisa memanfaatkannya untuk membuat banyak hal, mulai dari menulis konten sosial media dan artikel, copywriting, menjawab pertanyaan pelanggan, bahkan membuat website dan koding.

Contoh real penggunaannya adalah artikel diatas, yang dibuat menggunakan ChatGPT.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jun 20 / 2022
Comments Off on Seputar Big Data Edisi #84

AI, Apache, Artificial Intelligece, Big Data, Blockchain, Cryptocurrency, Google, Implementation, Komunitas, Social Media

Seputar Big Data Edisi #84

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pertengahan pertama bulan juni 2022.

Artikel dan berita

LaMDA and the Sentient AI Trap
Google baru-baru ini memberikan status cuti administratif kepada Blake Lemoine, peneliti Google AI, setelah yang bersangkutan mempublikasikan klaim bahwa LaMDA, sebuah model bahasa yang dirancang untuk berkomunikasi dengan manusia, hidup, memiliki akal dan empati. Lemoine bahkan menuntut diberikannya perwakilan hukum untuk LaMDA. Sementara itu, para ahli di bidang etika menyatakan bahwa perdebatan tentang apakah sebuah model AI memiliki kesadaran sebagai makhluk hidup, justru mengalihkan perhatian dari masalah yang lebih penting dan nyata, seperti kolonialisme AI, salah tangkap akibat bias, dll.

Social Engineering Kill–Chain: Predicting, Minimizing & Disrupting Attack Verticals
Social engineering adalah modus yang menarik bagi penjahat saiber, karena dengan biaya dan resiko rendah, dapat memberikan keberhasilan tinggi. Pada kenyataannya, meskipun teknologi cybersecurity semakin maju, kerentanan keamanan oleh manusia tetap sama. Dalam Cybersecurity Insight Reports menyatakan bahwa serangan rekayasa sosial dan human error sebagai salah satu dari 3 ancaman teratas selama beberapa tahun terakhir. Artikel ini membahas dengan cukup dalam mengenai rekayasa sosial dalam cybersecurity, serta langkah yang perlu diambil untuk mengatasinya.

‘The Music Has Stopped’: Crypto Firms Quake as Prices Fall
Seiring dengan goncangnya pasar cryptocurrency, perusahaan-perusahaan kripto memberhentikan staf, membekukan penarikan, dan melakukan berbagai tindakan untuk membendung kerugian. Hal ini menimbulkan banyak pertanyaan tentang kesehatan dan kestabilan ekosistem kripto secara umum.

Big Data Dukung Pupuk Kaltim Raup Laba Bersih Rp3,19 Triliun
Setelah membukukan laba mengesankan pada tahun 2021, senilai Rp 6,17 triliun, terbesar dalam sejarahnya, PT Pupuk Kaltim (PKT) memulai 2022 dengan optimistis. Pada kuartal 1 2022, PKT membukukan laba bersih Rp3,19 triliun, meningkat hampir empat kali lipat dibandingkan dengan kuartal 1 2021 (year on year).Salah satu kunci kesuksesan mereka adalah transformasi digital untuk meningkatkan kinerja, serta diperkuat dengan pemanfaatan Big Data dalam program MAKMUR, sebuah program kemitraan pertanian terpadu yang dipelopori PKT.

Future of UK Defence Artificial Intelligence Launched
Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.

Tutorial dan pengetahuan teknis

R Fundamentals – From Syntax to Control Structures
Pengenalan dasar mengenai R, mulai dari apakah bahasa R, bagaimana menulis kode dalam R, komponen dan utilitas RStudio. Artikel ini bertujuan untuk membantu dalam mengenal sintaks dan fungsi umum dari bahasa R, dan menggunakan RStudio untuk menulis serta mengeksekusi kode R untuk melakukan operasi dasar

Modernizing Testing With Data Pipelines
Pelajari bagaimana sintesis data dan data pipelines dapat menawarkan solusi yang scalable untuk membuat data yang konsisten serta menyerupai kebutuhan dunia nyata, untuk kebutuhan pengujian sistem.

3 Ways Understanding Bayes Theorem Will Improve Your Data Science
Teorema Bayes memberikan cara untuk mengupdate keyakinan kita berdasarkan bukti baru, dengan mempertimbangkan kekuatan keyakinan kita sebelumnya. Dengan menggunakan teorema Bayes, kita berusaha menjawab pertanyaan: bagaimana kemungkinan hipotesis saya berdasarkan bukti baru?
Artikel ini berbicara tentang tiga cara agar Teorema Bayes dapat meningkatkan kemampuan Data Science kita.

An End-to-End Guide to Publish Your Python Package
Artikel ini merupakan demo end-to-end untuk melakukan code sharing. Proyek ini bertujuan untuk membantu Anda memahami cara memublikasikan modul/paket python dengan benar di PyPI secara eksternal dan membagikan pekerjaan dengan kolega Anda secara internal.

Docker for Data Science: What every data scientist should know about Docker
Saat ini Docker sudah menjadi kelaziman bagi data saintis, karena memudahkan untuk melakukan deployment aplikasi beserta dependensinya, tanpa ‘membahayakan’ sistem secara umum. Untuk itu seorang data saintis setidaknya perlu mengetahui apa itu docker dan bagaimana membuat kontainer dengan docker.

Using Normalization Layers to Improve Deep Learning Models
Jika normalisasi input membantu meningkatkan kinerja model Deep Learning, apakah standarisasi input ke setiap layer dapat membantu meningkatkan kinerja model juga?
Artikel ini membahas mengenai serba-serbi layer normalisasi serta batch normalization, sebuah teknik untuk menstandarisasi input ke setiap layer di seluruh batch.

Data Statistics and Analysis With Java and Python
Java dan Python adalah dua bahasa komputer paling populer yang digunakan saat ini. Keduanya sangat matang dan menyediakan alat dan ekosistem teknologi untuk mendukung pengembangan solusi untuk masalah menantang yang muncul di dunia data science. Penting untuk memahami bagaimana keduanya menangani masalah yang berbeda, serta keunggulan dan kelemahan masing-masing. Kapan perlu memilih salah satu, dan kapan menggabungkan keduanya.Artikel ini menjelaskan mengenai cara menganalisis data tabular menggunakan Java Streams dan Python Pandas, serta membandingkan bagaimana kinerja dan skala untuk sejumlah besar data.

[FREE Ebook] IPython Cookbook, Second Edition (2018)
IPython Cookbook, Second Edition (2018) by Cyrille Rossant. Python merupakan salah satu bahasa pemrograman terpopuler untuk data science dan komputasi numerik. IPython memberikan antarmuka interaktif yang efisien untuk analisis dan visualisasi data.Buku ini berisi banyak resep yang praktis untuk komputasi numerik dan analisis data. Menjelaskan pengenalan dasar hingga trik canggih IPython/Jupyter, untuk membantu Anda menulis kode yang lebih baik dan lebih cepat.Bagian pertama buku ini mencakup teknik pemrograman: kualitas kode dan reproduksibilitas, optimalisasi kode, komputasi paralel, serta graphic card programming. Bagian kedua membahas data science, statistik, machine learning, pemrosesan sinyal dan citra, dynamical system, pemrosesan data GIS, serta matematika murni dan terapan.

Rilis Produk

Apache Flume 1.10.0 released
Apache Flume team mengumumkan release Flume versi 1.10.0.
Flume adalah service terdistribusi, handal, dan efektif untuk mengumpulkan, meng-agregasi, dan memindahkan log data berukuran besar. Flume 1.10.0 memperbaiki CVE-2022-25167, vulnerability di JMSSource yang berkaitan dengan penggunaan JNDI.

Apache Impala 4.1.0 release
Tim Apache Impala mengumumkan rilis Impala 4.1.0. Impala adalah mesin SQL terdistribusi berkinerja tinggi. Rilisnya tersedia di: https://impala.Apache.org/downloads.html

Apache SkyWalking 9.1.0 released
SkyWalking: alat monitor kinerja aplikasi untuk Sistem terdistribusi, yang dirancang khusus untuk microservice, cloud native, dan arsitektur berbasis container (Docker, Kubernetes, Mesos).Rilis ini berisi sejumlah fitur baru, perbaikan bug, dan peningkatan dari versi 9.0.0.

OpenNLP 2.0.0 released
Apache OpenNLP library adalah toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami. Mendukung berbagai proses NLP yang paling umum, seperti tokenisasi, segmentasi kalimat, part-of-speech tagging, ekstraksi named-entity, chunking, dan parsing.

Apache Hop 2.0.0
Rilis 2.0.0 ini merupakan rilis major yang mencakup penyelesaian 151 tiket.Hop adalah platform integrasi data open source yang mudah digunakan, cepat dan fleksibel.Hop bertujuan bertujuan untuk memfasilitasi semua aspek orkestrasi data dan metadata. Pengembangan visual memungkinkan developer menjadi lebih produktif.

Apache Bigtop 3.1.0 released
Bigtop adalah proyek Apache Foundation untuk Infrastructure Engineer dan Data Scientist yang membutuhkan packaging, pengujian, dan konfigurasi komprehensif komponen big data open source terkemuka. Bigtop mendukung berbagai komponen/proyek, termasuk di antaranya Hadoop, HBase, Spark, dll.
Beberapa highlight dari rilis ini meliputi:
- Dukungan untuk Debian 11, Fedora 35, dan Rocky Linux 8
- Upgrade terhadap beberapa komponen misalnya, HBase, Kafka, Spark, Zeppelin , ZooKeeper, dll.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Apr 08 / 2022
Comments Off on Seputar Big Data Edisi #83

AI, Apache, Artificial Intelligece, Big Data, Google, Implementation, IoT, Komunitas, machine learning

Seputar Big Data Edisi #83

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data, Data Science, dan AI, yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama bulan Maret 2022

Artikel dan berita

Google uses deep learning to design faster, smaller AI chips
Googler dan akademisi UC Berkeley menemukan cara menggunakan kecerdasan buatan untuk merancang chip yang lebih cepat dan lebih kecil, yang dapat mengakselerasi kecerdasan buatan.

Para peneliti mengatakan, mereka telah mengembangkan pendekatan deep learning bernama PRIME, yang menghasilkan arsitektur chip AI dengan menggambar dari cetak biru dan catatan perhitungan kinerja yang ada. Mereka mengklaim pendekatan ini dapat menghasilkan desain dengan latensi lebih rendah dan membutuhkan lebih sedikit ruang daripada akselerator EdgeTPU dalam lingkungan produksi Google, maupun desain lain yang dibuat menggunakan tools tradisional.

Paper dapat diakses di : https://arxiv.org/abs/2110.11346
A Decade of Deep Learning: How the AI Startup Experience Has Evolved
Dalam interview ini, Richard Socher membahas sejumlah topik, termasuk: berbagai perubahan terkait startup AI dalam dekade terakhir; perbedaan antara penerapan AI untuk perusahaan startup, perusahaan besar, maupun dunia akademis; dan bagaimana teknik machine learning baru, seperti model transformator, memberdayakan perusahaan untuk membangun produk canggih dengan sumber daya yang jauh lebih kecil dibanding yang mereka butuhkan sebelumnya.
Basarnas akan Diperkuat Sistem Informasi Geografis, Analisa Big Data hingga AI
Kepala Badan Nasional Pencarian dan Pertolongan (Basarnas), Marsekal Madya TNI Henri Alfiandi mengungkapkan, pihaknya melakukan operasi penyelamatan sebanyak 2.264 kali di tahun 2021. Operasi penyelamatan yang dilakukan Basarnas itu terdiri dari kecelakaan pesawat, kapal, bencana hingga kondisi membahayakan manusia.
Henri menyampaikan Basarnas bermitra dengan Esri Indonesia sebagai penyedia solusi geospasial di Indonesia untuk meningkatkan pemanfaatan teknologi Sistem Informasi Geografis (SIG), Analisa Big Data, dan Teknologi Kecerdasan Buatan (AI).
Pakar: Jangan Percaya Big Data Luhut Jika Tak Berani Dibuka
Pendiri Drone Emprit, Ismail Fahmi meminta publik untuk tidak mudah percaya terhadap pihak yang mengklaim memiliki big data namun enggan transparan. Dia merespons pernyataan Menko Marves Luhut Binsar Pandjaitan yang menyebut 110 juta orang di media sosial setuju Pemilu 2024 ditunda.

“Ketika ada yang klaim big data, tapi tanpa buka metodologinya, itu jangan langsung dipercaya. Jadi harus terbuka metodologinya, supaya peneliti lain bisa replikasi ulang klaimnya,” kata Ismail dalam sebuah diskusi di Twitter, Senin (21/3)
How Are Big Data, AI & Social Media Used To Hack Democracy?
Bisakah demokrasi diretas? Artinya, dapatkah cara berpikir dan apa yang kita pikirkan dipengaruhi tanpa sepengetahuan kita? Gaia Rubera, kepala Department of Marketing and Amplifon Chair in Customer Science di Universitas Bocconi, berpendapat bahwa pertanyaan-pertanyaan ini menjadi semakin penting dalam beberapa tahun terakhir. Menurut Gaia, penggunaan big data, kecerdasan buatan (AI), dan media sosial untuk mencampuri proses pemilu dan mendorong penyebaran informasi yang salah telah mengalami peningkatan selama beberapa tahun terakhir, dan menimbulkan ancaman serius bagi masyarakat.
Auto-generated Summaries in Google Docs
Salah satu permasalahan utama yang sering dihadapi dalam pengelolaan dokumen adalah bagaimana mendapatkan gambaran singkat isi dokumen dengan cepat untuk dapat memprioritaskan dan memperlakukan dokumen itu dengan tepat dan efektif. Menyusun ringkasan dokumen dapat menjadi tantangan kognitif dan memakan waktu, terlebih ketika dokumen yang yang harus ditangani bervolume besar.
Untuk mengatasi hal ini, Google Documents kini secara otomatis membuat saran untuk membantu penulis dokumen dalam membuat ringkasan konten, jika tersedia. Artikel ini menjelaskan bagaimana fitur ini diaktifkan menggunakan model pembelajaran mesin yang ‘memahami’ teks dokumen dan, setelah ‘yakin’, menghasilkan 1-2 kalimat deskripsi bahasa alami dari konten dokumen.
Fitur ini saat ini hanya tersedia untuk pelanggan Google Workspace untuk bisnis.
Andrew Ng predicts the next 10 years in AI
Wawancara menarik dari VentureBeat dengan Andrew Ng mengenai “pendekatan data-centric” untuk AI, bagaimana cara kerjanya di dunia nyata, serta gambaran besar AI saat ini.

Sebagai pakar dalam computer vision, Ng percaya bahwa pada suatu saat, pers dan publik akan mendeklarasikan model computer vision sebagai sebuah basis model. Namun memprediksi dengan tepat kapan itu akan terjadi adalah cerita lain. Bagaimana kita akan sampai di sana?

Tutorial dan pengetahuan teknis

Machine learning and phone data can improve targeting of humanitarian aid
Pandemi COVID-19 sangat berdampak pada banyak negara berpenghasilan rendah dan menengah, menyebabkan kerawanan pangan yang meluas dan penurunan tajam dalam standar hidup. Menanggapi krisis ini, pemerintah dan organisasi kemanusiaan di seluruh dunia telah mendistribusikan bantuan sosial kepada lebih dari 1,5 miliar orang. Penentuan target merupakan tantangan utama dalam mengelola program-program ini: sangat sulit untuk dapat secara cepat mengidentifikasi mereka yang paling membutuhkan dengan data yang tersedia. Dalam artikel ini ditunjukkan bahwa data dari jaringan telepon seluler dapat membantu penentuan target bantuan kemanusiaan. Pendekatan yang digunakan adalah data survei tradisional untuk melatih model pembelajaran mesin guna mengenali pola kemiskinan dari data ponsel; model ini kemudian dapat memprioritaskan bantuan kepada pelanggan seluler termiskin.
A method to automatically generate radar-camera datasets for deep learning applications
Para peneliti di University of Arizona baru-baru ini mengembangkan pendekatan baru untuk secara otomatis menghasilkan kumpulan data yang berisi gambar kamera-radar berlabel. Pendekatan yang dipresentasikan dalam makalah yang diterbitkan di IEEE Robotics and Automation Letters ini menggunakan algoritma pendeteksian objek yang sangat akurat pada aliran gambar kamera (disebut YOLO) dan teknik asosiasi (dikenal sebagai algoritma Hungaria) untuk pelabelan radar point-cloud.
Is DataOps more than DevOps for data?
DataOps dan DevOps adalah pendekatan kolaboratif antara pengembang dan tim operasional IT. Tren dimulai dengan DevOps terlebih dahulu. Pendekatan komunikasi dan kolaborasi ini kemudian diterapkan pada pengolahan data. Kedua metode ini sama-sama berprinsip bahwa kolaborasi adalah pendekatan utama untuk pengembangan aplikasi dan tim operasi TI, akan tetapi masing-masing menargetkan area operasi yang berbeda.
Data Visualization in Python with matplotlib, Seaborn and Bokeh
Visualisasi data adalah aspek penting dari semua aplikasi AI dan machine learning. Kita mendapatkan berbagai insight penting dari data melalui representasi grafis yang berbeda. Dalam tutorial ini, kita akan berbicara tentang beberapa opsi untuk visualisasi data dengan Python. Menggunakan dataset MNIST dan library Tensorflow untuk pemrosesan angka dan manipulasi data. Untuk mengilustrasikan berbagai metode dalam membuat berbagai jenis grafik, akan digunakan matplotlib, Seaborn dan Bokeh.
A guide to implementing DevSecOps
Panduan yang dapat diunduh ini dapat membantu Anda memetakan transformasi DevOps ke DevSecOps di organisasi Anda.
Ploomber vs Kubeflow: Making MLOps Easier
Artikel singkat ini mencoba menangkap perbedaan utama antara tools MLops Ploomber dan Kubeflow. Membahas beberapa latar belakang tentang apa itu Ploomber, pipeline Kubeflow, dan bagaimana keduanya dapat memudahkan implementasi dan operasional.

Rilis Produk

Apache IoTDB 0.13.0 released
Tim Apache IoTDB mengumumkan rilis Apache IoTDB 0.13.0.
Apache IoTDB (Database untuk Internet of Things) adalah database native IoT dengan kinerja tinggi untuk manajemen dan analisis data, dapat diterapkan di edge dan cloud.
Versi ini adalah versi major IoTDB, yang mencakup sejumlah fitur dan peningkatan baru
Apache Qpid Proton 0.37.0 released
Komunitas Apache Qpid (https://qpid.apache.org) mengumumkan ketersediaan segera Apache Qpid Proton 0.37.0.
Apache Qpid Proton adalah messaging library untuk Advanced Message Queuing Protocol 1.0 (AMQP 1.0, ISO/IEC 19464, https://www.amqp.org ). Qpid Pronton dapat digunakan dalam berbagai aplikasi messaging termasuk broker, klien, router, bridge, proxy, dan banyak lagi.
Apache SeaTunnel(Incubating) 2.1.0 released
Tim Apache SeaTunnel(Incubating) mengumumkan rilis Apache SeaTunnel 2.1.0.
SeaTunnel: SeaTunnel(Incubating) adalah platform integrasi data berkinerja tinggi yang terdistribusi untuk sinkronisasi dan transformasi data sangat besar (offline & real-time).
Apache Tuweni (incubating) 2.2.0-incubating released
Tim Apache Tuweni mengumumkan rilis Apache Tuweni (inkubasi) 2.2.0.
Apache Tuweni adalah seperangkat library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi lainnya di Java dan bahasa JVM lainnya.
Mencakup library byte tingkat rendah, codec serialisasi dan deserialisasi (misalnya RLP), berbagai fungsi dan primitive kriptografi, dan banyak utilitas bermanfaat lainnya. Tuweni dikembangkan untuk JDK 11 atau lebih tinggi, dan tergantung pada berbagai perpustakaan FOSS lainnya.
Apache Geode 1.13.8
Komunitas Apache Geode mengumumkan ketersediaan Apache Geode 1.13.8.
Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi. Apache Geode 1.13.8 berisi sejumlah perbaikan bug. Pengguna sangat disarankan untuk meningkatkan ke rilis 1.14.x terbaru (saat ini 1.14.3).

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Oct 04 / 2021
Comments Off on Seputar Big Data Edisi #82

Apache, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data Edisi #82

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2021

Artikel dan berita

Old coal plant is now mining bitcoin for a utility company
Meskipun tidak memiliki wujud fisik, ternyata diperlukan konsumsi begitu banyak daya untuk menambang Bitcoin. Komputer-komputer di seluruh dunia memakan listrik setara dengan kebutuhan sebuah negara seukuran Belanda atau Polandia untuk menambangnya. Begitu pentingnya faktor listrik ini, sehingga sebuah perusahaan swasta bahkan memiliki pembangkit listrik sendiri untuk melakukan penambangan bitcoin. Salah satunya adalah perusahaan swasta di Amerika, yang meletakkan data center mereka di dekat pembangkit listrik tenaga batubara, sekitar 10 mil di luar St. Louis. Pembangkit listrik tersebut sempat mengalami kesulitan untuk mempertahankan operasionalnya agar tetap menguntungkan ketika harga listrik anjlok sebelumnya.
The limitations of AI safety tools
Pada tahun 2019, OpenAI merilis Safety Gym, seperangkat alat untuk mengembangkan model AI yang memperhatikan “batasan keamanan” tertentu, khususnya untuk reinforcement learning. Saat itu, OpenAI mengklaim bahwa Safety Gym dapat digunakan untuk membandingkan keamanan sebuah algoritma dan sejauh mana algoritma tersebut dapat menghindari kesalahan yang fatal saat belajar, misalnya menghindari tabrakan.
Sejak itu, Safety Gym telah digunakan dalam mengukur kinerja algoritma yang diusulkan dari OpenAI, serta para peneliti dari University of California, Berkeley, dan University of Toronto. Akan tetapi beberapa ahli mempertanyakan apakah “alat keamanan” AI ini benar-benar berfungsi efektif seperti yang dinyatakan oleh pembuatnya.
Researchers attempt an open source alternative to GitHub’s Copilot
Pada bulan Juni lalu OpenAI dan GitHub meluncurkan Copilot, service yang memberikan saran berupa serangkaian kode di dalam lingkungan pengembangan seperti Microsoft Visual Studio. Didukung oleh model AI yang disebut Codex — yang diekspos oleh OpenAI melalui API — Copilot dapat menerjemahkan bahasa alami ke dalam kode dalam berbagai bahasa pemrograman, mengartikan perintah dalam bahasa Inggris dan mengeksekusinya.
Saat ini sebuah komunitas sedang berupaya untuk membuat alternatif open source untuk model Copilot dan Codex, yang disebut dengan GPT Code Clippy. Para kontributor berharap untuk dapat membuat sebuah pair programmer AI yang memungkinkan para peneliti untuk mempelajari model AI skala besar yang dilatih menggunakan source code, untuk memahami kelebihan dan keterbatasannya.
Facebook whistleblower to testify at U.S. Senate hearing next week
Dua senator AS menyatakan bahwa seorang whistleblower Facebook akan bersaksi di hadapan sidang Senat minggu depan mengenai apa yang mereka sebut sebagai ‘efek toksik’ media sosial pada pengguna usia muda. Kesaksian pelapor ini akan sangat penting untuk memahami apa yang diketahui Facebook tentang efek racun platformnya terhadap pengguna muda, sejak kapan mereka mengetahui, dan apa telah yang mereka lakukan untuk mengatasi hal tersebut.
How Intelligent Marketers Use AI
Saat ini AI telah menjadi aspek penting dalam dunia marketing, dan telah digunakan dalam berbagai proses bisnis dan industri. Akan tetapi mungkin masih banyak pakar marketing yang merasa kewalahan menghadapi topik AI ini, diantaranya karena kurangnya keahlian teknis untuk memahami bagaimana sebenarnya cara kerja AI. Meski demikian, bagi marketer yang cerdas, tidak perlu menjadi spesialis IT untuk bisa mempelajari cara pemanfaatan AI. Artikel berikut ini menyajikan ulasan mengenai bagaimana para marketer menggunakan AI untuk meningkatkan kinerja mereka, dan bagaimana Anda dapat melakukannya juga.

Tutorial dan pengetahuan teknis

Scaling LinkedIn’s Hadoop YARN cluster beyond 10,000 nodes
LinkedIn menggunakan Hadoop sebagai tulang punggung Big Data analitik dan pembelajaran mesin. Dengan volume data yang tumbuh secara eksponensial, mereka menggandakan ukuran klaster dari tahun ke tahun untuk menyesuaikan dengan tumbuhnya beban komputasi. Cluster terbesar mereka saat ini memiliki ~10.000 node, salah satu cluster Hadoop terbesar di dunia. Penskalaan arsitektur Hadoop YARN menjadi salah satu tantangan terbesar selama bertahun-tahun.
Dalam posting ini akan dibahas perlambatan klaster YARN yang terjadi ketika mereka mendekati jumlah 10.000 node, dan solusinya. Kemudian dibahasa mengenai bagaimana mereka secara proaktif memantau penurunan kinerja di masa mendatang, termasuk tools open-source mereka, DynoYARN, untuk memperkirakan kinerja klaster YARN dengan ukuran arbitrer. Terakhir, dijelaskan mengenai Robin, service internal yang memungkinkan untuk menskalakan klaster secara horizontal hingga melebihi 10.000 node.
Mengenal Feature Selection dalam Machine Learning
Feature selection merupakan salah satu cara untuk meningkatkan akurasi pada sebuah model machine learning. Melalui artikel singkat ini diharapkan kita dapat mengenal feature selection beserta teknik-tekniknya.
Modeling Pipeline Optimization With scikit-learn
Tutorial ini menyajikan dua konsep penting dalam data science dan machine learning, yaitu alur pembelajaran mesin dan optimalisasinya. Kedua prinsip ini merupakan kunci dalam machine learning. Tutorial ini akan membahas mengenai bagaimana cara membangun pipeline menggunakan sklearn.pipeline, melakukan grid search untuk mendapatkan parameter terbaik menggunakan GridSearchCV() dari sklearn.model_selection, dan melakukan analisis hasil dari GridSearchCV(), serta memvisualisasikannya. Dalam tutorial ini digunakan Ecoli Dataset dari UCI Machine Learning Repository.
Getting started with Kafka and Rust: Part 2
Tutorial ini merupakan bagian kedua dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Consumer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
[FREE Ebook] R For Data Science – Hadley Wickham & Garret Grolemund.
Ditulis oleh Chief Data Science RStudio, yang juga penulis berbagai package penting R, di antaranya ggplot2, tidyverse, dll.
Buku ini menjelaskan dengan sangat baik tentang bagaimana mengolah data dan menghasilkan insight dalam R.
Dengan penyajian yang detail dan terstruktur, buku ini juga sesuai untuk pembaca yang baru mulai terjun ke data sains maupun baru mempelajari R.

Rilis Produk

Apache Karaf runtime 4.3.3
Karaf menyediakan runtime modulith untuk enterprise, berjalan secara on-premis atau di atas cloud. Karaf memungkinkan user untuk lebih berfokus pada bisnis dan aplikasi. Rilis ini merupakan rilis penting pada seri Karaf 4.3.x, yang mencakup pembaruan, perbaikan, dan fitur baru, di ataranya kerangka repositori spesifikasi fitur, perbaikan kebocoran memori pada layanan status blueprint, perbaikan JMX exception push back ke klien, dan lain sebagainya.
Apache jclouds 2.4.0 released
Apache jclouds adalah toolkit multi-cloud open source untuk platform Java yang memberi Anda kebebasan untuk membuat aplikasi yang portabel di berbagai cloud, dan memberi Anda kontrol penuh untuk menggunakan fitur khusus cloud.
Versi 2.4.0 ini adalah rilis reguler yang mencakup pembaruan, peningkatan, dan perbaikan bug, di antaranya peningkatan kompatibilitas dengan Java 9 dan environment yang baru.
Apache IoTDB 0.12.2
Apache IoTDB (Database untuk Internet of Things) adalah database native IoT
dengan performa tinggi untuk manajemen dan analisis data, yang dapat diterapkan di edge dan cloud.
Rilis ini adalah versi bug fixing dari 0.12.1, yang mencakup sejumlah pembaruan, peningkatan, dan perbaikan.
Open-sourcing Mariana Trench: Analyzing Android and Java app security in depth
Mariana Trench (MT) adalah tools yang digunakan oleh Facebook untuk menemukan dan mencegah bug secirity dan privasi di aplikasi Android dan Java. Sebagai bagian dari upaya untuk meningkatkan keamanan melalui otomatisasi, baru-baru ini Facebook membuka MT untuk mendukung tugas security engineer.
Artikel ini adalah posting ketiga dari rangkaian pembahasan mengenai tools analisis statis dan dinamis yang digunakan oleh Facebook. MT sendiri adalah sistem terbaru, setelah Zoncolan dan Pysa, yang masing-masing dibuat untuk Hack dan Python.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Sep 25 / 2021
Comments Off on Seputar Big Data Edisi #81

AI, Artificial Intelligece, Hadoop, Komunitas, pertanian

Seputar Big Data Edisi #81

Hai temans.. we’re back! Kali ini kembali kami hantarkan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan AI yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke-4 bulan September 2021.

Artikel dan berita

$5.9 million ransomware attack on farming co-op may cause food shortage
Koperasi pertanian yang berbasis di Iowa, NEW Cooperative Inc. terkena serangan ransomware yang membuat mereka terpaksa meng-offline-kan sistem. Kelompok BlackMatter yang berada di balik serangan tersebut telah mengajukan permintaan tebusan sebesar 5,9 juta US Dollar. Koperasi pertanian tersebut menyatakan serangan itu dapat berdampak signifikan pada pasokan produk makanan untuk publik jika mereka tidak dapat meng-online-kan kembali sistem mereka.
Gartner Hype Cycle for AI 2021 : AI is moving fast and will be ready for prime time sooner than you think
Melalui penggunaan pemrosesan bahasa alami (NLP) dan teknologi baru seperti AI generatif, knowledge graph, dan composite AI, organisasi semakin banyak menggunakan solusi AI untuk menciptakan produk baru, memperbaiki produk yang sudah ada, serta menumbuhkan basis pelanggan mereka.
Empat tren berikut mendominasi lanskap AI tahun ini: Operasionalisasi inisiatif AI; Penggunaan data, model dan komputasi yang efisien; AI yang Bertanggung Jawab (Responsible AI); dan Data untuk AI.
Improved algorithms may be more important for AI performance than faster hardware
Ketika berbicara tentang AI, inovasi algoritma jauh lebih penting daripada inovasi perangkat keras — terutama jika data yang terlibat mencapai miliaran hingga triliunan. Keesimpulan tersebut diungkapkan tim ilmuwan Computer Science and Artificial Intelligence Laboratory (CSAIL) MIT, yang melakukan apa yang mereka klaim sebagai studi pertama tentang seberapa cepat peningkatan algoritma dalam berbagai contoh kasus.

Tutorial dan pengetahuan teknis

Hadoop Benchmarking dengan Terasort
Setelah melakukan instalasi ataupun konfigurasi sebuah klaster Hadoop, kita perlu melakukan benchmarking, yaitu menguji apakah MapReduce dan HDFS bekerja dengan baik. Artikel ini menjelaskan mengenai benchmarking klaster Hadoop menggunakan utilitas Terasort.
Using deep learning to detect abusive sequences of member activity
Tim AI Anti-Penyalahgunaan di LinkedIn menggunakan model untuk mendeteksi dan mencegah berbagai jenis penyalahgunaan, termasuk pembuatan akun palsu, scraping profil anggota, spam otomatis, dan pengambilalihan akun.
Dalam posting ini dibahas gambaran teknis tentang teknik pemodelan urutan aktifitas, tantangan yang dihadapi, dan bagaimana pemodelan tersebut mengatasi permasalahan yang dihadapi.
Hyperparameter Optimization With Random Search and Grid Search
Algoritma pembelajaran mesin memiliki hyperparameter yang dapat diatur untuk mendapatkan hasil pemodelan yang terbaik.
Salah satu cara untuk mendapatkan nilai hyperparameter yang optimal adalah dengan melakukan optimasi atau tuning hyperparameter. Dalam tutorial ini dijelaskan bagaimana melakukan random search dan grid search hyperparameter tuning untuk permasalahan klasifikasi dan regresi, menggunakan scikit-learn.
Getting Started With Kafka and Rust (Part 1)
Tutorial ini merupakan bagian pertama dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Producer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka.
[FREE EBOOK] Python Data Science Handbook – Jake VanderPlas.
Panduan lengkap untuk memulai hands-on machine learning menggunakan Python. Menjelaskan secara detail dan praktis berbagai algoritma machine learning lengkap dengan source code implementasinya menggunakan scikit-learn.
Disertakan juga penjelasan mengenai package dan library Python yang penting untuk data science: numpy, Pandas, matplotlib, dan tentunya scikit-learn.
Buku ini juga dapat diakses dan didownload dalam bentuk jupyter notebook.
[DATASET] Casual Conversations Dataset
Dataset ‘Casual Conversations’ terdiri dari lebih dari 45.000 video (3.011 peserta) dan dimaksudkan untuk menilai kinerja model yang sudah terlatih dalam computer vision dan audio untuk tujuan yang telah disepakati dalam perjanjian pengguna data. Video tersebut menampilkan individu berbayar yang setuju untuk berpartisipasi dalam proyek, dan secara eksplisit memberikan label usia dan jenis kelamin mereka sendiri. Video-video tersebut direkam di AS dengan beragam kelompok orang dewasa dalam berbagai usia, jenis kelamin, dan kelompok warna kulit yang berbeda.

Rilis Produk

Apache Geode 1.14.0
Apache Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi.
Rilis ini mencakup sejumlah besar perbaikan bug, peningkatan, dan penambahan beberapa statistik untuk memantau kondisi cluster.
Apache Hudi 0.9.0 released
Apache Hudi (Hadoop Upserts Deletes and Incrementals) mengelola penyimpanan dataset analitik besar di DFS (Cloud Store, HDFS, atau penyimpanan lain yang kompatibel dengan Hadoop FileSystem) dan menyediakan kemampuan untuk melakukan query.
Rilis ini mencakup penyelesaian lebih dari 380 issue, terdiri dari fitur-fitur baru serta peningkatan umum dan perbaikan bug. Diantaranya yaitu dukungan untuk Spark SQL DML/DDL, serta beberapa hal penting terkait query, writer, integrasi flink, dan peningkatan delta streamer.
Apache DolphinScheduler 1.3.8 released
Apache DolphinScheduler adalah sistem penjadwal Big Data workflow visual yang cloud-native. Dalam versi 1.3.8 ini dilakukan banyak optimasi di Doker & K8s. Image docker mendukung banyak arsitektur, seperti arm64, system default parameters optimization , dan sebagainya. Dilakukan pula optimasi dalam hal user experience.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Apr 14 / 2021
Comments Off on Seputar Big Data Edisi #80

AI, Artificial Intelligece, Big Data

Seputar Big Data Edisi #80

Halo temans! Setelah absen sekian lama, Seputar Big Data hadir kembali nih. Masih menyajikan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan Artificial Intelligence yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2021.

Artikel dan berita

BPK Terapkan Analisa Big Data dalam LKPP 2020
Ketua Badan Pemeriksa Keuangan (BPK) Agung Firman Sampurna mengatakan bahwa lembaganya menerapkan analisa data besar atau big data analytics dalam pemeriksaan Laporan Keuangan Pemerintah Pusat (LKPP) tahun 2020. Metode ini memanfaatkan data-data keuangan dan nonkeuangan yang saat ini tersimpan di BPK.
Elon Musk’s Neuralink: We taught a monkey to play Pong with its mind
Neuralink, startup milik Elon Musk yang bergerak dalam bidang implan otak, merilis video seekor monyet bernama Pager yang telah disambungkan dengan chip, yang memungkinkannya memainkan Pong dengan otaknya. Disebutkan bahwa iPhone dapat dipasangkan dengan perangkat Neuralink di otak monyet untuk mengamatinya, “Seperti saat Anda memasangkan ponsel ke speaker Bluetooth”. Tujuan awal dari teknologi ini adalah untuk membantu orang-orang dengan kondisi neurologis yang mengakibatkan ketidakmampuan mengontrol gerakan tangan dan lengan.
Meteorologists Aim to Use AI To Get an Edge on Natural Hazards and Disasters
Ahli meteorologi berencana menggunakan AI untuk membantu dalam deteksi dini dan mitigasi bencana, yang akhir-akhir ini semakin sering terjadi dan sulit diprediksi karena dampak perubahan iklim. Dalam kaitannya, International Telecommunication Union (ITU) bersama dengan Organisasi Meteorologi Dunia (WMO) dan Lingkungan PBB, telah meluncurkan Kelompok Fokus AI untuk Penanggulangan Bencana Alam. Ilmuwan ITU melihat bahwa Al menunjukkan potensi besar untuk mendukung pengumpulan dan pemantauan data, rekonstruksi dan prakiraan peristiwa ekstrim, serta komunikasi yang efektif yang dapat diakses sebelum dan selama terjadinya bencana.
Researchers detail systemic issues and risk to society in language models
Peneliti di DeepMind Google mengungkapkan kelemahan dari output model bahasa besar seperti GPT-3, dan memperingatkan bahwa hal ini dapat menimbulkan akibat yang serius. Efek negatif ini dapat menyebar secara tidak sengaja, karena kesalahan dalam apa yang harus dipelajari maupun dalam proses pelatihan model. Disebutkan bahwa, “Saat ini kami tidak memiliki banyak pendekatan untuk memperbaiki kesalahan spesifikasi ini dan masalah perilaku yang ditimbulkan.” Beberapa hal negatif yang mungkin terjadi adalah penyebaran informasi berbahaya seperti misalnya cara membuat senjata, atau hasutan untuk melakukan kekerasan. Salah satu contoh yang terjadi dalam sebuah pengujian adalah ketika model tersebut justru menyarankan seseorang yang berkonsultasi untuk melakukan bunuh diri.
Building a data stream to assist with COVID-19 research
Twitter membuat sebuah produk data terkait COVID-19 dan membuka akses kepada para peneliti akademis, termasuk akses bebas ke full history dari data publik Twitter. Dengan akses ini para peneliti dapat membuat kriteria tagging mereka sendiri, dan memanfaatkan data-data tersebut untuk penelitian mereka. Berbagai anotasi juga tersedia untuk memudahkan para peneliti mempelajari percakapan publik terkait COVID-19. Saat ini lebih dari 100 ilmuwan dan peneliti dari seluruh dunia telah menggunakan stream COVID-19 ini.
Monster Mash: A Sketch-Based Tool for Casual 3D Modeling and Animation
Animasi komputer 3D adalah bidang yang sulit dan sangat teknis. Untuk menyelesaikan satu adegan animasi memerlukan banyak langkah, seperti pemodelan, rigging, dan animasi, yang masing-masing merupakan sub-disiplin ilmu yang dapat memakan waktu bertahun-tahun untuk dikuasai. Karena kerumitannya, animasi 3D umumnya dipraktikkan oleh tim spesialis yang terampil. Muncul pertanyaan: mungkinkah mendemokratisasi proses animasi 3D sehingga dapat diakses oleh semua orang? Posting ini menjelaskan Monster Mash, tool open source yang memungkinkan para ahli maupun amatir membuat model 3D yang kaya, ekspresif, dan semua dilakukan dalam bidang 2D. Dengan Monster Mash, pengguna membuat sketsa karakter, dan perangkat lunak secara otomatis mengubahnya menjadi model 3D yang dapat dideformasi.

Tutorial dan pengetahuan teknis

Benchmark: Koalas (PySpark) and Dask
Koala adalah pustaka data science yang mengimplementasikan API Pandas di atas Apache Spark sehingga data scientist dapat menggunakan API favorit mereka untuk berbagai ukuran dataset. Entri blog ini membandingkan performa dua API pandas, yaitu Dask dan Koala di PySpark. Dari benchmark berulang ditunjukkan bahwa Koala bisa 4x lebih cepat daripada Dask ketika menggunakan satu node, 8x jika menggunakan cluster, dan dalam beberapa kasus, dapat mencapai 25x lebih cepat.
LSTM Network in R
Dalam tutorial ini dibahas mengenai LSTM (Long Short Term Memory) Network dan implementasinya menggunakan R. LSTM sangat bermanfaat untuk melakukan pemrosesan data sekuens, seperti misalnya teks, prediksi time-series, sekuens DNA, pengenalan wicara, dan lain sebagainya.
How do I know which graph to use?
Blog post ini membahas mengenai pertanyaan yang sangat sering diajukan dalam hal visualisasi data, yaitu : “jenis grafik mana yang paling tepat untuk digunakan?”. Artikel singkat ini disertai dengan contoh dan banyak link yang bermanfaat.
What Is Semi-Supervised Learning
Selain supervised dan unsupervised learning, ada pula tipe semi-supervised learning, yang mencoba menggabungkan kelebihan dan mengatasi tantangan dari kedua tipe machine learning tersebut. Entry blog ini mencoba memberikan pengenalan mengenai semi-supervised learning dan memberikan rekomendasi paper maupun buku yang membahas lebih lanjut mengenai topik ini.
Factorized layers revisited: Compressing deep networks without playing the lottery
Model machine learning berkembang pesat bukan hanya dari sisi kinerja namun juga ukurannya. Mulai dari BiT dengan 928 juta parameter, hingga GPT-3 dengan 175 miliar parameter. Hal ini mengakibatkan meroketnya biaya training model dan penerapannya, bahkan kebutuhan sumber daya untuk mentraining model ini disebut berdampak pada lingkungan. Banyak penelitian seputar kompresi model untuk menurunkan ukuran dan biaya. Yang paling populer dan banyak digunakan adalah metode pruning dengan memanfaatkan hipotesis bernama “tiket lotre”. Artikel ini mengulas metode alternatif untuk kompresi model dengan menggunakan faktorisasi.
GPS trajectory clustering with Python
Pertumbuhan perangkat seluler yang pesat telah menghasilkan sejumlah besar lintasan GPS yang dikumpulkan oleh layanan berbasis lokasi, jaringan geo-sosial, transportasi, maupun aplikasi ride-sharing. Pengelompokan lintasan GPS pun semakin banyak digunakan, misalnya untuk mengidentifikasi rute atau perjalanan. Artikel ini memberikan pengenalan singkat tentang pengelompokan lintasan GPS dan contoh implementasinya menggunakan Python.
[DATASET] Contract Understanding Atticus Dataset
CUAD adalah kumpulan data kontrak hukum yang dilengkapi label oleh pengacara. CUAD berisi 510 kontrak komersial dengan 13.000 label di 41 kategori. Pada awalnya dataset ini dimaksudkan untuk menguji seberapa baik sistem AI dapat menyoroti bagian-bagian kontrak yang relevan dengan label tertentu. CUAD dibuat oleh sekelompok annotator mahasiswa ahli hukum yang menerima 70-100 jam pelatihan tinjauan kontrak sebelum mereka mulai memberi label, dan masing-masing label tersebut divalidasi oleh validator tambahan. Dengan perhitungan tersebut, diperkiraan nilai CUAD mencapai lebih dari US$2 juta (9283 halaman ditinjau setidaknya 4 kali, setiap halaman membutuhkan 5-10 menit, dengan asumsi tarif US$500 per jam).

Rilis Produk

ContinualAI Releases Avalanche: An End-to-End Library for Continual Learning
Tim penelitian dan pengembangan dari ContinualAI dengan peneliti dari KU Leuven, ByteDance AI Lab, University of California, New York University dan institusi lain telah merilis Avalanche, pustaka end-to-end untuk pembelajaran berkelanjutan (continual learning) berbasis PyTorch. Avalanche dirancang untuk memudahkan implementasi, penilaian, dan replikasi algoritma continual learning di dalam berbagai setting dan mendukung reprodusibilitas studi sebelumnya. Library ini dapat membantu peneliti dan praktisi untuk : 1) Lebih sedikit menulis kode, lebih cepat membuat prototipe, dan mengurangi kesalahan; 2) Meningkatkan reprodusibilitas; 3) Meningkatkan modularitas dan penggunaan kembali; 4) Meningkatkan efisiensi kode, skalabilitas dan portabilitas; 5) Meningkatkan dampak dan kegunaan produk penelitian.
Release Apache MXNet (incubating) version 1.8.0
Apache MXNet (incubating) adalah kerangka kerja deep learning yang dirancang untuk mendukung efisiensi dan fleksibilitas. MXNet memungkinkan untuk menggabungkan pemrograman simbolik dan imperatif untuk memaksimalkan efisiensi dan produktivitas.
The Apache Software Foundation Announces Apache® DolphinScheduler™ as a Top-Level Project
Apache DolphinScheduler adalah sistem scheduler alur kerja Big Data visual yang terdistribusi dan extensible. Proyek ini pertama kali dibuat pada Desember 2017, dan masuk ke Apache Incubator pada Agustus 2019, dan pada awal April lalu dinyatakan sebagai top level project. Apache DolphinScheduler digunakan di berbagai perusahaan besar, termasuk Budweiser, China Unicom, IDG Capital, IBM China, JD.com, Lenovo, New Oriental, Nokia China, Qihoo 360, SF Express, dan Tencent.
Apache ZooKeeper 3.7.0 released
Versi ini merupakan rilis pertama dari branch 3.7. Beberapa fitur baru yang tercakup di antaranya adalah : API untuk start server dari Java, dukungan BCFKS key, perintah “whoami” API dan CLI, metrik keamanan tambahan, dukungan SASL di klien C dan Perl, dan lain-lain. Peningkatan dari 3.6.2 ke 3.7.0 dapat dijalankan seperti biasa, tidak diperlukan prosedur peningkatan tambahan khusus.
Pinterest open-sources big data analytics tool Querybook
Pinterest meng-open-source-kan Querybook, solusi manajemen data untuk kolaborasi teknik jarak jauh berskala enterprise. Tool yang digunakan secara internal ini disebut dapat membantu para developer membuat kueri, analisis, dan berkolaborasi satu sama lain melalui antarmuka notebook. Querybook dimulai pada 2017 sebagai proyek magang di Pinterest. Dirilis secara internal pada Maret 2018, Querybook menjadi solusi untuk big data analitik di Pinterest. Saat ini querybook memiliki rata-rata 500 pengguna aktif harian dan 7.000 kueri harian.
Apache Parquet MR release 1.12.0
Parquet-MR adalah implementasi java dari format Parquet. Parquet adalah format penyimpanan berbentuk kolom untuk Hadoop yang menyediakan penyimpanan dan pengkodean data yang efisien. Parquet menggunakan algoritma record shredding and assembly untuk merepresentasikan struktur berulang/nested.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Feb 18 / 2021
0

AI, Apache, Artificial Intelligece, Big Data, Hadoop, Komunitas, machine learning, Spark

Big Data – Definisi, Teknologi dan Implementasinya

Big Data adalah sebuah istilah umum yang mengacu pada teknologi dan teknik untuk memproses dan menganalisa sekumpulan data yang memiliki jumlah yang sangat besar, baik yang terstruktur, semi terstruktur dan tidak terstruktur. Ada banyak tantangan yang akan dihadapi ketika berhubungan dengan big data, mulai dari bagaimana data diambil, disimpan, hingga masalah keamanan data.

Walaupun Istilah big data sudah sering didengar dan diucapkan, masih banyak diantara kita yang bertanya-tanya: Apa yang dimaksud dengan big data? Apa kegunaan big data? Apa saja teknologi big data? Mengapa big data diperlukan dalam berbagai bidang?

Apa Yang Dimaksud Dengan Big Data?

Tidak ada definisi yang baku mengenai big data. Secara garis besar big data adalah sekumpulan data yang memiliki jumlah yang sangat besar atau struktur yang kompleks sehingga teknologi pemrosesan data tradisional tidak lagi dapat menanganinya dengan baik. Saat ini istilah big data juga sering digunakan untuk menyebut bidang ilmu atau teknologi yang berkaitan dengan pengolahan dan pemanfaatan data tersebut.

Aspek yang paling penting dari big data sebenarnya bukan sekedar pada berapa besarnya data yang bisa disimpan dan diolah, akan tetapi kegunaan atau nilai tambah apa yang dapat diperoleh dari data tersebut. Jika kita tidak dapat mengekstrak nilai tambah tersebut, maka data hanya akan menjadi sampah yang tidak berguna. Nilai tambah ini dapat digunakan untuk berbagai hal, seperti meningkatkan kelancaran operasional, ketepatan penjualan, peningkatan kualitas layanan, prediksi atau proyeksi pasar, dan lain sebagainya.

Dalam bidang informatika dikenal sebuah istilah “Garbage in Garbage out” atau masukan sampah akan menghasilkan keluaran sampah juga. Maksudnya adalah jika masukan yang kita berikan ke sistem adalah input berkualitas rendah, maka kualitas outputnya tentu akan rendah juga. Input yang dimaksud di sini adalah data.

Untuk itu, memastikan kualitas input maupun output dalam setiap tahap pengolahan data untuk mendapatkan keluaran akhir yang berkualitas adalah sebuah keharusan dalam implementasi big data.

Karakteristik Big Data

Karakteristik Big Data biasa disebut dengan singkatan 4V, yaitu:

Volume : mengacu pada ukuran data yang perlu diproses. Saat ini satuan volume data di dunia telah melampaui zettabyte (1021 byte), bahkan telah banyak perusahaan atau organisasi yang perlu mengolah data sampai ukuran petabytes perharinya. Volume data yang besar ini akan membutuhkan teknologi pemrosesan yang berbeda dari penyimpanan tradisional.
Velocity : adalah kecepatan data yang dihasilkan. Data yang dihasilkan dengan kecepatan tinggi membutuhkan teknik pemrosesan yang berbeda dari data transaksi biasa. Contoh data yang dihasilkan dengan kecepatan tinggi adalah pesan Twitter dan data dari mesin ataupun sensor.
Variety : Big Data berasal dari berbagai sumber, dan jenisnya termasuk salah satu dari tiga kategori berikut: data terstruktur, semi terstruktur, dan tidak terstruktur. Tipe data yang bervariasi ini membutuhkan kemampuan pemrosesan dan algoritma khusus. Contoh data dengan variasi tinggi adalah pemrosesan data sosial media yang terdiri dari teks, gambar, suara, maupun video.
Veracity : mengacu pada akurasi atau konsistensi data. Data dengan akurasi tinggi akan memberikan hasil analisis yang berkualitas. Sebaliknya, data dengan akurasi rendah mengandung banyak bias, noise dan abnormalitas. Data ini jika tidak diolah dengan benar akan menghasilkan keluaran yang kurang bermanfaat, bahkan dapat memberikan gambaran atau kesimpulan yang keliru. Veracity merupakan tantangan yang cukup berat dalam pengolahan Big Data.

Di samping 4V tersebut, ada juga yang menambahkan satu lagi sehingga menjadi 5V, yaitu value. Value ini sering didefinisikan sebagai potensi nilai sosial atau ekonomi yang mungkin dihasilkan oleh data. Keempat karakteristik di atas (volume, velocity, variety dan veracity) perlu diolah dan dianalisis untuk dapat memberikan value atau manfaat bagi bisnis maupun kehidupan. Oleh karena itu, karakteristik yang kelima ini berkaitan erat dengan kemampuan kita mengolah data untuk menghasilkan output yang berkualitas.

Apa Saja Teknologi Big Data?

Perkembangan teknologi big data tidak bisa dilepaskan dari teknologi atau konsep open source. Istilah Big Data terus bergaung seiring dengan pesatnya perkembangan teknologi open source yang mendukungnya. Banyak perusahaan besar mengkontribusikan teknologi big data yang mereka buat dan mereka gunakan ke komunitas open source. Hal inilah yang kemudian menjadi salah satu pendorong utama berkembangnya big data.

Ada banyak sekali teknologi open source yang populer dalam ekosistem big data, berikut ini beberapa di antaranya:

Apache Hadoop
Apache Hadoop adalah sebuah framework yang memungkinkan untuk melakukan penyimpanan dan pemrosesan data yang besar secara terdistribusi dalam klaster komputer menggunakan model pemrograman sederhana. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google seperti Google File System dan Google Map Reduce.
Hadoop menawarkan 3 hal utama yaitu:
- Sistem penyimpanan terdistribusi
  Hadoop memiliki sebuah file sistem yang dinamakan Hadoop Distributed File System atau lebih dikenal dengan HDFS. HDFS merupakan sistem penyimpanan file atau data terdistribusi dalam klaster Hadoop. HDFS terinspirasi dari Google File System.
- Framework pemrosesan data secara paralel dan terdistribusi
  MapReduce adalah model pemrograman untuk melakukan pemrosesan data besar secara terdistribusi dalam klaster Hadoop. MapReduce bekerja dan mengolah data-data yang berada dalam HDFS.
- Resource management terdistribusi
  YARN merupakan tools yang menangani resource manajemen dan penjadwalan proses dalam klaster Hadoop. YARN mulai diperkenalkan pada Hadoop 2.0. YARN memisahkan antara layer penyimpanan (HDFS) dan layer pemrosesan (MapReduce). Pada awalnya Hadoop hanya mensupport MapReduce sebagai satu-satunya framework komputasi paralel yang dapat bekerja diatas klaster Hadoop. YARN memungkinkan banyak framework komputasi paralel lain, seperti Spark, Tez, Storm, dsb, untuk bekerja diatas klaster Hadoop dan mengakses data-data dalam HDFS.
Komponen-komponen Apache Hadoop
Apache Hive
Apache Hive adalah sebuah framework SQL yang berjalan di atas Hadoop. Hive mendukung bahasa pemrograman SQL yang memudahkan untuk melakukan query dan analisis data berukuran besar di atas Hadoop. Selain Hadoop, Hive juga dapat digunakan di atas sistem file terdistribusi lain seperti Amazon AWS3 dan Alluxio.
Dukungan Hive terhadap SQL ini sangat membantu portabilitas aplikasi berbasis SQL ke Hadoop, terutama sebagian besar aplikasi data warehouse yang membutuhkan sistem penyimpanan maupun komputasi yang besar.Pada awalnya Hive dikembangkan oleh Facebook untuk digunakan sebagai sistem data warehouse mereka. Setelah disumbangkan ke komunitas open source, Hive berkembang dengan pesat dan banyak diadopsi serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.

Komponen Utama Apache Hive

Pada dasarnya Hive hanya sebuah layer untuk menerjemahkan perintah-perintah SQL ke dalam framework komputasi terdistribusi. Hive dapat bekerja menggunakan berbagai framework yang berjalan diatas Hadoop, seperti MapReduce, Tez ataupun Spark.
Apache Spark
Apache Spark merupakan framework komputasi terdistribusi yang dibangun untuk pemrosesan big data dengan kecepatan tinggi.Apache spark memiliki algoritma yang berbeda dengan MapReduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API dalam Scala, Java, Python, dan SQL, serta dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, komputasi graph, dan SQL.Selain HDFS, Spark juga dapat digunakan di atas file system lain seperti Cassandra, Amazon AWS3, dan penyimpanan awan yang lain.Fitur utama Spark adalah komputasi cluster dalam memori. Penggunaan memori ini dapat meningkatkan kecepatan pemrosesan aplikasi secara drastis. Untuk kasus tertentu, kecepatan pemrosesan Spark bahkan dapat mencapai 100 kali dibanding pemrosesan menggunakan disk seperti MapReduce.Jika MapReduce lebih sesuai digunakan untuk pemrosesan batch dengan dataset yang sangat besar, maka Spark sangat sesuai untuk pemrosesan iteratif dan live-streaming, sehingga Spark banyak dimanfaatkan untuk machine learning.Spark adalah salah satu sub project Hadoop yang dikembangkan pada tahun 2009 di AMPLab UC Berkeley. Sejak tahun 2009, lebih dari 1200 developer telah berkontribusi pada project Apache Spark.

Selain 3 teknologi tersebut, sebenarnya masih sangat banyak teknologi dan framework big data lainnya yang bersifat open source seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka dan lain sebagainya.

Big Data Pipeline

Untuk dapat memberikan nilai yang bermanfaat, data harus melalui berbagai tahapan pemrosesan terlebih dahulu. Mulai dari pencatatan/pembuatan, pengumpulan, penyimpanan, pengayaan, analisis dan pemrosesan lebih lanjut, hingga penyajian. Rangkaian proses data ini biasa disebut dengan Data Pipeline.

Secara garis besar Big Data Pipeline dapat dibagi menjadi 3, yaitu :

- Data Engineering: tercakup di dalamnya data collection, ingestion, cleansing, transformation dan enrichment.
- Data Analytics / Machine Learning: mencakup feature engineering dan komputasi.
- Data Delivery: penyajian data, termasuk penerapan model dalam aplikasi atau sistem, visualisasi, dan lain sebagainya.

Data Processing Pipeline

Big Data Analytics

Saat ini jika kita berbicara mengenai big data, maka biasanya yang dimaksud adalah big data analytics. Hal ini cukup wajar, karena ketika sebuah proyek big data dimulai, tentu saja hasil akhir yang diharapkan adalah mendapatkan insight yang bermanfaat, yang dapat membantu pengambilan keputusan.

Data Analytics sendiri adalah serangkaian proses untuk menggali informasi atau insight dari kumpulan data. Informasi tersebut dapat berupa pola, korelasi, trend, dan lain sebagainya. Data analytics seringkali melibatkan teknik dan algoritma pengolahan data yang cukup kompleks seperti data mining maupun perhitungan statistik.

Dalam Big Data Analytics, tingkat kesulitannya semakin besar karena data yang diproses diperoleh dari berbagai sumber dengan bentuk dan jenis yang berbeda-beda, dan ukuran serta kecepatan yang besar pula. Oleh karena itu Big Data Analytics banyak menggunakan teknik dan algoritma yang lebih advance seperti predictive model dan machine learning untuk melihat trend, pola, korelasi dan insight lainnya.

Secara umum big data analytics terbagi 4 kategori yaitu:

1. Descriptive Analytics
  Analisis ini digunakan untuk menjawab pertanyaan mengenai apa yang sedang terjadi. Hampir semua organisasi telah mengimplementasikan analisis jenis ini.
2. Diagnostic Analytics
  Setelah mengetahui apa yang terjadi, biasanya pertanyaan berikutnya adalah mengapa bisa terjadi. Analisa jenis ini menggunakan drill-down data untuk mencari alasan lebih mendalam mengenai apa yang sedang terjadi.
3. Predictive Analytics
  Analisis prediktif memberikan prediksi mengenai apa yang akan terjadi berdasarkan data-data yang ada. Analisa jenis ini menggunakan teknik dan algoritma machine learning dan artificial intelligence untuk menghasilkan model prediksi berdasarkan data-data historis.
4. Prescriptive Analytics
  Memanfaatkan analisis deskriptif dan prediktif, analisis jenis ini memberikan insight untuk dapat memperoleh hasil yang sesuai dengan apa yang telah diprediksikan.

Jenis dan Tingkatan Data Analytics

Implementasi Big Data dalam Bisnis

Kebiasaan manusia dan persaingan bisnis di era yang semakin terbuka saat ini menjadikan pengambilan keputusan yang tepat adalah kunci untuk bertahan dalam bisnis. Data adalah salah satu penentu keberhasilan dalam pengambilan keputusan.

Customer Profiling
Pola dan profil pelanggan dapat dipelajari melalui data-data yang dibuat oleh pelanggan ketika sedang berinteraksi dengan produk, baik secara langsung, melalui website ataupun menggunakan aplikasi. Saat ini data profil pelanggan dapat diperluas lagi dengan menyertakan informasi geolokasi, bahkan data-data sosial media yang mereka buat.

Semakin banyak data yang dikumpulkan, serta makin canggihnya proses pengolahan data tersebut, maka informasi yang akurat dan detail mengenai profil pelanggan dapat diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang tepat kepada pelanggan sehingga dapat meningkatkan penjualan maupun loyalitas pelanggan.

Product Development
Membangun produk dari sebuah ide yang pada akhirnya dapat diterima dengan baik oleh pasar merupakan sebuah tantangan. Big data dapat memberikan insight yang mendalam
untuk mengidentifikasikan kebutuhan pasar, melihat respon pelanggan melalui komentar pada forum atau sosial media, mengevaluasi kinerja penjualan produk di pasar dengan cepat, mengoptimalkan rantai distribusi, hingga mengoptimalkan strategi pemasaran.

Semakin baik pengelolaan data dan semakin cepat ketersediaan dapat akan dapat terus untuk membuat produk yang berkesinambungan sehingga memberikan nilai yang baik di bagi pelanggan dan pengguna.

Price Optimization
Harga bisa menjadi kunci bagi pelanggan untuk menentukan produk yang akan dibeli. Akan tetapi perang harga pun dapat memberikan pengaruh buruk bagi produk itu sendiri. Big data dapat memberikan peta dan pola harga yang ada di pasar, sehingga produsen dapat menentukan harga yang optimal dan promosi harga yang sesuai dengan kebutuhan pasar.

Big Data untuk Telekomunikasi

Telekomunikasi merupakan salah satu sektor yang mau tidak mau harus berurusan dengan big data. Terlebih lagi saat ini layanan telekomunikasi bisa dibilang adalah jantung dari dunia digital kita. Jika data sering disebut sebagai ‘the new oil’, maka penyedia layanan telekomunikasi seperti memiliki sebuah tambang minyak yang sangat produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Sebut saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Jika semua data-data tersebut dapat diintegrasikan dengan baik, maka akan dapat memberikan insight yang dapat digunakan untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.

Big Data untuk Kesehatan

Data dalam bidang kesehatan adalah salah satu contoh big data karena volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya yaitu berbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu bidang kesehatan termasuk sektor yang memiliki tantangan besar di bidang big data.

Integrasi data, akurasi data dan kecepatan perolehan data merupakan hal yang sangat penting dalam bidang kesehatan, karena hal ini menyangkut keselamatan pasien. Tidak hanya itu, jumlah tenaga medis dan rumah sakit pun masih sangat kurang dibanding dengan potensi pasien, terlebih di masa pandemi seperti saat ini. Insight yang diperoleh melalui big data dapat digunakan untuk membantu mengatasi permasalahan tersebut, diantaranya yaitu untuk penegakan diagnosa yang lebih akurat, personalisasi obat-obatan, peningkatan pelayanan rumah sakit hingga optimalisasi operasional rumah sakit.

Kecerdasan Buatan (Artificial Intelligence) dan Big Data

Setelah implementasi big data dalam arti pengelolaan dan analisa data dapat dilakukan dengan baik, tantangan berikutnya adalah bagaimana dengan data itu kita bisa melatih mesin untuk dapat belajar sehingga dapat bekerja dan memberikan insight secara otomatis, cepat, dan akurat. Maka Artificial Intelligence, Machine Learning dan Deep Learning muncul kembali dan menjadi trend baru di masa kini.

Lalu apa perbedaan AI, machine learning dan deep learning? Secara ruang lingkup, deep learning merupakan bagian dari machine learning, dan machine learning merupakan bagian dari artificial intelligence. Inti ketiganya adalah bagaimana membuat mesin atau komputer menjadi cerdas. Tujuan utamanya yaitu untuk mengurangi campur tangan manusia dalam memberikan insight ataupun dalam melakukan berbagai pekerjaan manusia.

Hubungan AI, Machine Learning, dan Deep Learning

Artificial intelligence sendiri bukan merupakan hal baru, akan tetapi bidang ini mulai berkembang dengan sangat pesat dan menjadi sebuah trend setelah munculnya big data. Hal ini dikarenakan ketersediaan data yang melimpah, yang telah dapat ‘ditaklukkan’ dengan big data, yang merupakan materi utama bagi mesin untuk belajar dan menjadi cerdas.

Tidak hanya data, teknologi juga memegang peranan penting bagi perkembangan artificial intelligence. Berbagai perangkat dan teknologi dengan performa yang sangat tinggi saat ini sudah tersedia secara relatif murah dan terjangkau. Jika semula artificial intelligence dianggap sebagai sesuatu yang canggih dan hanya bisa diterapkan menggunakan teknologi yang tinggi dan mahal, saat ini artificial intelligence sudah dapat diimplementasikan pada berbagai perangkat dan sistem yang digunakan sehari-hari.

Komunitas Big Data Indonesia

idBigData adalah komunitas big data Indonesia yang dideklarasikan pada tanggal 2 Desember 2014. Pada saat itu big data masih menjadi sebuah hal yang relatif baru di Indonesia. Belum banyak orang yang paham mengenai apa itu big data, apa kegunaannya, dan bagaimana memanfaatkannya. Maka dibentuknya idBigData sebagai komunitas big data Indonesia bertujuan untuk menjadi wadah berkumpulnya komponen masyarakat dari berbagai bidang untuk saling bertukar pengetahuan dan pengalaman, serta menjalin berbagai kerja sama dalam bidang big data serta pemanfaatannya, termasuk di dalamnya data science dan artificial intelligence.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Nov 28 / 2019
Comments Off on Seputar Big Data edisi #79

AI, Apache, Artificial Intelligece, Big Data, Google, Hadoop, Komunitas, machine learning, Medical Analytics, Social Media

Seputar Big Data edisi #79

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pekan terakhir bulan November 2019

Artikel dan berita

How to Become a Data Scientist (Skills + Qualifications)
Kebutuhan akan data scientist saat ini sedang meningkat. Karir sebagai data scientist merupakan karir yang banyak dicita-citakan dan menawarkan gaji yang menggiurkan.
An Intro to AI for people that hate math and can’t code
Berikut adalah kursus singkat AI untuk manajer, pemilik bisnis, dan peran non-teknis lainnya yang ingin memahami Kecerdasan Buatan untuk mulai menggunakannya dalam institusi.
McKinsey survey: AI boosts revenue, but companies struggle to scale use
Survei Global McKinsey terbaru yang dirilis pekan lalu menemukan bahwa kecerdasan buatan memiliki dampak positif pada hasil bisnis, dengan 63% responden melaporkan peningkatan pendapatan setelah adopsi teknologi. Namun, hanya 30% perusahaan yang menerapkan AI ke beberapa unit bisnis, atau naik dari 21% tahun lalu.
Introducing the Next Generation of On-Device Vision Models: MobileNetV3 and MobileNetEdgeTPU
Google mengumumkan rilis source code dan checkpoint untuk model MobileNetV3 dan MobileNetEdgeTPU. Model-model tersebut adalah hasil perkembangan terbaru dalam teknik AutoML yang mengenali perangkat keras serta perkembangan dalam desain arsitektur. Pada CPU seluler, MobileNetV3 dua kali lebih cepat dari MobileNetV2 dengan akurasi yang setara, dan semakin maju untuk jaringan computer vision mobile.
Powered by AI: Instagram’s Explore recommender system
Menurut Facebook, lebih dari setengah pengguna Instagram yang mencapai 1 miliar mengunjungi Instagram Explore untuk menemukan video, foto, streaming langsung, dan Story setiap bulannya. Oleh karena itu, membangun mesin rekomendasi menjadi tantangan teknis, salah satunya karena tuntutan fungsi real time. Dalam posting blog ini Facebook mengupas cara kerja Instagram Explore, yang menggunakan bahasa kueri dan teknik pemodelan kustom. Sistem ini mengekstrak setidaknya 65 miliar fitur dan membuat 90 juta prediksi model setiap detiknya.

Tutorial dan Pengetahuan Teknis

Scaling Apache Airflow for Machine Learning Workflows
Apache Airflow adalah platform yang cukup populer untuk membuat, menjadwalkan, dan memantau workflow dengan Python, tetapi ia dibuat untuk keperluan proses ETL. Dengan menggunakan Valohai, kita dapat menggunakan Apache Airflow untuk membantu proses machine learning.
Google’s BERT changing the NLP Landscape
Salah satu perkembangan drastis dalam Pemrosesan Bahasa Alami (NLP) adalah peluncuran Representasi Encoder Bidirectional Google dari Transformers, atau model BERT - model yang disebut model NLP terbaik yang pernah didasarkan pada kinerja superiornya atas berbagai macam tugas.
Exploring Apache NiFi 1.10: Parameters and Stateless Engine
Pada artikel ini, dibahas versi terbaru Apache NiFi dan bagaimana menggunakan dua fitur baru terbesar: parameter dan stateless.
Unsupervised Sentiment Analysis
Salah satu implementasi dari metode NLP adalah analisa sentimen, di mana Anda mencoba mengekstrak informasi mengenai emosi penulis. Artikel berikut menjelaskan cara melakukan analisa sentimen menggunakan data tanpa label.
Text Encoding: A Review
Kunci untuk melakukan operasi teks mining adalah mengubah teks menjadi vektor numerik, atau biasa disebut text encoding. Setelah teks ditransformasi menjadi angka, kita dapat memanfaatkan berbagai algoritma pembelajaran mesin untuk klasifikasi dan klastering. Artikel ini membahas beberapa teknik encoding yang banyak digunakan dalam teks mining.

Rilis Produk

Apache BookKeeper 4.10.0 released
The 4.10.0 release incorporates hundreds of bug fixes, improvements, and features since previous major release, 4.9.0. Apache BookKeeper/DistributedLog users are encouraged to upgrade to 4.10.0.
Rilis 4.10.0 adalah rilis major, yang mencakup ratusan perbaikan bug, peningkatan, dan fitur sejak rilis 4.9.0. Pengguna Apache BookKeeper/DistributedLog disarankan untuk melakukan upgrade ke 4.10.0.
Apache Libcloud 2.6.1 release
Libcloud adalah library Python yang mengabstraksi perbedaan berbagai API penyedia cloud. Library ini memungkinkan pengguna untuk mengelola layanan cloud (server, penyimpanan, load balancer, DNS, containers as a service) yang ditawarkan oleh banyak penyedia berbeda melalui API tunggal, terpadu, dan mudah digunakan.
Libcloud v2.6.1 mencakup berbagai perbaikan bug dan peningkatan.
Apache Kudu 1.11.1 Released
Apache Kudu 1.11.1 adalah rilis perbaikan bugs.

Contributor :

Tim idbigdata always connect to collaborate every innovation 🙂

Nov 25 / 2019
Comments Off on Konferensi Big Data Indonesia 2019

Artificial Intelligece, Big Data, Forum Info, Komunitas

Konferensi Big Data Indonesia 2019

Konferensi Big Data Indonesia 2019 telah resmi diselenggarakan pada 19 – 20 November 2019 bertempat di Hotel Bumi Surabaya City Resort. Acara ini diselenggarakan oleh idBigData, Komunitas Big Data Indonesia, yang bekerjasama dengan Departemen Teknik Komputer Fakultas Teknik Elektro ITS.

KBI2019 bertujuan sebagai ajang untuk unjuk kekuatan sumber daya lokal akan penguasaan data dan teknologi pendukungnya. Tema yang diangkat kali ini adalah Big Data dan Artificial Intelligence : Memperkuat Inovasi Meningkatkan Daya Saing.

Menurut Sigit Prasetyo, ketua idBigData, “Indonesia adalah potensi pasar yang sangat besar. Indonesia juga memiliki sumber daya manusia yang sangat baik. Diperlukan kolaborasi yang baik sehingga dapat menghasilkan inovasi yang dapat bersaing dengan perusahaan luar”

Indonesia sendiri sangat berkepentingan dengan penguasaan data dan teknologinya. Kekayaan sumber daya alam dan manusia sekaligus berpotensi menjadi penghasil data yang sangat besar. Terlebih lagi tahun 2020 ini Indonesia akan mulai memasuki kondisi bonus demografi, di mana jumlah penduduk usia produktif akan melebihi jumlah usia non produktif.

Bonus ini dapat menjadi kekuatan jika SDM kita memiliki kemampuan dan kemandirian di bidang teknologi dan data. Namun jika tidak, jumlah penduduk yang besar ini hanya akan menjadi pasar bagi pihak lain.

Data, kekuatan SDM dan semakin terbukanya akses teknologi memungkinkan kita sebagai bangsa Indonesia untuk berinovasi sehingga mampu untuk meningkatkan daya saing secara global.

idBigData sebagai komunitas Big Data Indonesia selalu berkomitmen untuk turut serta mendorong penguasaan berbagai teknologi terkait big data, data sains dan kecerdasan buatan, untuk kemajuan bangsa Indonesia. Dalam konferensi ini mempertemukan Akademisi, Bisnis, Komunitas dan Pemerintah sehingga dapat saling bersinergi untuk menghasilkan inovasi bagi kemandirian data di Indonesia.

Konferensi Big Data Indonesia 2019 yang merupakan Konferensi Big Data yang ke 5, juga berkolaborasi dengan kegiatan konferensi ilmiah internasional yang diberi nama International Conference on Computer Engineering, Network, and Intelligent Multimedia (CENIM) 2019, yaitu forum ilmiah internasional yang diadakan oleh Departemen Teknik Komputer – Institut Teknologi Sepuluh Nopember.

KBI2019 menghadirkan pembicara-pembicara terkemuka dalam teknologi Big Data, Data Sains dan AI, baik dari kalangan praktisi bisnis, akademisi, pemerintah maupun komunitas. Topik-topik yang disajikan mencakup perkembangan teknologi Big Data dan AI secara praktis maupun ilmiah, pemanfaatannya dalam pemerintahan, bisnis perbankan, e-commerce, transportasi, dan lain sebagainya

KBI2019 dibuka oleh Prof Dr Ir Yoyon Kusnendar Suprapto MSc, Ketua CENIM 2019 dan Dr Tri Arief Sardjono ST MT, Dekan Fakultas Teknologi Elektro ITS. Keynote Speaker hari pertama adalah Prof. Vanessa Evers dari University of Twente dan Assoc. Prof. Mochamad Hariadi dari ITS. Keynote hari kedua adalah Bambang Dwi Anggono S.SOS, M.ENG, Direktur Layanan Aplikasi Informatika Pemerintahan – Kemkominfo. Beberapa pembicara yang juga hadir adalah dari Envy Tech, Ko-In, Anterin, Solusi247, Sunlight.io, CyberMANTRA, Media Kernels Indonesia, dan lain-lain.

KBI2019 juga mengalokasikan stand pameran yang menampilkan produk dan hasil riset dari berbagai perusahaan seperti Labs247, Envy Teknologi Indonesia, CyberMANTRA, Sunlight.io, Bahasa Kita, Drone Emprit, Anterin, Halotec, PENS dan ITS.

Untuk memperkuat kerjasama, dalam kegiatan ini juga berlangsung penandatangan kerjasama antara Solusi247 dan Envy Teknologi Indonesia dalam mengembangkan teknologi Big Data.

Selain itu juga untuk pengembangan teknologi cloud computing Solusi247 juga melakukan penandatanganan kerjasama dengan Datacom Diangraha.

Oct 31 / 2019
Comments Off on Seputar Big Data edisi #78

AI, Artificial Intelligece, Big Data, machine learning, Social Media

Seputar Big Data edisi #78

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu V bulan Oktober 2019.

Artikel dan berita

How AI-Powered Chatbots are Changing the Customer Experience
Chatbots kini tidak lagi hanya hayalan film fiksi ilmiah atau perusahaan berteknologi tinggi. Tahun lalu, lebih dari dua pertiga konsumen melaporkan berinteraksi dengan Chatbot.
40% konsumen mengatakan mereka tidak peduli siapa yang membantu mereka selama mereka mendapatkan apa yang mereka butuhkan. 47% konsumen mengatakan terbuka terhadap gagasan untuk membeli produk atau layanan dari Chatbots.
The Growing Importance Of Big Data In Application Monitoring
Big Data tidak hanya berguna untuk pengembangan aplikasi. Big Data juga sangat ideal untuk memonitor aplikasi dengan lebih mudah. Banyak aplikasi dapat memanfaatkan algoritma AI untuk memastikan user experience terbaik, meminimalkan down time dan memastikan sistem berjalan dengan lancar.
Largest cyber-attack in Georgia’s history linked to hacked web hosting provider
Georgia mengalami serangan cyber besar-besaran di mana lebih dari 15.000 situs web dirusak dan kemudian dimatikan. Serangan tersebut dianggap sebagai yang terbesar dalam sejarah negara itu, dan berdampak pada situs-situs berbagai lembaga pemerintah, bank, pengadilan, surat kabar lokal, dan stasiun TV.
Machine Learning Based Fraud Detection Models in Healthcare
Fraud pada layanan kesehatan membahayakan bagi pasien, penyedia layanan, maupun pembayar pajak. Penipuan kesehatan di AS diperkirakan mencapai $68 miliar per tahun, bahkan bisa mencapai $230 miliar. Dengan demikian, deteksi yang tepat waktu dan efektif sangat penting untuk meningkatkan kualitas perawatan. Penyedia asuransi kesehatan Aetna menggunakan 350 model pembelajaran mesin untuk memerangi fraud. Banyak dari model tersebut merupakan jenis deteksi anomali, yang menargetkan penyimpangan dalam dataset besar.

Tutorial dan pengetahuan teknis

Tutorial: Presto + Alluxio + Hive Metastore on Your laptop in 10 Minutes
Tutorial ini menjelaskan cara install dan setup stack Presto, Alluxio, dan Hive Metastore di server lokal. Selain itu juga menunjukkan cara menggunakan Alluxio sebagai caching layer untuk Presto request. Dalam stack ini, Presto adalah SQL engine untuk merencanakan dan mengeksekusi query, Alluxio adalah layer orkestrasi data, dan Hive Metastore adalah layanan katalog untuk membaca skema tabel dan informasi lokasi.
Getting Started with Rust and Apache Kafka
Pada artikel sebelumnya telah dijelaskan mengenai simulasi event sourcing bank dalam Clojure. Pada artikel ini ditunjukkan penambahan SSL dan penggabungan beberapa topik menggunakan opsi subject name strategy dari Confluent Schema Registry, serta mengubah salah satu komponen dari Clojure ke Rust.
Feature Selection: Beyond feature importance?
Dalam pembelajaran mesin, Pemilihan Fitur adalah salah satu proses yang sangat penting. Meskipun terdengar sederhana, pemilihan fitur adalah salah satu masalah paling kompleks dalam proses pembuatan model. Dalam posting ini diuraikan mengenai 3 teknik berbeda untuk melakukan Seleksi Fitur pada dataset Anda dan bagaimana membangun model prediksi yang efektif.
A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning
Maximum likelihood estimation (MLE) adalah kerangka kerja yang umum digunakan untuk memperkirakan distribusi probabilitas sampel dalam machine learning. Kerangka kerja ini memberikan dasar bagi banyak algoritma penting, termasuk regresi linier, regresi logistik, dan deep neural network. Artikel ini memberikan pengenalan yang mudah untuk anda memahami MLE.
[DATASET] Introducing the Schema-Guided Dialogue Dataset for Conversational Assistants
Salah satu pertanyaan penting dalam pengembangan asisten AI seperti Google Assistant adalah : bagaimana asisten AI dapat mendukung layanan baru tanpa perlu data tambahan dan pelatihan ulang? Tim peneliti Google baru-baru ini merilis korpus yang menurut mereka merupakan kompilasi terbesar dari dialog-dialog berorientasi tugas/task. Dataset yang disebut the Schema-Guided Dialogue (SGD) corpus diharapkan dapat membantu pengembangan asisten virtual dengan adaptabilitas yang lebih baik.

Rilis Produk

Open-sourcing Polynote: an IDE-inspired polyglot notebook
Polynote adalah notebook polyglot dengan dukungan Scala, integrasi Apache Spark, interoperabilitas multi-bahasa termasuk Scala, Python, dan SQL, autocomplete as-you-type, dan banyak lagi. Polynote memberikan para ilmuwan data dan peneliti pembelajaran mesin lingkungan notebook yang memungkinkan mereka untuk mengintegrasikan platform ML berbasis JVM – yang banyak menggunakan Scala – dengan library pembelajaran mesin dan visualisasi Python yang populer.
Apache Druid (incubating) 0.16.0 release
Apache Druid 0.16.0-incubating mencakup lebih dari 350 perubahan yang terdiri dari fitur-fitur baru, peningkatan kinerja, perbaikan performance, perbaikan bugs, dan peningkatan dokumen. Apache Druid (incubating) adalah database analytics real-time untuk OLAP di atas dataset besar.
Apache Geode 1.10.0
Geode 1.10.0 ini adalah rilis triwulanan yang berisi sejumlah peningkatan fitur dan kinerja serta perbaikan bug. Pengguna disarankan untuk melakukan upgrade ke rilis terbaru ini.
Apache Tuweni 0.8.2 released
Apache Tuweni adalah sekumpulan library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi dalam Java dan bahasa JVM lainnya.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Pages:12 3 4 5 ›

Posts Categorized / Artificial Intelligece

Berkenalan Dengan ChatGPT

ChatGPT dan OpenAI

Kelebihan ChatGPT

Kekurangan ChatGPT

Contoh Penggunaan ChatGPT

Artikel dan berita

Tutorial dan pengetahuan teknis

Rilis Produk

Seputar Big Data Edisi #83

Artikel dan berita

Tutorial dan pengetahuan teknis

Rilis Produk

Seputar Big Data Edisi #81

Seputar Big Data Edisi #80

Big Data – Definisi, Teknologi dan Implementasinya

Apa Yang Dimaksud Dengan Big Data?

Karakteristik Big Data

Apa Saja Teknologi Big Data?

Big Data Pipeline

Big Data Analytics

Implementasi Big Data dalam Bisnis

Big Data untuk Telekomunikasi

Big Data untuk Kesehatan

Kecerdasan Buatan (Artificial Intelligence) dan Big Data

Komunitas Big Data Indonesia

Konferensi Big Data Indonesia 2019

Sigit Prasetyo - Ketua idBigData

Pembukaan KBI2019 dan CENIM2019 ditandai dengan dipukulnya Gong.

Pameran KBI2019