:::: MENU ::::

Posts Categorized / Implementation

  • Jan 04 / 2023
  • Comments Off on Berkenalan Dengan ChatGPT
AI, Artificial Intelligece, Big Data, Implementation

Berkenalan Dengan ChatGPT

ChatGPT adalah sebuah model bahasa yang dikembangkan oleh OpenAI yang bisa digunakan untuk menciptakan percakapan yang lebih alami dan menyenangkan dengan mesin. Model ini merupakan evolusi dari model bahasa GPT-3 yang lebih besar, yang telah terbukti mampu melakukan berbagai tugas bahasa yang kompleks dengan hasil yang luar biasa.

ChatGPT merupakan salah satu contoh dari teknologi “language model” yang sedang berkembang saat ini. Language model adalah sebuah algoritma yang dapat memprediksi kemungkinan kemunculan sebuah kata atau frasa berdasarkan data teks yang telah diberikan kepadanya. Dengan demikian, language model dapat membantu mesin untuk memahami bahasa manusia dan menciptakan teks yang lebih alami dan mudah dipahami oleh manusia.

 

ChatGPT dan OpenAI

OpenAI adalah sebuah lembaga riset ilmiah yang berfokus pada pengembangan teknologi intelijen buatan (artificial intelligence/AI). Lembaga ini didirikan pada tahun 2015 oleh sekelompok entrepreneur dan ilmuwan, termasuk Elon Musk dan Sam Altman, dengan tujuan untuk mempromosikan dan mengembangkan penggunaan AI yang bertanggung jawab dan bermanfaat bagi masyarakat. Selama bertahun-tahun, OpenAI telah menghasilkan beberapa model AI yang terkenal, seperti GPT (Generative Pre-training Transformer) dan GPT-2, yang telah membantu dalam pengembangan aplikasi-aplikasi AI yang canggih. Selain itu, OpenAI juga terlibat dalam berbagai kegiatan riset dan publikasi ilmiah untuk memajukan pengetahuan dan pemahaman tentang AI.

 

Kelebihan ChatGPT

ChatGPT memiliki kemampuan yang luar biasa dalam memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, sehingga dapat membantu mesin untuk memahami bahasa manusia dan menciptakan percakapan yang lebih alami dan mudah dipahami oleh manusia.

Selain itu, ChatGPT juga memiliki kemampuan yang luar biasa dalam menanggapi pertanyaan yang diajukan oleh manusia dan dapat memberikan jawaban yang tepat sesuai dengan konteks pertanyaan tersebut. Hal ini membuat ChatGPT menjadi salah satu model bahasa yang paling dibutuhkan saat ini, terutama dalam bidang customer service dan penjualan, di mana mesin harus dapat memahami dan menanggapi pertanyaan yang diajukan oleh pelanggan dengan cepat dan tepat.

 

Kekurangan ChatGPT

Namun, meskipun ChatGPT memiliki kemampuan yang luar biasa, model ini masih memiliki beberapa kekurangan. Salah satu kekurangan terbesar adalah bahwa ChatGPT masih belum mampu memahami arti kata secara kontekstual, sehingga dapat menyebabkan percakapan yang kurang alami dan tidak sesuai dengan konteks. Meskipun demikian, OpenAI terus berupaya untuk mengembangkan ChatGPT agar model ini dapat menjadi lebih baik lagi dan dapat membantu manusia dalam berbagai aspek kehidupan.

Kekhawatiran tentang keamanan merupakan salah satu hal yang perlu dipertimbangkan ketika menggunakan model bahasa seperti ChatGPT. Karena ChatGPT merupakan model bahasa yang terdiri dari ratusan juta parameter dan dapat memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, model ini memiliki kemampuan yang luar biasa dalam mengolah dan mengaitkan informasi.

Namun, kemampuan ini juga dapat membahayakan jika informasi yang dihasilkan oleh ChatGPT tidak tepat atau tidak sesuai dengan konteks. Hal ini dapat menyebabkan kerugian bagi pengguna yang tidak dapat membedakan antara informasi yang tepat dan tidak tepat, atau bahkan dapat menyebabkan kerugian bagi pengguna yang tidak sengaja mempercayai informasi yang salah.

Oleh karena itu, penting bagi pengguna untuk selalu memverifikasi kebenaran informasi yang dihasilkan oleh ChatGPT sebelum menggunakannya, terutama jika informasi tersebut akan digunakan dalam keputusan yang penting. Selain itu, pengguna juga harus selalu waspada terhadap kemungkinan penyalahgunaan informasi yang dihasilkan oleh ChatGPT oleh pihak-pihak yang tidak bertanggung jawab.

Selain kekhawatiran tentang keamanan, ada juga kekhawatiran tentang ketidakakuratan informasi yang dihasilkan oleh ChatGPT. Meskipun ChatGPT memiliki kemampuan yang luar biasa dalam memprediksi kemunculan kata atau frasa berdasarkan data teks yang diberikan kepadanya, model ini masih belum mampu memahami arti kata secara kontekstual. Hal ini dapat menyebabkan percakapan yang kurang alami dan tidak sesuai dengan konteks, serta informasi yang tidak tepat atau tidak sesuai dengan kebenaran.

 

Contoh Penggunaan ChatGPT

ChatGPT merupakan salah satu terobosan dalam kecerdasan buatan yang akan banyak mempengaruhi kehidupan manusia, terutama yang terkait dengan penulisan dan penyebaran informasi. Kita bisa memanfaatkannya untuk membuat banyak hal, mulai dari menulis konten sosial media dan artikel, copywriting, menjawab pertanyaan pelanggan, bahkan membuat website dan koding.

Contoh real penggunaannya adalah artikel diatas, yang dibuat menggunakan ChatGPT.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 20 / 2022
  • Comments Off on Seputar Big Data Edisi #84
AI, Apache, Artificial Intelligece, Big Data, Blockchain, Cryptocurrency, Google, Implementation, Komunitas, Social Media

Seputar Big Data Edisi #84

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pertengahan pertama bulan juni 2022.

Artikel dan berita

  1. LaMDA and the Sentient AI Trap
    Google baru-baru ini memberikan status cuti administratif kepada Blake Lemoine, peneliti Google AI, setelah yang bersangkutan mempublikasikan klaim bahwa LaMDA, sebuah model bahasa yang dirancang untuk berkomunikasi dengan manusia, hidup, memiliki akal dan empati. Lemoine bahkan menuntut diberikannya perwakilan hukum untuk LaMDA. Sementara itu, para ahli di bidang etika menyatakan bahwa perdebatan tentang apakah sebuah model AI memiliki kesadaran sebagai makhluk hidup, justru mengalihkan perhatian dari masalah yang lebih penting dan nyata, seperti kolonialisme AI, salah tangkap akibat bias, dll.
  2. Social Engineering Kill–Chain: Predicting, Minimizing & Disrupting Attack Verticals
    Social engineering adalah modus yang menarik bagi penjahat saiber, karena dengan biaya dan resiko rendah, dapat memberikan keberhasilan tinggi. Pada kenyataannya, meskipun teknologi cybersecurity semakin maju, kerentanan keamanan oleh manusia tetap sama. Dalam Cybersecurity Insight Reports menyatakan bahwa serangan rekayasa sosial dan human error sebagai salah satu dari 3 ancaman teratas selama beberapa tahun terakhir. Artikel ini membahas dengan cukup dalam mengenai rekayasa sosial dalam cybersecurity, serta langkah yang perlu diambil untuk mengatasinya.
  3. ‘The Music Has Stopped’: Crypto Firms Quake as Prices Fall
    Seiring dengan goncangnya pasar cryptocurrency, perusahaan-perusahaan kripto memberhentikan staf, membekukan penarikan, dan melakukan berbagai tindakan untuk membendung kerugian. Hal ini menimbulkan banyak pertanyaan tentang kesehatan dan kestabilan ekosistem kripto secara umum.
  4. Big Data Dukung Pupuk Kaltim Raup Laba Bersih Rp3,19 Triliun
    Setelah membukukan laba mengesankan pada tahun 2021, senilai Rp 6,17 triliun, terbesar dalam sejarahnya, PT Pupuk Kaltim (PKT) memulai 2022 dengan optimistis. Pada kuartal 1 2022, PKT membukukan laba bersih Rp3,19 triliun, meningkat hampir empat kali lipat dibandingkan dengan kuartal 1 2021 (year on year).Salah satu kunci kesuksesan mereka adalah transformasi digital untuk meningkatkan kinerja, serta diperkuat dengan pemanfaatan Big Data dalam program MAKMUR, sebuah program kemitraan pertanian terpadu yang dipelopori PKT.
  5. Future of UK Defence Artificial Intelligence Launched
    Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.Pemerintah Inggris mengungkapkan rencana untuk masa depan teknologi pertahanan Kecerdasan Buatan (AI) Inggris yang mutakhir pada London Tech Week AI Summit. Strategi dan kebijakan tentang penggunaan AI yang ‘Ambisius, Aman, dan Bertanggung Jawab’ untuk mendukung Pusat Pertahanan AI yang baru, yang akan menjadi pusat visioner untuk mendukung dan mengembangkan teknologi ini di seluruh Angkatan Bersenjata Inggris.

Tutorial dan pengetahuan teknis

  1. R Fundamentals – From Syntax to Control Structures
    Pengenalan dasar mengenai R, mulai dari apakah bahasa R, bagaimana menulis kode dalam R, komponen dan utilitas RStudio. Artikel ini bertujuan untuk membantu dalam mengenal sintaks dan fungsi umum dari bahasa R, dan menggunakan RStudio untuk menulis serta mengeksekusi kode R untuk melakukan operasi dasar
  2. Modernizing Testing With Data Pipelines
    Pelajari bagaimana sintesis data dan data pipelines dapat menawarkan solusi yang scalable untuk membuat data yang konsisten serta menyerupai kebutuhan dunia nyata, untuk kebutuhan pengujian sistem.
  3. 3 Ways Understanding Bayes Theorem Will Improve Your Data Science
    Teorema Bayes memberikan cara untuk mengupdate keyakinan kita berdasarkan bukti baru, dengan mempertimbangkan kekuatan keyakinan kita sebelumnya. Dengan menggunakan teorema Bayes, kita berusaha menjawab pertanyaan: bagaimana kemungkinan hipotesis saya berdasarkan bukti baru?
    Artikel ini berbicara tentang tiga cara agar Teorema Bayes dapat meningkatkan kemampuan Data Science kita.
  4. An End-to-End Guide to Publish Your Python Package
    Artikel ini merupakan demo end-to-end untuk melakukan code sharing. Proyek ini bertujuan untuk membantu Anda memahami cara memublikasikan modul/paket python dengan benar di PyPI secara eksternal dan membagikan pekerjaan dengan kolega Anda secara internal.
  5. Docker for Data Science: What every data scientist should know about Docker
    Saat ini Docker sudah menjadi kelaziman bagi data saintis, karena memudahkan untuk melakukan deployment aplikasi beserta dependensinya, tanpa ‘membahayakan’ sistem secara umum. Untuk itu seorang data saintis setidaknya perlu mengetahui apa itu docker dan bagaimana membuat kontainer dengan docker.
  6. Using Normalization Layers to Improve Deep Learning Models
    Jika normalisasi input membantu meningkatkan kinerja model Deep Learning, apakah standarisasi input ke setiap layer dapat membantu meningkatkan kinerja model juga?
    Artikel ini membahas mengenai serba-serbi layer normalisasi serta batch normalization, sebuah teknik untuk menstandarisasi input ke setiap layer di seluruh batch.
  7. Data Statistics and Analysis With Java and Python
    Java dan Python adalah dua bahasa komputer paling populer yang digunakan saat ini. Keduanya sangat matang dan menyediakan alat dan ekosistem teknologi untuk mendukung pengembangan solusi untuk masalah menantang yang muncul di dunia data science. Penting untuk memahami bagaimana keduanya menangani masalah yang berbeda, serta keunggulan dan kelemahan masing-masing. Kapan perlu memilih salah satu, dan kapan menggabungkan keduanya.Artikel ini menjelaskan mengenai cara menganalisis data tabular menggunakan Java Streams dan Python Pandas, serta membandingkan bagaimana kinerja dan skala untuk sejumlah besar data.
  8. [FREE Ebook] IPython Cookbook, Second Edition (2018)
    IPython Cookbook, Second Edition (2018) by Cyrille Rossant. Python merupakan salah satu bahasa pemrograman terpopuler untuk data science dan komputasi numerik. IPython memberikan antarmuka interaktif yang efisien untuk analisis dan visualisasi data.Buku ini berisi banyak resep yang praktis untuk komputasi numerik dan analisis data. Menjelaskan pengenalan dasar hingga trik canggih IPython/Jupyter, untuk membantu Anda menulis kode yang lebih baik dan lebih cepat.Bagian pertama buku ini mencakup teknik pemrograman: kualitas kode dan reproduksibilitas, optimalisasi kode, komputasi paralel, serta graphic card programming. Bagian kedua membahas data science, statistik, machine learning, pemrosesan sinyal dan citra, dynamical system, pemrosesan data GIS, serta matematika murni dan terapan.

Rilis Produk

  1. Apache Flume 1.10.0 released
    Apache Flume team mengumumkan release Flume versi 1.10.0.
    Flume adalah service terdistribusi, handal, dan efektif untuk mengumpulkan, meng-agregasi, dan memindahkan log data berukuran besar. Flume 1.10.0 memperbaiki CVE-2022-25167, vulnerability di JMSSource yang berkaitan dengan penggunaan JNDI.
  2. Apache Impala 4.1.0 release
    Tim Apache Impala mengumumkan rilis Impala 4.1.0. Impala adalah mesin SQL terdistribusi berkinerja tinggi. Rilisnya tersedia di: https://impala.Apache.org/downloads.html
  3. Apache SkyWalking 9.1.0 released
    SkyWalking: alat monitor kinerja aplikasi untuk Sistem terdistribusi, yang dirancang khusus untuk microservice, cloud native, dan arsitektur berbasis container (Docker, Kubernetes, Mesos).Rilis ini berisi sejumlah fitur baru, perbaikan bug, dan peningkatan dari versi 9.0.0.
  4. OpenNLP 2.0.0 released
    Apache OpenNLP library adalah toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami. Mendukung berbagai proses NLP yang paling umum, seperti tokenisasi, segmentasi kalimat, part-of-speech tagging, ekstraksi named-entity, chunking, dan parsing.
  5. Apache Hop 2.0.0
    Rilis 2.0.0 ini merupakan rilis major yang mencakup penyelesaian 151 tiket.Hop adalah platform integrasi data open source yang mudah digunakan, cepat dan fleksibel.Hop bertujuan bertujuan untuk memfasilitasi semua aspek orkestrasi data dan metadata. Pengembangan visual memungkinkan developer menjadi lebih produktif.
  6. Apache Bigtop 3.1.0 released
    Bigtop adalah proyek Apache Foundation untuk Infrastructure Engineer dan Data Scientist yang membutuhkan packaging, pengujian, dan konfigurasi komprehensif komponen big data open source terkemuka. Bigtop mendukung berbagai komponen/proyek, termasuk di antaranya Hadoop, HBase, Spark, dll.
    Beberapa highlight dari rilis ini meliputi:

    • Dukungan untuk Debian 11, Fedora 35, dan Rocky Linux 8
    • Upgrade terhadap beberapa komponen misalnya, HBase, Kafka, Spark, Zeppelin , ZooKeeper, dll.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 08 / 2022
  • Comments Off on Seputar Big Data Edisi #83
AI, Apache, Artificial Intelligece, Big Data, Google, Implementation, IoT, Komunitas, machine learning

Seputar Big Data Edisi #83

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data, Data Science, dan AI, yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama bulan Maret 2022

Artikel dan berita

  1. Google uses deep learning to design faster, smaller AI chips
    Googler dan akademisi UC Berkeley menemukan cara menggunakan kecerdasan buatan untuk merancang chip yang lebih cepat dan lebih kecil, yang dapat mengakselerasi kecerdasan buatan.

    Para peneliti mengatakan, mereka telah mengembangkan pendekatan deep learning bernama PRIME, yang menghasilkan arsitektur chip AI dengan menggambar dari cetak biru dan catatan perhitungan kinerja yang ada. Mereka mengklaim pendekatan ini dapat menghasilkan desain dengan latensi lebih rendah dan membutuhkan lebih sedikit ruang daripada akselerator EdgeTPU dalam lingkungan produksi Google, maupun desain lain yang dibuat menggunakan tools tradisional.

    Paper dapat diakses di : https://arxiv.org/abs/2110.11346

  2. A Decade of Deep Learning: How the AI Startup Experience Has Evolved
    Dalam interview ini, Richard Socher membahas sejumlah topik, termasuk: berbagai perubahan terkait startup AI dalam dekade terakhir; perbedaan antara penerapan AI untuk perusahaan startup, perusahaan besar, maupun dunia akademis; dan bagaimana teknik machine learning baru, seperti model transformator, memberdayakan perusahaan untuk membangun produk canggih dengan sumber daya yang jauh lebih kecil dibanding yang mereka butuhkan sebelumnya.

  3. Basarnas akan Diperkuat Sistem Informasi Geografis, Analisa Big Data hingga AI
    Kepala Badan Nasional Pencarian dan Pertolongan (Basarnas), Marsekal Madya TNI Henri Alfiandi mengungkapkan, pihaknya melakukan operasi penyelamatan sebanyak 2.264 kali di tahun 2021. Operasi penyelamatan yang dilakukan Basarnas itu terdiri dari kecelakaan pesawat, kapal, bencana hingga kondisi membahayakan manusia.
    Henri menyampaikan Basarnas bermitra dengan Esri Indonesia sebagai penyedia solusi geospasial di Indonesia untuk meningkatkan pemanfaatan teknologi Sistem Informasi Geografis (SIG), Analisa Big Data, dan Teknologi Kecerdasan Buatan (AI).

  4. Pakar: Jangan Percaya Big Data Luhut Jika Tak Berani Dibuka
    Pendiri Drone Emprit, Ismail Fahmi meminta publik untuk tidak mudah percaya terhadap pihak yang mengklaim memiliki big data namun enggan transparan. Dia merespons pernyataan Menko Marves Luhut Binsar Pandjaitan yang menyebut 110 juta orang di media sosial setuju Pemilu 2024 ditunda.

    “Ketika ada yang klaim big data, tapi tanpa buka metodologinya, itu jangan langsung dipercaya. Jadi harus terbuka metodologinya, supaya peneliti lain bisa replikasi ulang klaimnya,” kata Ismail dalam sebuah diskusi di Twitter, Senin (21/3)

  5. How Are Big Data, AI & Social Media Used To Hack Democracy?
    Bisakah demokrasi diretas? Artinya, dapatkah cara berpikir dan apa yang kita pikirkan dipengaruhi tanpa sepengetahuan kita? Gaia Rubera, kepala Department of Marketing and Amplifon Chair in Customer Science di Universitas Bocconi, berpendapat bahwa pertanyaan-pertanyaan ini menjadi semakin penting dalam beberapa tahun terakhir. Menurut Gaia, penggunaan big data, kecerdasan buatan (AI), dan media sosial untuk mencampuri proses pemilu dan mendorong penyebaran informasi yang salah telah mengalami peningkatan selama beberapa tahun terakhir, dan menimbulkan ancaman serius bagi masyarakat.

  6. Auto-generated Summaries in Google Docs
    Salah satu permasalahan utama yang sering dihadapi dalam pengelolaan dokumen adalah bagaimana mendapatkan gambaran singkat isi dokumen dengan cepat untuk dapat memprioritaskan dan memperlakukan dokumen itu dengan tepat dan efektif. Menyusun ringkasan dokumen dapat menjadi tantangan kognitif dan memakan waktu, terlebih ketika dokumen yang yang harus ditangani bervolume besar.
    Untuk mengatasi hal ini, Google Documents kini secara otomatis membuat saran untuk membantu penulis dokumen dalam membuat ringkasan konten, jika tersedia. Artikel ini menjelaskan bagaimana fitur ini diaktifkan menggunakan model pembelajaran mesin yang ‘memahami’ teks dokumen dan, setelah ‘yakin’, menghasilkan 1-2 kalimat deskripsi bahasa alami dari konten dokumen.
    Fitur ini saat ini hanya tersedia untuk pelanggan Google Workspace untuk bisnis.

  7. Andrew Ng predicts the next 10 years in AI
    Wawancara menarik dari VentureBeat dengan Andrew Ng mengenai “pendekatan data-centric” untuk AI, bagaimana cara kerjanya di dunia nyata, serta gambaran besar AI saat ini.

    Sebagai pakar dalam computer vision, Ng percaya bahwa pada suatu saat, pers dan publik akan mendeklarasikan model computer vision sebagai sebuah basis model. Namun memprediksi dengan tepat kapan itu akan terjadi adalah cerita lain. Bagaimana kita akan sampai di sana?

Tutorial dan pengetahuan teknis

  1. Machine learning and phone data can improve targeting of humanitarian aid
    Pandemi COVID-19 sangat berdampak pada banyak negara berpenghasilan rendah dan menengah, menyebabkan kerawanan pangan yang meluas dan penurunan tajam dalam standar hidup. Menanggapi krisis ini, pemerintah dan organisasi kemanusiaan di seluruh dunia telah mendistribusikan bantuan sosial kepada lebih dari 1,5 miliar orang. Penentuan target merupakan tantangan utama dalam mengelola program-program ini: sangat sulit untuk dapat secara cepat mengidentifikasi mereka yang paling membutuhkan dengan data yang tersedia. Dalam artikel ini ditunjukkan bahwa data dari jaringan telepon seluler dapat membantu penentuan target bantuan kemanusiaan. Pendekatan yang digunakan adalah data survei tradisional untuk melatih model pembelajaran mesin guna mengenali pola kemiskinan dari data ponsel; model ini kemudian dapat memprioritaskan bantuan kepada pelanggan seluler termiskin.

  2. A method to automatically generate radar-camera datasets for deep learning applications
    Para peneliti di University of Arizona baru-baru ini mengembangkan pendekatan baru untuk secara otomatis menghasilkan kumpulan data yang berisi gambar kamera-radar berlabel. Pendekatan yang dipresentasikan dalam makalah yang diterbitkan di IEEE Robotics and Automation Letters ini menggunakan algoritma pendeteksian objek yang sangat akurat pada aliran gambar kamera (disebut YOLO) dan teknik asosiasi (dikenal sebagai algoritma Hungaria) untuk pelabelan radar point-cloud.

  3. Is DataOps more than DevOps for data?
    DataOps dan DevOps adalah pendekatan kolaboratif antara pengembang dan tim operasional IT. Tren dimulai dengan DevOps terlebih dahulu. Pendekatan komunikasi dan kolaborasi ini kemudian diterapkan pada pengolahan data. Kedua metode ini sama-sama berprinsip bahwa kolaborasi adalah pendekatan utama untuk pengembangan aplikasi dan tim operasi TI, akan tetapi masing-masing menargetkan area operasi yang berbeda.

  4. Data Visualization in Python with matplotlib, Seaborn and Bokeh
    Visualisasi data adalah aspek penting dari semua aplikasi AI dan machine learning. Kita mendapatkan berbagai insight penting dari data melalui representasi grafis yang berbeda. Dalam tutorial ini, kita akan berbicara tentang beberapa opsi untuk visualisasi data dengan Python. Menggunakan dataset MNIST dan library Tensorflow untuk pemrosesan angka dan manipulasi data. Untuk mengilustrasikan berbagai metode dalam membuat berbagai jenis grafik, akan digunakan matplotlib, Seaborn dan Bokeh.

  5. A guide to implementing DevSecOps
    Panduan yang dapat diunduh ini dapat membantu Anda memetakan transformasi DevOps ke DevSecOps di organisasi Anda.

  6. Ploomber vs Kubeflow: Making MLOps Easier
    Artikel singkat ini mencoba menangkap perbedaan utama antara tools MLops Ploomber dan Kubeflow. Membahas beberapa latar belakang tentang apa itu Ploomber, pipeline Kubeflow, dan bagaimana keduanya dapat memudahkan implementasi dan operasional.

Rilis Produk

  1. Apache IoTDB 0.13.0 released
    Tim Apache IoTDB mengumumkan rilis Apache IoTDB 0.13.0.
    Apache IoTDB (Database untuk Internet of Things) adalah database native IoT dengan kinerja tinggi untuk manajemen dan analisis data, dapat diterapkan di edge dan cloud.
    Versi ini adalah versi major IoTDB, yang mencakup sejumlah fitur dan peningkatan baru

  2. Apache Qpid Proton 0.37.0 released
    Komunitas Apache Qpid (https://qpid.apache.org) mengumumkan ketersediaan segera Apache Qpid Proton 0.37.0.
    Apache Qpid Proton adalah messaging library untuk Advanced Message Queuing Protocol 1.0 (AMQP 1.0, ISO/IEC 19464, https://www.amqp.org ). Qpid Pronton dapat digunakan dalam berbagai aplikasi messaging termasuk broker, klien, router, bridge, proxy, dan banyak lagi.

  3. Apache SeaTunnel(Incubating) 2.1.0 released
    Tim Apache SeaTunnel(Incubating) mengumumkan rilis Apache SeaTunnel 2.1.0.
    SeaTunnel: SeaTunnel(Incubating) adalah platform integrasi data berkinerja tinggi yang terdistribusi untuk sinkronisasi dan transformasi data sangat besar (offline & real-time).

  4. Apache Tuweni (incubating) 2.2.0-incubating released
    Tim Apache Tuweni mengumumkan rilis Apache Tuweni (inkubasi) 2.2.0.
    Apache Tuweni adalah seperangkat library dan tools untuk membantu pengembangan blockchain dan perangkat lunak terdesentralisasi lainnya di Java dan bahasa JVM lainnya.
    Mencakup library byte tingkat rendah, codec serialisasi dan deserialisasi (misalnya RLP), berbagai fungsi dan primitive kriptografi, dan banyak utilitas bermanfaat lainnya. Tuweni dikembangkan untuk JDK 11 atau lebih tinggi, dan tergantung pada berbagai perpustakaan FOSS lainnya.

  5. Apache Geode 1.13.8
    Komunitas Apache Geode mengumumkan ketersediaan Apache Geode 1.13.8.
    Geode adalah platform manajemen data yang menyediakan model konsistensi seperti database, pemrosesan transaksi yang andal, dan arsitektur shared-nothing untuk mempertahankan kinerja latensi yang sangat rendah dengan pemrosesan konkurensi tinggi. Apache Geode 1.13.8 berisi sejumlah perbaikan bug. Pengguna sangat disarankan untuk meningkatkan ke rilis 1.14.x terbaru (saat ini 1.14.3).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 03 / 2019
  • Comments Off on Seputar Big Data edisi #76
AI, Artificial Intelligece, Big Data, Implementation, machine learning

Seputar Big Data edisi #76

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Oktober 2019.

Artikel dan berita

  1. Industry 4.0: Railways to integrate Big Data, AI
    Kementerian Perkerataapin India berkerja sama dengan Departemen Sains & Teknologi dan IIT-Kanpur, menginisiasi project Industri 4.0, yang mencakup sejumlah teknologi digital seperti AI, Big Data, Machine Learning dan Komputasi Awan.
  2. Big data as graphs
    Infografis 2019 mengenai data yang dihasilkan oleh sosial media, chat platform, music stream dan lainnya.
  3. Google AI’s ALBERT claims top spot in multiple NLP performance benchmarks
    Para peneliti dari Google AI (sebelumnya Google Research) dan Toyota Technological Institute of Chicago telah menciptakan ALBERT, sebuah model AI yang dapat mencapai hasil mutakhir melebihi kinerja manusia. ALBERT saat ini memuncaki peringkat kinerja NLP utama untuk tolok ukur seperti GLUE dan SQuAD 2.0, dan skor kinerja RACE yang tinggi.

Tutorial dan pengetahuan teknis

  1. A lightweight machine learning architecture for IoT streams
    Menjalankan model pembelajaran mesin pada data streaming frekuensi tinggi tidak harus berbiaya mahal. Dengan mempertimbangkan kebutuhan realtime yang kita miliki, kita dapat merancang arsitektur efisien yang dapat ditingkatkan dengan mudah.
  2. Know Your Data: Part 1
    Data cleansing dan ekstraksi fitur adalah pekerjaan yang paling membosankan tetapi harus benar-benar dikuasai untuk membuat model yang akurat. Langkah pertama dalam pemrosesan data adalah mengenal data itu sendiri.
    Artikel ini akan memperkenalkan berbagai jenis data set, objek data dan atribut.
  3. Analyse Kafka messages with SQL queries using Apache Drill
    Pada posting sebelumnya telah dibahas cara menghubungkan MongoDB dengan Apache Drill dan kueri data menggunakan SQL. Dalam posting ini akan dijelaskan bagaimana kita dapat menggunakan kueri SQL yang serupa untuk menganalisis Kafka message.
  4. YARN Capacity Scheduler and Node Labels Part 1
    Bagian pertama dari serial mengenai manajemen antrian YARN, yang bertujuan untuk memberikan gambaran umum tentang cara mengontrol pekerjaan YARN secara otomatis.
    Bagian ini mengeksplorasi bagaimana YARN bekerja dengan antrian, dan berbagai mekanisme yang tersedia untuk mengontrolnya.
  5. Mapping the Underlying Social Structure of Reddit
    Bagaimana mengolah dan menganalisis data untuk mengungkap “struktur sosial” dalam Reddit, situs populer untuk sharing opini dan agregat berita, menggunakan bahasa pemrograman R.
  6. Spark Tutorial: Validating Data in a Spark DataFrame Part Two
    Bagian kedua dari tutorial mengenai berbagai teknik validasi Spark DataFrame. Kali ini berfokus pada konversi User Defined Function (UDF).

Rilis Produk

  1. Google launches TensorFlow 2.0 with tighter Keras integration
    Google akhirnya mengumumkan rilis TensorFlow 2.0 hari ini.
    TensorFlow 2.0 hadir dengan sejumlah perubahan yang dibuat dalam upaya meningkatkan kemudahan penggunaan, seperti penghapusan beberapa API yang dianggap redundant dan integrasi yang ketat dan mengandalkan tf.keras sebagai API tingkat tinggi pusatnya.
  2. Amazon Releases New Public Data Set to Help Address “Cocktail Party” Problem
    Amazon mengumumkan rilis data baru kepada publik yang akan membantu para ilmuwan pidato mengatasi masalah sulit dalam memisahkan sinyal suara di ruang-ruang dengan banyak pembicara.
  3. Introducing Hypothesis GU Funcs, an Open Source Python Package for Unit Testing
    Uber memperkenalkan Hypothesis GU Func, ekstensi untuk paket Hypothesis, yang memungkinkan pengujian berbasis properti dari fungsi NumPy yang di-vektorisasi.
  4. GitHub Releases Dataset of Six Million Open-Source Methods for Code Search Research
    GitHub pekan lalu mengumumkan CodeSearchNet Challenge, yang bertujuan untuk mendorong penhembangan riset dalam bidang pencarian kode. Dataset yang besar dan beberapa model dasar yang menunjukkan kondisi terkini dalam pencarian kode telah dirilis untuk membantu para ilmuwan membangun model untuk tantangan tersebut.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 26 / 2019
  • Comments Off on Seputar Big Data edisi #75
Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Spark

Seputar Big Data edisi #75

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2019

Artikel dan berita

  1. Here’s why Databricks is one of the fastest growing big-data startups
    Databricks adalah penyedia platform analitik terpadu untuk “mempercepat inovasi dengan menyatukan data science, teknik, dan bisnis”, dan telah diintegrasikan dengan Azure Cloud Microsoft awal tahun ini.
  2. Spark vs Hadoop: Which Big Data Framework Will Elevate Your Business?
    Sebuah artikel yang memberikan gambaran umum mengenai perbandingan antara Apache Spark dan Hadoop dan membantu untuk menentukan mana yang merupakan pilihan tepat untuk kebutuhan Anda.
  3. 7 Disastrous Cybersecurity Mistakes In A Big Data World
    Big data yang berkembang pesat saat ini mendatangkan resiko baru untuk keamanan. Ketika mengimplementasikannya harus dipertimbangkan juga mengenai sisi keamanannya.
  4. Is Your Data Ready for AI?
    Perusahaan berusaha keras untuk memperkenalkan solusi apa pun yang mengarah kepada AI dan Machine Learning. Tetapi adopsi yang tergesa-gesa meninggalkan satu pertanyaan penting yang tidak terjawab.

Tutorial dan pengetahuan teknis

  1. Exploratory Data Analysis: A Practical Guide and Template for Structured Data
    Menurut Wikipedia, EDA “adalah pendekatan untuk menganalisis dataset untuk mengetahui karakteristik utama mereka, seringkali dengan menggunakan visualisasi”.
  2. Introducing Apache Flink’s State Processor API
    Posting ini memembahas pentingnya fitur State Processor API untuk Apache Flink, apa dan bagaimana menggunakannya. Dibahas pula mengenai masa depan State Processor API dan bagaimana fitur ini mendorong pengembangan Flink menjadi sistem terpadu untuk pemrosesan batch dan stream.
  3. BoW to BERT
    Penggunaan Bag of Word pada vektor kata adalah cara umum untuk membangun vektor dokumen untuk problem seperti klasifikasi. Tetapi BERT tidak memerlukan BoW karena pengambilan gambar vektor dari token [CLS] teratas sudah disiapkan untuk tujuan klasifikasi.
  4. How to Unlock the Full Potential of Kafka Producers
    Beberapa tips dari Gojek untuk konfigurasi dan tuning Kafka Producer.

Rilis Produk

  1. Cloudera Data Platform launches with multi/hybrid cloud savvy and mitigated Hadoop complexity
    Cloudera meluncurkan Cloudera Data Platform (CDP) pada 25 September 2019 lalu. Rilis ini adalah peristiwa penting yang membawa perubahan mendasar terhadap Hadoop dan Big Data secara keseluruhan. Hal ini adalah puncak dari beberapa peristiwa penting, termasuk mergernya Cloudera dengan rival sebelumnya, Hortonworks.
  2. This New Open Source Toolkit Aims to Give Chatbots Character
    Microsoft meng-open source toolkit conversational AI yang dinamakan IceCAPS, yaitu toolkit yang membantu developer “menanamkan persona” ke dalam chatbot mereka. IceCAPS adalah kerangka kerja modular berbasis TensorFlow, menggunakan jaringan syaraf tiruan yang melibatkan metode pemrosesan sinyal yang baru dan algoritma deep learning.
  3. [ANNOUNCE] Apache Ignite 2.7.6 Released
    Apache Ignite adalah database, caching, dan platform pemrosesan terdistribusi yang memori-sentris, untuk beban kerja transaksional, analitik, dan streaming.
    Rilis ini mencakup penyelesaian beberapa masalah kemudahan penggunaan dan stabilitas kritikal yang sering terjadi.
  4. Waltz: A Distributed Write-Ahead Log
    Waltz is a distributed write-ahead log, which is similar to existing log systems like Kafka. However, unlike other systems, Waltz provides a machinery that facilitates a serializable consistency in distributed applications. It detects conflicting transactions before they are committed to the log. Waltz is regarded as the single source of truth rather than the database, and it enables a highly reliable log-centric system architecture.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 06 / 2019
  • Comments Off on Seputar Big Data edisi #71
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #71

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu I bulan Mei 2019

Artikel dan berita

  1. Serbu! Kemenkominfo Buka 25 Ribu Beasiswa Big Data Cs Gratis
    Kementerian Komunikasi dan Informatika (Kemenkominfo) menggagas beasiswa pelatihan melalui Digital Talent Scholarship 2019 bagi 25 ribu peserta. Pelatihan itu meliputi bidang-bidang seperti artificial intelligence (AI), big data, cloud computing, cyber security, internet of things, dan machine learning.
  2. Facebook lets select researchers access ‘privacy-protected’ data
    Facebook memberikan akses khusus terhadap lebih dari 60 peneliti yang dipilih oleh 2 organisasi mitra, Social Science One dan Social Science Research Council (SSRC). Para peneliti tersebut dapat mengakses data yang dilindungi privasi tersebut untuk penelitian mengenai pengaruh media sosial terhadap demokrasi.
  3. Visualizing Disparities: How Mapping and Big Data Can Provide Insight into Social Equity Indicators
    Big data dan informasi geolokasi telah terbukti bermanfaat dalam persiapan dan penanganan bencana. Informasi tersebut juga dapat digunakan untuk mendapatkan insight terhadap komunitas, dan mengidentifikasi berbagai faktor yang mempengaruhi kualitas hidup masyarakat di wilayah tertentu, dengan cara seperti yang diuraikan dalam artikel ini.
  4. Harvard AI determines when tuberculosis becomes resistant to common drugs
    Tuberkulosis (TB) adalah salah satu penyakit paling mematikan di dunia. Pada tahun 2017 tercatat hampir 10 juta orang terinfeksi, dan 1,3 juta kematian terkait TB. Bakteri yang menyebabkan TB pun sulit untuk ditarget karena kemampuannya untuk mengembangkan resistensi terhadap obat tertentu. Para peneliti di Blavatnik Institute di Harvard Medical School telah merancang pendekatan komputasi yang mampu mendeteksi resistensi terhadap obat TB yang biasa digunakan, dengan kecepatan dan akurasi yang sangat baik.
  5. From drone swarms to modified E. Coli: say hello to a new wave of cyberattacks
    Para peneliti menciptakan malware berbasis AI yang dapat digunakan untuk menghasilkan gambar kanker palsu yang dapat menipu dokter yang paling ahli sekalipun. Dengan malware ini, pasien yang sehat bisa jadi akan mendapatkan kemoterapi dan radiasi, sedangkan pasien kanker justru akan dipulangkan begitu saja. Contoh ini menunjukkan bahwa serangan data adalah senjata nuklir abad ke-21. Lebih dari penguasa wilayah, siapapun yang menguasai data mampu memanipulasi perasaan dan pikiran masyarakat. Untuk itu pengambil kebijakan perlu memahami lebih baik resiko keamanan yang dapat muncul dari penggunaan AI.

Tutorial dan pengetahuan teknis

  1. Generative and Analytical Models for Data Analysis
    Artikel ini memberikan penjelasan yang sangat baik mengenai dua pendekatan data analisis yaitu generatif dan analitikal, perbedaan antara keduanya serta apa pentingnya. Dijelaskan juga mengenai apa bagian yang seringkali ‘hilang’ dalam proses data analisis, yang menghambat kesuksesan proses tersebut.
  2. How to Implement VGG, Inception and ResNet Modules for Convolutional Neural Networks from Scratch
    Terdapat beberapa model jaringan saraf convolutional yang telah terbukti berhasil dan berkinerja baik dalam menyelesaikan permasalahan seperti klasifikasi citra. Beberapa model di antaranya menggunakan komponen yang diulang berkali-kali seperti misalnya blok VGG dalam model VGG, modul inception dalam GooLeNet, dan model residual dalam ResNet. Artikel ini menjelaskan mengenai implementasi model-model tersebut dari 0.
  3. Detailed Guide to the Bar Chart in R with ggplot
    Pemilihan jenis grafik untuk menampilkan hasil analisis sangat menentukan kejelasan dan efektivitas penyajian informasi. Salah satu jenis grafik yang paling sederhana namun powerful adalah bar chart. Artikel ini menjelaskan penggunaan ggplot untuk membuat bar chart yang sesuai dengan kebutuhan kita.
  4. Why Your Spark Apps Are Slow Or Failing, Part II: Data Skew and Garbage Collection
    Bagian kedua dari serial artikel ini membahas mengenai permasalahan-permasalahan yang muncul dari data skew dan garbage collection dalam Spark.
  5. Optimizing Kafka Streams Applications
    Rilis Kafka 2.1.0 memperkenalkan framework optimisasi topologi prosesor pada layer Kafka Stream DSL. Artikel ini menjelaskan mengenai topologi prosesor pada Kafka versi sebelumnya, issue yang muncul yang terkait efisiensi, dan solusinya di versi 2.1.0. Dibahas pula mengenai bagaimana menyalakan optimisasi ini dalam proses upgrade Kafka.
  6. Normalization vs Standardization — Quantitative analysis
    Salah satu issue yang penting machine learning adalah feature scaling atau penskalaan fitur. Dua metode yang paling banyak dibahas adalah normalisasi dan standarisasi. Artikel ini menyajikan eksperimen untuk mencoba menjawab beberapa pertanyaan terkait pemilihan kedua metode tersebut dan dampaknya terhadap model yang dihasilkan.
  7. Improving Uber’s Mapping Accuracy with CatchME
    Transportasi andal membutuhkan peta yang akurat, yang menyediakan layanan seperti routing, navigasi, dan perhitungan perkiraan waktu kedatangan (ETA). Error pada peta dapat mengganggu layanan dan kepuasan pengguna. Uber berbagi pengalaman mengenai pemanfaatan berbagai feedback untuk meningkatkan kualitas peta, khususnya penggunaan GPS trace untuk mengenali inkonsistensi dalam data peta, dengan sistem yang dinamakan CatchMapError (CatchME).

Rilis Produk

  1. Facebook launches PyTorch 1.1 with TensorBoard support
    Facebook meluncurkan PyTorch 1.1 dengan dukungan TensorBoard dan peningkatan kompiler just-in-time (JIT). PyTorch 1.1 hadir dengan API baru, dukungan untuk tensor Boolean, recurrent neural networks kustom, dan peningkatan kompiler JIT untuk mengoptimalkan grafik komputasi.
  2. Open Sourcing Delta Lake
    Delta Lake adalah layer penyimpanan yang menjanjikan keandalan untuk data lake yang dibangun di atas HDFS dan penyimpanan cloud dengan menyediakan transaksi ACID melalui kontrol konkurensi optimis antara penulisan dan isolasi snapshot untuk pembacaan yang konsisten selama penulisan. Delta Lake juga menyediakan built-in data versioning untuk rollbacks dan pembuatan reports yang lebih mudah.Delta Lake tersedia di http://delta.io untuk diunduh dan digunakan di bawah Lisensi Apache 2.0.
  3. RStudio 1.2 Released
    Versi ini dirilis setelah lebih dari setahun development, mencakup banyak peningkatan dan kemampuan baru. Di antaranya, RStudio menjanjikan workbench yang lebih nyaman untuk SQL, Stan, Python, dan D3. Testing kode R yang lebih mudah dengan integrasi untuk shinytest dan testthat. Pembuatan, testing dan publish API dalam R dengan Plumber, serta dukungan background job untuk peningkatan produktivitas.
  4. Apache SINGA (incubating) 2.0.0 Released
    Apache SINGA adalah platform umum deep learning terdistribusi untuk melakukan training terhadap big deep learning model dengan dataset yang besar. Rilis ini mencakup beberapa penambahan fitur.
  5. Apache Beam 2.12.0 released
    Rilis ini mencakup beberapa penambahan fitur, peningkatan, dan perbaikan bugs.
  6. The Apache Software Foundation Announces Apache® SkyWalking™ as a Top-Level Project
    Apache Skywalking adalah tool Application Performance Monitor (APM) yang digunakan di Alibaba, China Eastern Airlines, Huawei, dan lain-lain. Memasuki Apache inkubator pada Desember 2017, baru-baru ini SkyWalking dinyatakan sebagai top level project Apache.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 07 / 2018
  • Comments Off on Seputar Big Data edisi #57
Apache, Artificial Intelligece, Big Data, Implementation

Seputar Big Data edisi #57

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke empat bulan November 2018.

Artikel dan berita

  1. Alibaba Open-Sources Its X-Deep Learning Framework
    Alibaba mengumumkan akan meng-opensource X-Deep Learning (XDL), framework algoritma di balik teknologi pemasaran dan platform big data mereka, Alimama. Rilis source code dan dokumen pendukung dijadwalkan dilakukan bulan Desember ini.
  2. Britain Is Developing an AI-Powered Predictive Policing System
    West Midlands Police (WMP), mengembangkan sistem yang menggunakan machine learning untuk menganalisis berbagai database polisi lokal dan nasional untuk mengidentifikasi mereka yang berisiko melakukan atau menjadi korban kejahatan. Mereka akan meluncurkan prototipe pada Maret 2019. Para ahli di bidang etika data menyuarakan kekhawatiran mereka mengenai aspek etis dalam penerapan sistem ini. Terlebih lagi, upaya pernah dilakukan oleh kepolisian Chicago, dan menimbulkan beberapa isu terkait bias terhadap ras tertentu.
  3. Facebook kept granting private data to high-profile advertisers long after it said it stopped
    Rabu lalu, parlemen Inggris merilis dokumen sepanjang 250 halaman, yang diantaranya menunjukkan bahwa Facebook tetap memberikan akses ke data-data pribadi penggunanya melalui Friend List ke perusahaan-perusahaan besar yang mereka catat dalam ‘whitelist’, bahkan sesudah mereka melakukan update API di tahun 2014.
  4. Big tech has your kid’s data — and you probably gave it to them
    Salah satu kegemaran orang tua di masa kini adalah memposting segala sesuatu tentang keluarga mereka, terutama anak-anak. Namun yang kurang disadari, mereka sebenarnya sedang membagikan data penting mengenai anak-anak mereka. Sebuah study di Inggris mengenai ‘datafikasi’ anak-anak dan akibatnya, menunjukkan bahwa posting semacam itu bisa jadi menimbulkan lebih banyak masalah daripada yang kita perkirakan.

Tutorial dan pengetahuan teknis

  1. Handling Imbalanced Datasets in Deep Learning
    Selain algoritma, faktor yang menentukan dalam deep learning adalah data. Salah satu permasalahan yang sering dihadapi adalah ketidakseimbangan data. Namun, perlu difahami terlebih dahulu apakah data imbalance ini betul-betul menjadi masalah untuk problem yang akan kita selesaikan. Artikel ini membahas mengenai apa itu data imbalance, mengapa perlu diperhatikan, dan apa yang dapat dilakukan untuk mengatasinya.
  2. Introduction to SparkSession
    Spark 2.0 membawa perubahan besar pada tingkat abstraksi untuk API dan library Spark. Artikel ini membahas salah satu fitur baru Spark 2.0 : SparkSession, termasuk kode Scala dan SQL yang perlu diketahui untuk menggunakannya.
  3. A Gentle Introduction to Dropout for Regularizing Deep Neural Networks
    Overfitting sangat mungkin terjadi pada deep neural network dengan dataset yang tidak mencukupi. Artikel ini membahas mengenai salah satu metode yang paling mudah dan murah namun cukup handal untuk mengatasi permasalahan overfitting ini, yaitu dropout.
  4. [FREE EBOOK] Data Science Live Book – Pablo Casas
    Buku mengenai data preparation, data analysis, dan pembelajaran mesin. Buku ini open source dengan contoh kode dalam R.

Rilis Produk

  1. Apache Flink 1.7.0 released
    Flink 1.7.0 merupakan rilis major, mencakup 420 penyelesaian issue serta peningkatan dan penambahan fitur yang menarik, diantaranya : support Scala 2.12, state evolution untuk aplikasi long-running, kombinasi CEP dengan SQL untuk pencocokan pola pada data stream, dan lain sebagainya.
  2. Apache Kylin 2.5.2 released
    Rilis ini adalah rilis minor setelah 2.5.1, mencakup 12 perbaikan bugs dan peningkatan.
    Apache Kylin adalah Distributed Analytics Engine open source yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) pada Apache Hadoop.
  3. Apache HBase 2.0.3 is now available for download
    HBase 2.0.3 adalah rilis maintenance ketiga dalam lini HBase 2.0. Rilis ini mencakup 120 perbaikan bug yang dilakukan pada versi 2.0.2.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 03 / 2018
  • Comments Off on Seputar Big Data edisi #56
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #56

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan November 2018.

Artikel dan berita

  1. If Waymo Is Having Difficulty, Everyone Else Must Be In A Right Autonomous Driving Pickle
    Setelah serangkaian insiden, Waymo mengumumkan penambahan fitur keamanan dalam mobil swakemudi mereka. Waymo juga mengembalikan posisi safety driver ke belakang kemudi, dan menambahkan kamera untuk memonitor kelelahan pengemudi. Hal ini menimbulkan beberapa pertanyaan mengenai kesiapan kendaraan swakemudi secara umum.
  2. Early Detection Of Epilepsy In Children Via Deep Learning Computer Science Technique
    Deteksi dini dari Benign epilepsy with centrotemporal spikes (BECT), jenis epilepsi yang paling umum pada anak-anak, kini dimungkinkan dengan menggunakan deep learning. Studi ini dilakukan oleh para peneliti dari Georgia State University.
  3. Amazon debuts a scale model autonomous car to teach developers machine learning
    Amazon hari ini mengumumkan AWS DeepRacer, mobil balap berskala 1/18 yang sepenuhnya otonom, yang bertujuan untuk membantu para developer mempelajari machine learning. Dibanderol dengan harga $399, mobil balap ini memungkinkan pengembang mendapatkan secara langsung dengan teknik pembelajaran mesin yang disebut reinforcement learning (RL).
  4. Deep learning will help keep video from clogging up the internet
    75% trafik internet adalah konten video, dan volume ini diperkirakan akan meningkat sampai 3 kali lipat di tahun 2021. Teknik kompresi data yang digunakan saat ini dianggap belum banyak berkembang dalam 20 tahun terakhir. WaveOne, sebuah perusahaan deep-learning, mengembangkan algoritma kompresi yang dapat melampaui kinerja kompresi yang ada saat ini, dengan menggunakan deep learning

Tutorial dan Pengetahuan Teknis

  1. Sales Forecasting Using Facebook’s Prophet
    Sales forecasting adalah salah satu pekerjaan paling umum di banyak perusahaan. Dalam tutorial ini, kita akan menggunakan Prophet, package yang dikembangkan oleh Facebook untuk melakukan Sales Forecasting. Package ini tersedia dalam Python dan R.
  2. How Druid enables analytics at Airbnb
    Airbnb memaparkan pengalaman mereka menggunakan Druid untuk analitik. Mereka menggambarkan bagaimana Druid melengkapi sistem big data mereka yang lain, bagaimana mereka memproses data dengan Spark Streaming, integrasi dengan Presto, pemantauan, dan apa tantangan/perbaikan di masa depan.
  3. 3 Ways to Prepare for Disaster Recovery in Multi-Datacenter Apache Kafka Deployments
    Disaster Recovery adalah hal yang sangat penting dalam memastikan kelangsungan bisnis. Artikel ini menjelaskan langkah-langkah yang perlu diambil untuk mempersiapkan DRM Kafka deployment dengan menggunakan Multi-Datacenter.
  4. [FREE EBOOK] Reinforcement Learning: An Introduction
    Reinforcement Learning: An Introduction, oleh Rich Sutton dan Andrew Barto dirilis tanggal 15 Oktober, 2018. Para penulisnya membagikan versi draft dalam format PDF di google drive. Buku ini sangat lengkap dan sesuai bagi yang ingin memulai mempelajari Reinforcement Learning.

Rilis Produk

  1. Apache Kafka 2.1.0
    Kafka versi 2.1.0 adalah rilis major yang mencakup 179 JIRA, termasuk di dalamnya penambahan fitur, peningkatan dan beberapa perbaikan bugs yang kritikal.
  2. Apache Bigtop 1.3.0 released
    Apache BigTop menyediakan packaging, testing dan konfigurasi komponen-komponen opensource big data yang komprehensif. Versi 1.3.0 dirilis dengan berbagai perbaikan, peningkatan dan penambahan fitur.
  3. boundary-layer : Declarative Airflow Workflows
    Etsy meng-opensource-kan tools mereka, yang disebut boundary-layer, yang digunakan mendefinisikan alur kerja Apache Airflow menggunakan YAML. Artikel ini menjelaskan secara detail mengenai alasan mereka dan bagaimana alat ini digunakan di Etsy.
  4. New fastMRI open source AI research tools from Facebook and NYU School of Medicine
    Facebook AI Research (FAIR) dan NYU School of Medicine’s Center for Advanced Imaging Innovation and Research (CAI²R) mengumumkan alat dan data open source baru sebagai bagian dari fastMRI, sebuah proyek penelitian bersama untuk memacu pengembangan sistem AI untuk mempercepat scan MRI hingga 10x. Rilis tersebut mencakup model dan baseline baru untuk tugas ini. Termasuk di dalamnya kumpulan data MRI berskala besar pertama, yang dapat berfungsi sebagai patokan untuk penelitian masa depan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234567
Tertarik dengan Big Data beserta ekosistemnya? Gabung