:::: MENU ::::

Posts Tagged / Machine Learning

  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 14 / 2019
  • Comments Off on Seputar Big Data edisi #65
Big Data, Medical Analytics, Spark

Seputar Big Data edisi #65

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2019.

Artikel dan berita

  1. Healthcare Innovation – 10 Recent Examples Of Powerful Innovation In Healthcare
    AI, design thinking, robotika, dan big data telah memasuki ke semua industri, tetapi mungkin dampak terbesarnya adalah di bidang kesehatan. Seiring berkembangnya teknologi dan inovasi di bidang kesehatan, startup dan rumah sakit telah menemukan cara luar biasa untuk meningkatkan penawaran mereka dan merevolusi industri.
  2. Lessons learned building natural language processing systems in health care
    Menerapkan sistem NLP untuk bidang kesehatan bukan hal yang mudah, karena membutuhkan pengetahuan umum dan medis yang luas, harus menangani beragam input, dan perlu memahami konteksnya. Tujuan artikel ini adalah untuk berbagi pengalaman dalam membangun sistem tersebut.
  3. TIBCO Snaps Up SnappyData: Spark + Geode on Steroids
    TIBCO Software telah membeli SnappyData, layanan platform data in-memory yang didukung oleh Apache Spark dan Apache Geode, dengan jumlah yang dirahasiakan. Kesepakatan itu, yang diumumkan Kamis 7 Maret lalu, adalah tanda terbaru dari konsolidasi industri di sektor analisa data, di tengah meningkatnya permintaan tools untuk data science yang lebih efektif.
  4. Beware the data science pin factory: The power of the full-stack data science generalist and the perils of division of labor through function
    Adam Smith menyatakan bahwa produktivitas tenaga kerja akan lebih maksimal apabila dilakukan pembagian kerja. Artikel ini membahas mengenai apakah optimasi semacam ini berlaku untuk penerapan data sains.

Tutorial dan pengetahuan teknis

  1. Catching a Unicorn with GLTR: A tool to detect automatically generated text
    GLTR (The Giant Language Model Test Room), adalah hasil kolaborasi antara MIT-IBM Watson AI lab and HarvardNLP. GLTR memeriksa jejak visual dari teks yang dihasilkan secara otomatis, sehingga memungkinkan analisis forensik tentang seberapa besar kemungkinan teks tersebut diasilkan oleh sistem otomatis. GLTR berpendapat bahwa teks yang dihasilkan secara otomatis, misalnya gpt2, terlihat nyata karena “terlalu bagus”. Generator teks meninggalkan jejak yang sulit untuk dideteksi manusia tetapi dapat diekspos dengan uji statistik.
  2. 3 Levels of Deep Learning Competence
    Deep learning bukanlah peluru ajaib, tetapi tekniknya telah terbukti sangat efektif dalam sejumlah besar domain masalah yang sangat menantang. Ini berarti bahwa ada banyak permintaan oleh bisnis untuk praktisi deep learning. Masalahnya adalah, bagaimana bisa yang mana merupakan praktisi yang baik dan kompeten?
  3. Kafka to HDFS/S3 Batch Ingestion Through Spark
    Ada beberapa kasus yang membutuhkan fungsi data ingestion dari Kafka ke HDFS/S3 secara batch, yang sebagian besar adalah untuk keperluan analisis data historis. Pada awalnya, topik ini terlihat mudah dan biasa saja. Tetapi ini penting dalam platform data yang menggunakan data riil dan langsung dari sistem seperti ecommerce, ads tech, platform agregat dan lain-lain.
  4. Hue in Docker
    Kontainer menawarkan cara modern untuk mengisolasi dan menjalankan aplikasi. Postingan ini adalah yang pertama dari seri yang menunjukkan cara menjalankan Hue sebagai layanan. Di sini, kita akan mengeksplorasi cara membangun, menjalankan, dan mengkonfigurasi image server Hue menggunakan Docker.
  5. Machine Learning with Big Data
    Menyimpan data adalah masalah tersendiri, tetapi bagaimana memprosesnya dan membangun algoritma machine learning menggunakan data tersebut juga penting. Dalam artikel ini akan dijelaskan bagaimana membangun platform machine learning yang bekerja paralel dan memiliki skalabilitas menggunakan komputasi awan dengan mudah untuk memproses data yang cukup besar.
  6. Exploring Neural Networks with Activation Atlases
    Neural network dapat belajar untuk mengklasifikasikan gambar dengan lebih akurat daripada sistem yang dirancang manusia secara manual. Ini menimbulkan pertanyaan: Apa yang dipelajari jaringan ini yang memungkinkan mereka untuk mengklasifikasikan gambar dengan sangat baik? Dengan menggunakan inversi fitur untuk memvisualisasikan jutaan aktivasi dari network klasifikasi gambar, OpenAI dan Google membuat atlas aktivasi fitur yang dapat mengungkapkan bagaimana jaringan merepresentasikan beberapa konsep.

Rilis Produk

  1. Introducing GPipe, an Open Source Library for Efficiently Training Large-scale Neural Network Models
    Divisi riset AI Google meng-opensource-kan GPipe, library untuk melatih deep neural network secara “efisien” di bawah Lingvo, kerangka kerja TensorFlow untuk pemodelan sekuens. Ini berlaku untuk jaringan apa pun yang terdiri dari beberapa lapisan sekuensial, dan memungkinkan peneliti untuk mengukur kinerja dengan relatif lebih mudah.
  2. Open Sourcing Peloton, Uber's Unified Resource Scheduler
    Peloton adalah scheduler resource terpadu, yang mampu mengelola sumber daya dengan beban kerja yang berbeda-beda, menggabungkan cluster komputasi terpisah. Peloton dirancang untuk perusahaan skala web seperti Uber dengan jutaan kontainer dan puluhan ribu node. Sebagai sistem cloud-agnostik, Peloton dapat dijalankan di data center on-premise ataupun cloud.
  3. R 3.5.3 now available
    Tim R Core mengumumkan kemarin rilis R 3.5.3, dan binari diperbarui untuk Windows dan Linux sekarang tersedia (dengan Mac pasti akan segera menyusul).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung