:::: MENU ::::

Posts Categorized / Apache

  • Apr 12 / 2019
  • Comments Off on Seputar Big Data edisi #69
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #69

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2019.

Artikel dan berita

  1. Google launches AI Platform, a collaborative model-making tool for data scientists
    Google meluncurkan AI Platform versi beta dalam Google Cloud Platform. AI Platform ini didesain untuk developer, data scientists, and data engineers. Semua tahap AI dapat dilakukan dengan mudah dan aman, mulai dari exploratory data analysis, pembuatan model, pemilihan model tertentu hingga mengimplementasikannya baik dalam Google Cloud maupun cloud lain.
  2. How AI and Big Data will Transform Banking in 2019
    Implementasi Big Data dan AI dapat memberikan manfaat dan pengaruh yang sangat besar bagi industri perbankan. Mulai dari menciptakan customer experience, saran dan perencanaan keuangan yang disesuaikan dengan pelanggan, hingga optimasi proses dan pekerjaan administrasi serta menurunkan biaya internal.
  3. How Waze is using data pacts, beacons, and carpools to win over cities
    Data lalu lintas ternyata dapat menjadi sumber yang sangat berharga dalam mengatasi berbagai permasalahan yang dihadapi berbagai kota di dunia. Dengan program CCP-nya, saat ini Waze telah bermitra dengan 900 kota dan organisasi di seluruh dunia dalam pemanfaatan data dan aplikasinya untuk pelayanan publik, mulai dari pengurangan polusi, kemacetan, penanganan bencana, dan lain sebagainya.
  4. Big Data Paves The Way For Fantastic New Social Listening Tools
    Big data memegang peranan yang lebih penting dari sebelumnya dalam menyelaraskan hubungan antara pelanggan dan sebuah merek atau brand. Hal ini memberi wawasan yang lebih baik pada sebuah merek tentang perilaku pelanggan, yang membantu mereka menjangkau mereka dengan lebih efektif. Aplikasi sosial listening adalah contoh utama dari aplikasi ini.
  5. AI/ML Lessons for Creating a Platform Strategy – Part 1
    Platform perusahaan (seperti visi, kebijakan dan strategi) memegang peranan yang sangat penting bagi perkembangan sebuah perusahaan. Dalam artikel ini diberikan beberapa contoh untuk membantu perusahaan mapan mengevaluasi diri, di mana mereka dapat membuat platform yang mendukung AI/ML agar tetap kompetitif.

Tutorial dan pengetahuan teknis

  1. Separating the Signal from the Noise: Robust Statistics for Pedestrians
    Salah satu permasalahan navigasi kendaraan swakemudi adalah memilih informasi di tengah noise dari berbagai sensor. Permasalahan semakin pelik karena seringkali kita tidak tahu yang mana noise dan yang mana data. Artikel ini menjelaskan mengenai algoritma RANSAC (RAndom SAmple Consensus) dan implementasinya dalam R.
  2. How to Load and Visualize Standard Computer Vision Datasets With Keras
    Untuk mulai mempelajari deep learning untuk computer vision, salah satu cara paling mudah adalah dengan mempergunakan dataset standar. Artikel ini menjelaskan mengenai beberapa dataset standar dan bagaimana mengolah dan menampilkannya dalam Keras.
  3. All you need to know about text preprocessing for NLP and Machine Learning
    ‘Garbage-in-garbage-out’ merupakan salah satu prinsip yang perlu selalu diingat dalam pemrosesan data, terlebih lagi untuk NLP dan machine learning. Kualitas data yang dihasilkan dalam preprocessing menentukan kualitas model yang dihasilkan. Dalam artikel ini dijelaskan mengenai berbagai teknik preprocessing teks, diantaranya stemming, lemmatization, noise removal, normalization, beserta contoh dan penjelasan tentang kapan Anda harus menggunakannya.
  4. Ingesting Data From Files With Apache Spark, Part 1
    CSV mungkin merupakan format pertukaran data yang paling populer saat ini. posting ini menunjukkan kepada kita bagaimana mengunggah data set dalam file CSV menggunakan Apache Spark.

Rilis Produk

  1. Apache Arrow 0.13.0 Release
    Rilis ini meliputi hasil development selama 2 bulan, mencakup 550 resolved issue dari 81 kontributor.
  2. Apache Flink 1.8.0 released
    Komunitas Apache Flink dengan bangga mengumumkan Apache Flink 1.8.0. Rilis terbaru mencakup lebih dari 420 masalah yang diselesaikan dan beberapa fitur tambahan menarik.
  3. Apache Nifi Version 1.9.2
    Versi 1.9.2 ini merupakan rilis stabilitas dan bug fixing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 28 / 2019
  • Comments Off on Seputar Big Data edisi #67
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #67

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan Maret 2019.

Artikel dan berita

  1. Turing Award And Million Given To 3 AI Pioneers
    The Association for Computing Machinery (ACM) memberikan penghargaan kepada Yoshua Bengio, Geoffrey Hinton dan Yann LeCun dengan award yang oleh banyak orang dianggap sebagai “Hadiah Nobel komputasi,” untuk inovasi yang mereka buat di bidang AI. Hadiah $1 juta yang didanai oleh Google, dinamai sesuai dengan ahli matematika Inggris Alan Turing, yang meletakkan dasar teoritis untuk ilmu komputer.
  2. McDonalds Orders a Large Side of Personalisation Technology
    McDonalds telah membeli perusahaan teknologi personalisasi dan “logika keputusan”, Dynamic Yield, yang dilaporkan bernilai $300 juta, dan menyatakan bahwa akuisisi tersebut akan membawa MCDonalds menjadi “salah satu perusahaan pertama yang mengintegrasikan teknologi keputusan ke dalam titik penjualan fisik.”
  3. Menilik Dampak AI dalam Tiga Tahun di Indonesia
    Presiden Direktur Microsoft Indonesia Haris Izmee mengatakan hasil penelitian bersama IDC Asia Pasifik menunjukkan bahwa penggunaan AI akan mendorong peningkatan inovasi di Indonesia hingga 1,7 kali lipat. Di Asia Pasifik sendiri, peningkatan inovasi karena AI akan meningkat 1,9 kali lipat. Haris mengatakan hal ini bagus untuk Indonesia. Inovasi dengan penggunaan AI akan menumbuhkan sistem digital ekonomi di Indonesia.
  4. Amazon to fund $10M to improve fairness in AI research
    Amazon bekerja sama dengan US National Science Foundation dengan memberikan total $10 juta dalam hibah penelitian selama tiga tahun ke depan untuk membantu meningkatkan fairness dalam bidang kecerdasan buatan.
  5. How I Built the Perfect Data Science Team
    Bagaimana membangun tim data sains berbeda dari tim development? Baca artikel ini untuk mendapatkan gambaran dari seorang ahli big data, terkait pengalamannya membentuk tim data saintis sejak 12 tahun yang lalu.
  6. 5 Practical Applications of AI in Contemporary Industries
    Saat ini kecerdasan buatan merambah berbagai bidang. Sejumlah elemen AI telah menjadi bagian dari kehidupan kita sehari-hari. Dari rumah pintar dan Internet of Things hingga teknik manufaktur, kecerdasan buatan digunakan saat kita berbicara untuk meningkatkan kehidupan kita. Dalam artikel ini, Anda akan mempelajari lebih lanjut tentang lima cara praktis AI digunakan di beberapa bidang utama.

Tutorial dan pengetahuan teknis

  1. R vs Python for Data Visualization
    Artikel ini menunjukkan pembuatan plot serupa di R dan Python menggunakan dua paket visualisasi data paling populer, yaitu ggplot2 dan Seaborn.
  2. Visualizing Trends in a Time Series With Pandas
    Sekilas mengenai cara menggunakan Python dan library Pandas untuk membuat visualisasi data dengan data yang dikumpulkan dari Google Trends.
  3. Reducing the Need for Labeled Data in Generative Adversarial Networks
    Untuk sintesis gambar alami, hasil canggih dicapai oleh GAN bersyarat yang memerlukan data berlabel untuk training. Pendekatan ini membutuhkan sejumlah besar data berlabel yang biasanya jarang tersedia. Artikel ini menjelaskan mengenai pendekatan baru untuk mengurangi jumlah data berlabel yang diperlukan untuk melatih GAN bersyarat.
  4. Uber Case Study: Choosing the Right HDFS File Format for Your Apache Spark Jobs
    Apache Spark mendukung sejumlah format file yang memungkinkan beberapa records disimpan dalam satu file. Setiap format file memiliki kelebihan dan kekurangannya sendiri. Dalam artikel ini diuraikan mengenai format file yang digunakan oleh tim Pengumpulan Data Maps di Uber untuk memproses sejumlah besar citra dan metadata untuk mengoptimalkan pengalaman bagi konsumen.
  5. Running Apache Flink on Kubernetes
    Artikel ini memaparkan mengenai bagaimana mengembangkan sebuah aplikasi stream prosesing menggunakan Flink di atas Kubernetes.
  6. Data Pipelines, Luigi, Airflow: Everything you need to know
    Posting ini berfokus pada sistem manajemen alur kerja (workflow management system) Airflow : apa itu, apa yang dapat Anda lakukan dengannya, dan bagaimana perbedaannya dari Luigi. Airflow dikembangkan di Airbnb pada tahun 2014 dan pada 2016 ia bergabung dengan program inkubasi Apache. Luigi adalah paket python untuk membangun workflow kompleks, dikembangkan di Spotify.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Unomi™ as a Top-Level Project
    Apache Software Foundation menyatakan bahwa Apache Unomi lepas dari status inkubator dan menjadi top-level project.
    Apache Unomi adalah Customer Data Platform (CDP) berbasis standard, yang mengelola pelanggan online, prospek, dan informasi pengunjung, untuk memberikan pengalaman yang dipersonalisasi dengan memperhatikan aturan privasi seperti GDPR dan pilihan “Do Not Track”. Project ini awalnya dikembangkan oleh Jahia, dan di-submit ke Apache incubator pada Oktober 2015.
  2. Apache Solr 8.0.0 released
    Sebagai rilis utama, Solr 8 menghapus banyak API yang sudah usang, mengubah berbagai default parameter dan perilaku. Beberapa perubahan mungkin memerlukan indeks ulang konten Anda. Oleh karena itu Anda dianjurkan untuk membaca “Upgrade Notes” di http://lucene.apache.org/solr/8_0_0/changes/Changes.html atau dalam file CHANGES.txt yang menyertai rilis. Solr 8.0 juga mencakup banyak fitur baru lainnya dan juga banyak optimisasi dan perbaikan bug dari rilis Apache Lucene yang sesuai.
  3. Kubernetes 1.14: Production-level support for Windows Nodes, Kubectl Updates, Persistent Local Volumes GA
    Kubernetes 1.14 terdiri dari 31 peningkatan: 10 pindah ke level stabil, 12 dalam level beta, dan 7 baru. Tema utama dari rilis ini adalah ekstensibilitas dan mendukung lebih banyak beban kerja di Kubernet dengan tiga fitur utama yang beralih ke general availability, dan fitur keamanan penting yang beralih ke level beta. Lebih banyak peningkatan yang lulus ke tingkat stabil dalam rilis ini daripada rilis Kubernet sebelumnya. Selain itu, dalam rilis ini terdapat peningkatan Pod dan RBAC yang penting.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 22 / 2019
  • Comments Off on Seputar Big Data edisi #66
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #66

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Maret 2019.

Artikel dan berita

  1. Big data AI startup Noble.AI raises a second seed round from a chemical giant
    Noble.AI, sebuah perusahaan AI berbasis yang mengklaim dapat mempercepat pengambilan keputusan dalam R&D, mendapatkan pendanaan baru dari Solvay Ventures, cabang VC dari sebuah perusahaan kimia besar, Solvay SA. Meskipun ronde tersebut dirahasiakan, TechCrunch mengetahui bahwa total pendanaan yang diperoleh Noble.AI hingga saat ini adalah US$8,6 juta.
  2. Big Data – The Budget Myth
    Banyak departemen TI mengimplementasi big data dengan membuat anggaran untuk perangkat keras dan perangkat lunak saja. Mereka tidak menyadari bahwa keberhasilan solusi mereka di masa depan tergantung pada perencanaan anggaran yang efektif untuk beberapa area penting lainnya.
  3. Singapore’s Top 10 High Growth Analytics & AI Startups With The Highest Funding
    Investasi modal ventura di startup Singapura tumbuh subur beberapa tahun terakhir dengan banyak investasi di bidang AI, IoT, analitik, data sains, dan startup cloud. Artikel ini mengulas 10 startup terkemuka di bidang teknologi yang mendapat pendanaan terbesar dalam dua tahun terakhir di Singapura.
  4. UW campuses using big data to predict students at risk of dropping out
    University of Wisconsin System baru-baru ini menyewa jasa konsultan big data untuk membantu mengidentifikasi siswa yang berisiko dan menyelamatkan mereka dari drop out. UW menandatangani kontrak untuk lima tahun senilai $10,8 juta. UW mendapatkan akses ke perangkat lunak analitik prediktif yang menghitung “skor risiko” siswa berdasarkan demografi, nilai tes dan transkrip sekolah menengah mereka.
  5. Researchers teach neural networks to determine crowd emotions
    Para ahli dari Higher School Of Economics telah mengembangkan suatu algoritma yang mendeteksi emosi dari sekelompok orang pada video berkualitas rendah. Solusi ini memberikan keputusan hanya dalam seperseratus detik, lebih cepat daripada algoritma lain yang ada, dengan akurasi yang sama. Hasilnya dijelaskan dalam makalah ‘Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings.’

Tutorial dan pengetahuan teknis

  1. How to Train a Keras Model 20x Faster with a TPU for Free
    Artikel ini menjelaskan bagaimana melatih Model LSTM menggunakan Keras dan Google CoLaboratory dengan TPU untuk mengurangi waktu pelatihan secara eksponensial dibandingkan dengan GPU pada mesin lokal Anda, secara gratis.
  2. A Gentle Introduction to Computer Vision
    Artikel ini menyajikan pengenalan terhadap bidang computer vision (CV), mencakup definisi, tujuan, tantangan dan apa task yang diselesaikan menggunakan CV.
  3. Harnessing Organizational Knowledge for Machine Learning
    Salah satu hambatan terbesar dalam mengembangkan aplikasi pembelajaran mesin (ML) adalah kebutuhan akan kumpulan data berlabel yang besar untuk melatih model. Google bekerja sama dengan Stanford dan Brown University, mengeksplorasi bagaimana pengetahuan yang ada dalam suatu organisasi dapat digunakan sebagai supervisi tingkat tinggi yang lebih ‘noisy’, atau sering disebut ‘weak supervision’, untuk melabeli kumpulan data training dengan cepat.
  4. Using Apache Spark to Query a Remote Authenticated MongoDB Server
    Apache Spark adalah salah satu alat open source paling populer untuk data besar. Pelajari cara menggunakannya untuk mengambil data dari server MongoDB jarak jauh.
  5. SOA vs. EDA: Is Not Life Simply a Series of Events?
    Kapan Anda harus menggunakan API? Kapan Anda harus menggunakan event? Sebagian besar arsitektur perangkat lunak kontemporer adalah gabungan dari dua pendekatan ini. Artikel ini mencoba menjelaskan dalam istilah awam apa itu arsitektur berbasis event (EDA) dan membandingkannya dengan arsitektur berorientasi layanan (SOA).
  6. The Importance of Data Lineage
    Dalam hal pengumpulan dan analisis yang akurat dari sejumlah besar informasi, data lineage merupakan aspek yang sangat penting. Artikel ini menjelaskan mengenai apa itu data lineage, dan mengapa data lineage perlu dicatat.
  7. Top R Packages for Data Cleaning
    Pembersihan data adalah salah satu tugas yang paling penting dan memakan waktu bagi para data saintis. Berikut ini adalah paket R paling populer untuk data cleansing.

Rilis Produk

  1. Apache Kudu 1.9.0 Released
    Rilis 1.9.0 ini adalah rilis minor yang mencakup perbaikan bugs, penambahan fitur, peningkatan dan optimasi.
  2. Apache NiFi 1.9.1 release
    Versi 1.9.1 ini adalah bug dan stability release.
  3. Apache Kylin 2.6.1 released
    Versi ini merupakan rilis bugfix sesudah versi 2.6.0, dengan 7 peningkatan fitur dan 19 perbaikan bugs. Apache Kylin adalah Engine analitik terdistribusi yang dirancang untuk memberikan antarmuka SQL dan analisis multidimensional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 08 / 2019
  • Comments Off on Seputar Big Data edisi #64
Apache, Big Data, Medical Analytics

Seputar Big Data edisi #64

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Maret 2019.

Artikel dan berita

  1. Data Lakes Take Healthcare Analytics to the Next Level
    Pada dasarnya, data lake adalah arsitektur yang digunakan untuk menyimpan data bervolume besar, memiliki kecepatan tinggi, bervariasi tinggi, sebagaimana adanya data dalam repositori terpusat untuk Big Data dan analisa real-time. Organisasi layanan kesehatan dapat mengakses data dalam jumlah besar – terstruktur, semi terstruktur, dan tidak terstruktur – secara real time melalui data lake, dari mana saja.
  2. Kembangkan Pariwisata, Grab Bangun Big Data
    Baru-baru ini, Otoritas Pariwisata Thailand (TAT) dan Grab Thailand mengumumkan kerjasama strategis untuk membangun sistem data yang merupakan bagian dari proyek.
    Dengan sistem yang telah dimiliki oleh GrabTaxi Thailand, TAT bisa mengembangkan sistem lebih cerdas untuk pariwisata, yang akan mendukung strategi dan rencana pemasaran TAT
  3. How AI/ML Help Secure the US Power Grid Infrastructure
    Jaringan listrik Amerika Serikat adalah salah satu sistem paling kompleks di seluruh dunia. Pemerintah A.S. dan perusahaan-perusahaan listrik dan gas mulai fokus terhadap teknologi-teknologi masa depan di mana ilmu-ilmu baru seperti AI dan machine learning dapat dimanfaatkan untuk membantu mengamankan jaringan listrik, infrastrukturnya, dan pelanggan nasional.

Tutorial dan pengetahuan teknis

  1. A Gentle Introduction to Learning Curves for Diagnosing Machine Learning Model Performance
    Kurva model pembelajaran sering digunakan untuk mendeteksi masalah dalam proses learning, seperti misalnya apakah model underfit atau overfit, ataupun apakah dataset yang digunakan telah cukup representatif. Artikel ini membahas mengenai bagaimana melakukan evaluasi terhadap kinerja model, memvisualisasikan hasil evaluasi untuk mendapatkan kurva belajarnya, serta memanfaatkan kurva tersebut untuk mendeteksi permasalahan dalam proses learning itu sendiri.
  2. Journey to Event Driven – Part 3: The Affinity Between Events, Streams and Serverless
    Kunci dari desain sistem event-first adalah memahami bahwa serangkaian event menunjukkan perilaku. Dengan menyimpan aliran event di Kafka, kita memiliki catatan semua aktivitas sistem, dan juga mekanisme untuk mendorong reaksi. Artikel ini juga akan mengeksplorasi bagaimana karakteristik runtime FaaS (Function as a Service) cocok untuk berbagai jenis pemrosesan, karena dalam beberapa kasus, masalah latensi atau konkurensi perlu dipenuhi.
  3. Text Mining 101: What it Is and How it Works
    Sebuah pengantar yang bagus untuk bidang teks mining, yang mencakup kasus penggunaan populer, algoritma, dan implikasinya dalam AI dan ML.
  4. Spark Streaming and Kafka, Part 2 – Configuring a Kafka Connector
    Dalam posting sebelumnya, dibahas mengenai pengembangan Kafka Source Connector kustom, yang ditulis dalam Scala. Posting kali ini adalah mengenai konfigurasi dan setting Konektor tersebut.

Rilis Produk

  1. Apache Kafka 2.1.1
    Versi ini adalah bugfix rilis untuk Kafka 2.1.0. Perubahan yang tercakup dalam rilis ini dapat ditemukan dalam rilis note berikut ini :
    https://www.apache.org/dist/kafka/2.1.1/RELEASE_NOTES.html.
  2. Apache NiFi 1.9.0 release
    Selain lebih dari 100 perubahan, perbaikan bugs dan peningkatan, rilis ini juga mencakup fitur yang memudahkan integrasi dengan Apache Kudu dan Impala, serta memperkuat integrasi dengan Google BigQuery dan AWS. Komponen dan ekstensi baru dapat di-load secara runtime, sehingga meminimalisir downtime operasional.
  3. Apache Trafodion 2.3.0 is released
    Apache Trafodion adalah solusi SQL-on-Hadoop solution yang memungkinkan operasi transaksional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 21 / 2019
  • Comments Off on Seputar Big Data edisi #63
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #63

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga Februari 2019.

Artikel dan berita

  1. New AI fake text generator may be too dangerous to release, say creators
    OpenAI, sebuah perusahaan riset nirlaba merilis model bahasa alami yang disebut GPT-2. GPT-2 dilatih dengan sampel 40 gigabytes teks internet, untuk memprediksi kata selanjutnya dari sepotong teks input. Hasil akhirnya adalah sistem yang dapat menghasilkan teks yang realistis dan koheren. OpenAI menyatakan bahwa sistem ini bekerja dengan sangat baik, sehingga dikhawatirkan akan disalahgunakan untuk tujuan negatif seperti misalnya membuat ‘fake-news’. Hal ini mendorong OpenAI untuk membuka sebagian kecil saja dari keseluruhan model tersebut.
  2. How does NASA use big data?
    Istilah “big data” pertama kali digunakan dalam makalah tahun 1997 oleh para ilmuwan di NASA. Volume data yang harus dikelola NASA sangat besar. Menurut Kevin Murphy, Eksekutif Program NASA untuk Sistem Data Ilmu Bumi, NASA – salah satu penghasil data terbesar – menghasilkan 12,1TB data setiap hari dari hampir 100 misi aktif saat ini dan ribuan sensor dan sistem di sekitar Bumi dan luar angkasa. Bagaimana NASA menangani dan mengelola data tersebut?
  3. Google to Spend $13B on US Data Center and Office Construction This Year
    Google akan membangun empat fasilitas data center baru tahun ini, dengan ekspansi besar di tiga lokasi lain. CEO Alphabet, Sundar Pichai mengatakan bahwa setelah menghabiskan $9 miliar pada tahun 2018 untuk pembangunan kantor dan data center, perusahaan akan menaikkan investasi pada 2019 menjadi US $13 miliar.
  4. China’s big data sector to expand rapidly in 2019
    Sektor big data China akan mempertahankan pertumbuhan yang pesat pada 2019. Industri inti di sektor ini diperkirakan bernilai lebih dari 720 miliar yuan (sekitar 106,3 miliar dolar AS) tahun ini, menurut sebuah laporan tentang prospek sektor yang dirilis oleh think tank CCID.
  5. Big Data in the Renewable Energy Sector
    Bagaimana big data dan AI dapat digunakan untuk meningkatkan efisiensi produksi energi terbarukan dan menawarkan peluang untuk mengurangi konsumsi listrik?
  6. Top 10 Data Science Use Cases in Telecom
    Artikel ini menyajikan 10 use case data sains yang paling relevan dan efisien dalam bidang telekomunikasi.
  7. Here Technologies to fund a $28 million research institute that applies machine learning to geolocation data
    Here Technologies, perusahaan di balik platform pemetaan dan lokasi yang populer, mengungkapkan bahwa mereka melakukan investasi sebesar 25 juta Euro (28 juta dolar AS) untuk sebuah lembaga penelitian machine learning baru yang akan mengolah data geolokasi dalam skala industri.

Tutorial dan pengetahuan teknis

  1. Backpropagation for people who are afraid of math
    Backpropagation adalah salah satu konsep terpenting dalam pembelajaran mesin, namun memahami konsepnya bisa jadi cukup menantang bagi banyak orang. Artikel ini berusaha menjabarkan backpropagation dengan jelas dan sederhana, lengkap dengan contoh program, terutama untuk mereka yang ‘alergi’ dengan persamaan matematis yang rumit.
  2. Neural Networks seem to follow a puzzlingly simple strategy to classify images
    Artikel ini membahas bahwa ternyata Deep Neural Networks masih dapat mengenali dengan baik gambar yang diacak dan bagaimana hal ini menunjukkan bahwa DNN ternyata menggunakan strategi yang cukup “sederhana” untuk melakukan klasifikasi gambar, serta beberapa konsekuensinya.
  3. Error Handling for Apache Beam and BigQuery (Java SDK)
    Pernahkah anda berurusan dengan error yang membingungkan dan membuat frustasi ketika bekerja dengan Apache Beam dan BigQuery? Artikel ini mencoba mengupasnya beserta langkah yang perlu dilakukan untuk mengatasinya.
  4. Are BERT Features InterBERTible?
    Setelah word2vec kini muncul teknik baru dalam word embedding, yaitu BERT (Bidirectional Encoder Representations from Transformers) yang diperkenalkan Google pada Oktober lalu. Artikel ini mencoba mengulas BERT dari sisi interpretabilitasnya.
  5. Journey to Event Driven – Part 2: Programming Models for the Event-Driven Architecture
    Setelah pada bagian 1 membahas mengapa “event-first thinking” perlu, artikel ini menjelaskan mengenai berbagai gaya arsitektur yang bersifat event-driven dan membandingkan model skala, persistensi dan model runtimenya, serta contoh high-level dataflow untuk melakukan desain sistem payment processing menggunakan pendekatan ini.

Rilis Produk

  1. SMM 1.2 Released with Powerful New Alerting and Topic Lifecycle Management Features with Schema Registry Integration
    Streams Messaging Manager (SMM) 1.2 menghadirkan tiga fitur yang paling banyak ditunggu SMM user : Topic Lifecycle Management, Alerting dan Integrasi skema registry.
  2. Introducing Nauta: A Distributed Deep Learning Platform for Kubernetes
    Intel merilis platform baru yang dinamai Nauta, yang memungkinkan para ilmuwan dan pengembang data menggunakan Kubernetes dan Docker untuk melakukan deep learning terdistribusi berskala besar. Nauta menyediakan “lingkungan komputasi terdistribusi multi-pengguna” untuk menjalankan eksperimen training model DL pada sistem berbasis prosesor Intel Xeon, menggunakan antarmuka command line, web dan/atau TensorBoard dan didukung oleh Kubeflow dan Docker.
  3. Introducing AresDB: Uber’s GPU-Powered Open Source, Real-time Analytics Engine
    AresDB adalah engine analitik realtime open source yang dikembangkan Uber, memanfaatkan unit pemrosesan grafis (GPU) untuk memungkinkan pengembangan analitik berskala besar.
  4. Apache Flink 1.7.2 released
    Apache Flink 1.7.2 adalah rilis perbaikan bug yang kedua dalam seri 1.7.
  5. Apache Beam 2.10.0 released!
    Rilis 2.10 ini mencakup beberapa perbaikan bug, fitur, dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 07 / 2018
  • Comments Off on Seputar Big Data edisi #57
Apache, Artificial Intelligece, Big Data, Implementation

Seputar Big Data edisi #57

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke empat bulan November 2018.

Artikel dan berita

  1. Alibaba Open-Sources Its X-Deep Learning Framework
    Alibaba mengumumkan akan meng-opensource X-Deep Learning (XDL), framework algoritma di balik teknologi pemasaran dan platform big data mereka, Alimama. Rilis source code dan dokumen pendukung dijadwalkan dilakukan bulan Desember ini.
  2. Britain Is Developing an AI-Powered Predictive Policing System
    West Midlands Police (WMP), mengembangkan sistem yang menggunakan machine learning untuk menganalisis berbagai database polisi lokal dan nasional untuk mengidentifikasi mereka yang berisiko melakukan atau menjadi korban kejahatan. Mereka akan meluncurkan prototipe pada Maret 2019. Para ahli di bidang etika data menyuarakan kekhawatiran mereka mengenai aspek etis dalam penerapan sistem ini. Terlebih lagi, upaya pernah dilakukan oleh kepolisian Chicago, dan menimbulkan beberapa isu terkait bias terhadap ras tertentu.
  3. Facebook kept granting private data to high-profile advertisers long after it said it stopped
    Rabu lalu, parlemen Inggris merilis dokumen sepanjang 250 halaman, yang diantaranya menunjukkan bahwa Facebook tetap memberikan akses ke data-data pribadi penggunanya melalui Friend List ke perusahaan-perusahaan besar yang mereka catat dalam ‘whitelist’, bahkan sesudah mereka melakukan update API di tahun 2014.
  4. Big tech has your kid’s data — and you probably gave it to them
    Salah satu kegemaran orang tua di masa kini adalah memposting segala sesuatu tentang keluarga mereka, terutama anak-anak. Namun yang kurang disadari, mereka sebenarnya sedang membagikan data penting mengenai anak-anak mereka. Sebuah study di Inggris mengenai ‘datafikasi’ anak-anak dan akibatnya, menunjukkan bahwa posting semacam itu bisa jadi menimbulkan lebih banyak masalah daripada yang kita perkirakan.

Tutorial dan pengetahuan teknis

  1. Handling Imbalanced Datasets in Deep Learning
    Selain algoritma, faktor yang menentukan dalam deep learning adalah data. Salah satu permasalahan yang sering dihadapi adalah ketidakseimbangan data. Namun, perlu difahami terlebih dahulu apakah data imbalance ini betul-betul menjadi masalah untuk problem yang akan kita selesaikan. Artikel ini membahas mengenai apa itu data imbalance, mengapa perlu diperhatikan, dan apa yang dapat dilakukan untuk mengatasinya.
  2. Introduction to SparkSession
    Spark 2.0 membawa perubahan besar pada tingkat abstraksi untuk API dan library Spark. Artikel ini membahas salah satu fitur baru Spark 2.0 : SparkSession, termasuk kode Scala dan SQL yang perlu diketahui untuk menggunakannya.
  3. A Gentle Introduction to Dropout for Regularizing Deep Neural Networks
    Overfitting sangat mungkin terjadi pada deep neural network dengan dataset yang tidak mencukupi. Artikel ini membahas mengenai salah satu metode yang paling mudah dan murah namun cukup handal untuk mengatasi permasalahan overfitting ini, yaitu dropout.
  4. [FREE EBOOK] Data Science Live Book – Pablo Casas
    Buku mengenai data preparation, data analysis, dan pembelajaran mesin. Buku ini open source dengan contoh kode dalam R.

Rilis Produk

  1. Apache Flink 1.7.0 released
    Flink 1.7.0 merupakan rilis major, mencakup 420 penyelesaian issue serta peningkatan dan penambahan fitur yang menarik, diantaranya : support Scala 2.12, state evolution untuk aplikasi long-running, kombinasi CEP dengan SQL untuk pencocokan pola pada data stream, dan lain sebagainya.
  2. Apache Kylin 2.5.2 released
    Rilis ini adalah rilis minor setelah 2.5.1, mencakup 12 perbaikan bugs dan peningkatan.
    Apache Kylin adalah Distributed Analytics Engine open source yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) pada Apache Hadoop.
  3. Apache HBase 2.0.3 is now available for download
    HBase 2.0.3 adalah rilis maintenance ketiga dalam lini HBase 2.0. Rilis ini mencakup 120 perbaikan bug yang dilakukan pada versi 2.0.2.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 03 / 2018
  • Comments Off on Seputar Big Data edisi #56
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #56

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan November 2018.

Artikel dan berita

  1. If Waymo Is Having Difficulty, Everyone Else Must Be In A Right Autonomous Driving Pickle
    Setelah serangkaian insiden, Waymo mengumumkan penambahan fitur keamanan dalam mobil swakemudi mereka. Waymo juga mengembalikan posisi safety driver ke belakang kemudi, dan menambahkan kamera untuk memonitor kelelahan pengemudi. Hal ini menimbulkan beberapa pertanyaan mengenai kesiapan kendaraan swakemudi secara umum.
  2. Early Detection Of Epilepsy In Children Via Deep Learning Computer Science Technique
    Deteksi dini dari Benign epilepsy with centrotemporal spikes (BECT), jenis epilepsi yang paling umum pada anak-anak, kini dimungkinkan dengan menggunakan deep learning. Studi ini dilakukan oleh para peneliti dari Georgia State University.
  3. Amazon debuts a scale model autonomous car to teach developers machine learning
    Amazon hari ini mengumumkan AWS DeepRacer, mobil balap berskala 1/18 yang sepenuhnya otonom, yang bertujuan untuk membantu para developer mempelajari machine learning. Dibanderol dengan harga $399, mobil balap ini memungkinkan pengembang mendapatkan secara langsung dengan teknik pembelajaran mesin yang disebut reinforcement learning (RL).
  4. Deep learning will help keep video from clogging up the internet
    75% trafik internet adalah konten video, dan volume ini diperkirakan akan meningkat sampai 3 kali lipat di tahun 2021. Teknik kompresi data yang digunakan saat ini dianggap belum banyak berkembang dalam 20 tahun terakhir. WaveOne, sebuah perusahaan deep-learning, mengembangkan algoritma kompresi yang dapat melampaui kinerja kompresi yang ada saat ini, dengan menggunakan deep learning

Tutorial dan Pengetahuan Teknis

  1. Sales Forecasting Using Facebook’s Prophet
    Sales forecasting adalah salah satu pekerjaan paling umum di banyak perusahaan. Dalam tutorial ini, kita akan menggunakan Prophet, package yang dikembangkan oleh Facebook untuk melakukan Sales Forecasting. Package ini tersedia dalam Python dan R.
  2. How Druid enables analytics at Airbnb
    Airbnb memaparkan pengalaman mereka menggunakan Druid untuk analitik. Mereka menggambarkan bagaimana Druid melengkapi sistem big data mereka yang lain, bagaimana mereka memproses data dengan Spark Streaming, integrasi dengan Presto, pemantauan, dan apa tantangan/perbaikan di masa depan.
  3. 3 Ways to Prepare for Disaster Recovery in Multi-Datacenter Apache Kafka Deployments
    Disaster Recovery adalah hal yang sangat penting dalam memastikan kelangsungan bisnis. Artikel ini menjelaskan langkah-langkah yang perlu diambil untuk mempersiapkan DRM Kafka deployment dengan menggunakan Multi-Datacenter.
  4. [FREE EBOOK] Reinforcement Learning: An Introduction
    Reinforcement Learning: An Introduction, oleh Rich Sutton dan Andrew Barto dirilis tanggal 15 Oktober, 2018. Para penulisnya membagikan versi draft dalam format PDF di google drive. Buku ini sangat lengkap dan sesuai bagi yang ingin memulai mempelajari Reinforcement Learning.

Rilis Produk

  1. Apache Kafka 2.1.0
    Kafka versi 2.1.0 adalah rilis major yang mencakup 179 JIRA, termasuk di dalamnya penambahan fitur, peningkatan dan beberapa perbaikan bugs yang kritikal.
  2. Apache Bigtop 1.3.0 released
    Apache BigTop menyediakan packaging, testing dan konfigurasi komponen-komponen opensource big data yang komprehensif. Versi 1.3.0 dirilis dengan berbagai perbaikan, peningkatan dan penambahan fitur.
  3. boundary-layer : Declarative Airflow Workflows
    Etsy meng-opensource-kan tools mereka, yang disebut boundary-layer, yang digunakan mendefinisikan alur kerja Apache Airflow menggunakan YAML. Artikel ini menjelaskan secara detail mengenai alasan mereka dan bagaimana alat ini digunakan di Etsy.
  4. New fastMRI open source AI research tools from Facebook and NYU School of Medicine
    Facebook AI Research (FAIR) dan NYU School of Medicine’s Center for Advanced Imaging Innovation and Research (CAI²R) mengumumkan alat dan data open source baru sebagai bagian dari fastMRI, sebuah proyek penelitian bersama untuk memacu pengembangan sistem AI untuk mempercepat scan MRI hingga 10x. Rilis tersebut mencakup model dan baseline baru untuk tugas ini. Termasuk di dalamnya kumpulan data MRI berskala besar pertama, yang dapat berfungsi sebagai patokan untuk penelitian masa depan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 21 / 2018
  • Comments Off on Seputar Big Data edisi #55
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Medical Analytics

Seputar Big Data edisi #55

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan November 2018.

Artikel dan Berita

  1. If You Drive in Los Angeles, the Cops Can Track Your Every Move
    Palantir sejak tahun 2012 mengembangkan sistem Automatic License Plate Reader, yang menyimpan database foto kendaraan yang melintas di jalan raya. ALPR menggunakan kamera digital yang ada di gedung, lampu lalu lintas dan mobil patroli. Teknologi computer-vision dapat mengenali dan membaca plat kendaraan yang melintas.
  2. Machine learning, meet quantum computing
    Francesco Tacchino dan rekan-rekannya yang merupakan peneliti dari Universitas Pavia di Italia, telah membangun perceptron pertama di dunia yang diimplementasikan diatas komputasi kuantum dan menerapkannya untuk memproses gambar sederhana.
  3. A deep learning approach to identify Twitter users’ location during emergencies
    Peneliti dari National Institute of Technology Patna, India, baru-baru ini mengembangkan metode untuk mengidentifikasi lokasi geografis dari keadaan darurat dan bencana serta orang-orang yang berada di sekitarnya. Metode ini mereka publikasikan dalam the International Journal of Disaster Risk Reduction
  4. How AI and Genomics Can Help Fight Antibiotic Resistance
    Antimicrobial Resistance (AMR) merupakan ancaman global bagi kesehatan. AMR disebabkan oleh penggunaan antibiotik berlebihan oleh manusia dan ternak, serta peningkatan penggunaan produk pembersih dan kebersihan antibakteri. Para peneliti dari beberapa universitas dan bahkan perusahaan rintisan telah membuat inovasi untuk membantu mengatasi masalah tersebut dengan bantuan big data, AI dan gnomic.
  5. Machine Learning Can Create Fake ‘Master Key’ Fingerprints
    Baru-baru ini peneliti dari Tandon School of Engineering New York University, berhasil mengembangkan metode machine learning untuk menghasilkan sidik jari palsu yang disebut DeepMasterPrints. Sidik jari yang dihasilkan tidak hanya mampu menipu sensor ponsel cerdas, tetapi juga berhasil membuat ‘master finger print’ untuk banyak orang yang berbeda.
  6. Amazon Comprehend adds customized language lists to machine learning tool
    Tahun lalu Amazon mengumumkan Comprehend, alat pengolah bahasa alami untuk membantu perusahaan mengekstrak kata dan frasa umum dari korpus. Hari ini Amazon mengumumkan fitur baru Comprehend yang memungkinkan developer untuk membuat daftar kata dan frasa khusus tanpa perlu memiliki pengetahuan machine learning.
  7. A Facebook patent would use your family photos to target ads
    Facebook telah mengajukan paten yang akan memudahkan mereka untuk menargetkan iklan kepada seluruh anggota keluarga user dengan menganalisis foto yang mereka posting. Aplikasi yang diajukan pada tanggal 10 Mei tersebut mencakup suatu algoritma yang akan mengidentifikasi elemen-elemen foto – seperti wajah atau detail lainnya – dan melakukan referensi silang dengan data lain untuk membangun profil seluruh anggota keluarga dari seorang pengguna.

Tutorial dan pengetahuan teknis

  1. ColorUNet: A new deep CNN classification approach to colorization
    Sebuah tim peneliti di Stanford University baru-baru ini mengembangkan metode klasifikasi CNN yang merubah gambar hitam putih menjadi berwarna. Alat yang mereka buat diberinama ColorUnet, yang terinspirasi dari U-Net sebuah jaringan konvolusional (convolution network) untuk segmentasi gambar.
  2. Modeling: Teaching a Machine Learning Algorithm to Deliver Business Value
    Artikel yang merupakan bagian terakhir dari 4 seri mengenai penggunaan machine learning di Feature Labs. Dalam artikel ini membahas mengenai konsep dan implementasi dalam studi kasus Predicting Customer Churn
  3. Python Data Visualization 2018: Why So Many Libraries?
    Pada sesi khusus SciPy 2018 di Austin, perwakilan dari berbagai tools visualisasi Python open source berbagi visi mereka untuk masa depan visualisasi data dengan Python. Dipaparkan pula berbagai pembaruan pada Matplotlib, Plotly, VisPy, dan banyak lagi.
  4. Real-Time Stock Processing With Apache NiFi and Apache Kafka, Part 1
    Memproses sejumlah sumber data termasuk REST feeds, Social feeds, pesan, gambar, dokumen, dan data relasional dengan NiFi kemudian memfilter dan mengelompokkannya ke topik Kafka. Spark dan NiFi digunakan untuk pemrosesan event dan machine learning serta deep learning, sedangkan dashboard dibuat menggunakan Superset dan Spark SQL + Zeppelin.

Rilis produk

  1. Elasticsearch for Apache Hadoop 6.5.0 Released
    Tim developer Elascticsearch mengumumkan Elasticsearch for Apache Hadoop (ES-Hadoop) versi 6.50. Beberapa perbaikan dan fitur baru disematkan pada versi ini.
  2. Apache Phoenix 4.14.1 released
    Rilis ini mencakup fitur parity dengan dukungan versi HBASE dan perbaikan bug kritikal untuk indeks sekunder.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 15 / 2018
  • Comments Off on Seputar Big Data edisi #54
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #54

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2018.

Artikel dan berita

  1. Waymo to Start First Driverless Car Service Next Month
    Waymo, sebuah anak perusahaan dari perusahaan induk Google, Alphabet Inc., berencana untuk meluncurkan layanan mobil tanpa pengemudi komersial pertama di dunia pada awal Desember, menurut sebuah sumber yang tidak disebutkan namanya. Layanan ini akan beroperasi di bawah merek baru dan bersaing langsung dengan Uber dan Lyft, akan diluncurkan di Phoenix Arizona.
  2. How Big Data can revolutionise education
    Big Data telah menjadi bagian erat dari hampir setiap sektor, termasuk juga untuk sektor pendidikan. Banyak studi kasus yang dapat diselesaikan menggunakan Big Data dan Machine Learning.
  3. Artificial intelligence could help doctors identify hard-to-spot colon polyps
    Kanker usus besar adalah penyebab utama kedua kematian terkait kanker di AS, tetapi kolonoskopi telah ditemukan untuk mengurangi risiko kematian akibat penyakit hingga 70 persen dengan menemukan dan mengangkat polip jinak sebelum mereka memiliki waktu untuk berubah menjadi kanker.
  4. Startups Can Leverage Big Data for Big Results
    Agar tetap kompetitif, startup modern semakin mencari untuk memanfaatkan Big Data. Karena berbagai perusahaan muda masuk ke pasar dengan produk dan layanan inovatif, transformatif, solusi data dapat membantu membuka jalan menuju kesuksesan.
  5. Google AI can spot advanced breast cancer more effectively than humans
    Google telah memberikan bukti lebih lanjut bahwa AI dapat membantu dalam mendeteksi kanker. Peneliti perusahaan ini telah mengembangkan aplikasi Deep Learning yang lebih akurat dalam menemukan metastatis pada kanker payudara.

Tutorial dan Pengetahuan Teknis

  1. Predicting Professional Players’ Chess Moves with Deep Learning
    Tutorial mengenai membuat model yang dapat bermain catur yang tidak menggunakan metode Reinforcement Learning dan bagaimana mengimplementasikan model menggunakan antarmuka web.
  2. How to Develop Convolutional Neural Network Models for Time Series Forecasting
    Dalam tutorial ini akan dijelaskan cara mengembangkan rangkaian model CNN untuk berbagai masalah time series forecasting.
  3. 5 Essential Neural Network Algorithms
    Data Scientist menggunakan banyak algoritma yang berbeda untuk melatih neural network, dan ada banyak variasi untuk masing-masingnya. Dalam artikel ini akan menguraikan lima algoritma yang akan memberikan pemahaman menyeluruh tentang bagaimana Neural Network bekerja.
  4. Uber’s Big Data Platform: 100+ Petabytes with Minute Latency
    Dalam artikel ini, akan dibahas mendalam mengenai perjalanan platform Hadoop yang digunakan Uber dan bagaimana memperluas ekosistemnya.
  5. UMulti-Class Text Classification with Doc2Vec & Logistic Regression
    Tutorial python mengenai klasifikasi teks ke dalam beberapa kategori, menggunakan doc2vec dan regresi logistik.

Rilis Produk

  1. Google Dataset Search Launched to Help Analysts Scour Repositories
    Google Dataset Search adalah produk baru yang masih dalam fase beta yang dapat digunakan untuk melakukan pencarian dataset yang dipublikasikan secara online. Antarmuka tunggal memungkinkan Anda untuk mencari repositori di seluruh dunia.
  2. Introducing Apache Spark 2.4
    Kami senang mengumumkan ketersediaan Apache Spark 2.4 sebagai bagian dari Databricks Runtime 5.0. Kami ingin mengucapkan terima kasih kepada komunitas Apache Spark untuk semua kontribusi berharga mereka untuk rilis Spark 2.4
  3. Apache Kafka 2.0.1
    Rilis ini adalah bug fixing rilis, mencakup penyelesaian dari 51 JIRA
  4. Google open sources BERT, an NLP pre-training technique
    Google meng-opensource-kan Bidirectional Encoder Representations from Transformers (BERT) untuk pre-training NLP pada 2 Nopember lalu. BERT adalah metode baru pre-training representasi bahasa yang memperoleh hasil terkini untuk berbagai macam tugas pada NLP, seperti sentimen analysis, penerjemahan bahasa dll.
  5. Apache HBase 2.1.1 is now available for download
    Merupakan rilis maintenance terbaru dari versi 2.1, mencakup 180 bug fixes. Pengguna HBase versi 2.1.0 sangat disarankan untuk melakukan upgrade ke versi ini.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 07 / 2018
  • Comments Off on Seputar Big Data Edisi #53
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Social Media

Seputar Big Data Edisi #53

Setelah lama tidak hadir, berikut kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali

Artikel dan Berita

  1. Big data plays a role in tourism of Hangzhou, a desirable destination for European travelers
    Hangzhou telah lama dianggap memiliki budaya hotspot dan kota pariwisata populer.
    Untuk membantu lebih memahami perilaku pengunjung terutaman dari Eropa, Expedia Group Media Solutions menganalisa pilihan yang dibuat oleh pengguna selama waktu mereka di situs web, bersama dengan data pemesanan yang ada dan tanggapan atau komentar yang dibuat.
  2. How big data can help identify and motivate voters
    Sebuah video wawancara dengan Chris Wilson dari WPA Intelligence menjelaskan bagaimana para ahli analisa data dapat membantu meningkatkan jumlah pemilih. Mereka menggunakan cara yang hampir sama pada sistem rekomendasi yang digunakan oleh Spotify, Netflix ataupun Amazon. Mereka mengidentifikasi profile pemilih dan mengidentifikasi masalah yang akan memotivasi pemilih dalam memilih kandidat.
  3. Apache Hadoop is Thriving!
    Sejak kelahirannya lebih dari satu dekade yang lalu, Hadoop telah berevolusi menjadi platform yang kuat dan sangat populer untuk penyimpanan dan analisa Big Data. Sebuah studi baru-baru ini dari Transparency Market Research menyatakan bahwa tidak hanya pertumbuhannya, pendapatan pasar global Hadoop diperkirakan juga meningkat menjadi 29% CAGR antara 2017 – 2023.
  4. Who’s Hot in Data & Analytics: Top Vendors to Watch
    2018 telah menjadi tahun yang penting bagi bisnis di seluruh industri karena mereka terus mendigitalkan lebih banyak operasional mereka. Berikut ini beberapa vendor penyedia jasa dan platform untuk Advanced Analytics, Data Science and Machine Learning Platform, Data Management and Governance.

Tutorial dan Pengetahuan Teknis

  1. Multi-Class Text Classification Model Comparison and Selection
    Tutorial mengenai penggunaan berbagai algoritma untuk mengklasifikasikan text, dan membandingkannya untuk memperoleh hasil yang paling akurat.
  2. TransmogrifAI: Building ML Apps simplified with AutoML
    Tutorial yang membahas keajaiban di balik TransmogrifAI dan akan dibandingkan penggunaannya dengan SparkML untuk memprediksi harga rumah.
  3. The Data Catalog Comes of Age
    Membuat katalog data adalah proses yang besar dan rumit. Artikel ini akan membahas mengenai langkah-langkah yang diperlukan, seperti mengumpulkan metadata, dan membuat katalog data yang sesuai dengan GDPR
  4. Top 10 real-life examples of Machine Learning
    Saat ini, machine learning telah digunakan dalam berbagai bidang dan industri. Misalnya, diagnosis medis, pemrosesan gambar, prediksi, klasifikasi, asosiasi pembelajaran, regresi, dll
  5. Protecting Hadoop Clusters From Malware Attacks
    Dua ancaman malware baru – XBash dan DemonBot – menargetkan server Apache Hadoop untuk penambangan Bitcoin dan untuk DDOS.

Rilis Produk

  1. Horizon: The first open source reinforcement learning platform for large-scale products and services
    Facebook mengumumkan Horizon sebagai proyek open source, sebuah platform machine learning berbasis Reinforcement Learning untuk dapat mengoptimalkan produk dan layanan yang digunakan oleh banyak orang.
  2. Tesseract version 4.0 released
    Google merilis Tesseract 4.0 yang memiliki proses OCR berbasis jaringan saraf yang baru yaitu LSTM, berbagai pembaharuan sistem pada sistem dan perbaikan lainnya, serta perbaikan bug.
  3. Python 3.7.1 and 3.6.7 are now availablePython 3.7.1 dan 3.6.7 merupakan maintenance release untuk versi Python 3.7 dan Python 3.6.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung