:::: MENU ::::

Posts Categorized / Artificial Intelligece

  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 28 / 2019
  • Comments Off on Seputar Big Data edisi #67
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #67

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan Maret 2019.

Artikel dan berita

  1. Turing Award And Million Given To 3 AI Pioneers
    The Association for Computing Machinery (ACM) memberikan penghargaan kepada Yoshua Bengio, Geoffrey Hinton dan Yann LeCun dengan award yang oleh banyak orang dianggap sebagai “Hadiah Nobel komputasi,” untuk inovasi yang mereka buat di bidang AI. Hadiah $1 juta yang didanai oleh Google, dinamai sesuai dengan ahli matematika Inggris Alan Turing, yang meletakkan dasar teoritis untuk ilmu komputer.
  2. McDonalds Orders a Large Side of Personalisation Technology
    McDonalds telah membeli perusahaan teknologi personalisasi dan “logika keputusan”, Dynamic Yield, yang dilaporkan bernilai $300 juta, dan menyatakan bahwa akuisisi tersebut akan membawa MCDonalds menjadi “salah satu perusahaan pertama yang mengintegrasikan teknologi keputusan ke dalam titik penjualan fisik.”
  3. Menilik Dampak AI dalam Tiga Tahun di Indonesia
    Presiden Direktur Microsoft Indonesia Haris Izmee mengatakan hasil penelitian bersama IDC Asia Pasifik menunjukkan bahwa penggunaan AI akan mendorong peningkatan inovasi di Indonesia hingga 1,7 kali lipat. Di Asia Pasifik sendiri, peningkatan inovasi karena AI akan meningkat 1,9 kali lipat. Haris mengatakan hal ini bagus untuk Indonesia. Inovasi dengan penggunaan AI akan menumbuhkan sistem digital ekonomi di Indonesia.
  4. Amazon to fund $10M to improve fairness in AI research
    Amazon bekerja sama dengan US National Science Foundation dengan memberikan total $10 juta dalam hibah penelitian selama tiga tahun ke depan untuk membantu meningkatkan fairness dalam bidang kecerdasan buatan.
  5. How I Built the Perfect Data Science Team
    Bagaimana membangun tim data sains berbeda dari tim development? Baca artikel ini untuk mendapatkan gambaran dari seorang ahli big data, terkait pengalamannya membentuk tim data saintis sejak 12 tahun yang lalu.
  6. 5 Practical Applications of AI in Contemporary Industries
    Saat ini kecerdasan buatan merambah berbagai bidang. Sejumlah elemen AI telah menjadi bagian dari kehidupan kita sehari-hari. Dari rumah pintar dan Internet of Things hingga teknik manufaktur, kecerdasan buatan digunakan saat kita berbicara untuk meningkatkan kehidupan kita. Dalam artikel ini, Anda akan mempelajari lebih lanjut tentang lima cara praktis AI digunakan di beberapa bidang utama.

Tutorial dan pengetahuan teknis

  1. R vs Python for Data Visualization
    Artikel ini menunjukkan pembuatan plot serupa di R dan Python menggunakan dua paket visualisasi data paling populer, yaitu ggplot2 dan Seaborn.
  2. Visualizing Trends in a Time Series With Pandas
    Sekilas mengenai cara menggunakan Python dan library Pandas untuk membuat visualisasi data dengan data yang dikumpulkan dari Google Trends.
  3. Reducing the Need for Labeled Data in Generative Adversarial Networks
    Untuk sintesis gambar alami, hasil canggih dicapai oleh GAN bersyarat yang memerlukan data berlabel untuk training. Pendekatan ini membutuhkan sejumlah besar data berlabel yang biasanya jarang tersedia. Artikel ini menjelaskan mengenai pendekatan baru untuk mengurangi jumlah data berlabel yang diperlukan untuk melatih GAN bersyarat.
  4. Uber Case Study: Choosing the Right HDFS File Format for Your Apache Spark Jobs
    Apache Spark mendukung sejumlah format file yang memungkinkan beberapa records disimpan dalam satu file. Setiap format file memiliki kelebihan dan kekurangannya sendiri. Dalam artikel ini diuraikan mengenai format file yang digunakan oleh tim Pengumpulan Data Maps di Uber untuk memproses sejumlah besar citra dan metadata untuk mengoptimalkan pengalaman bagi konsumen.
  5. Running Apache Flink on Kubernetes
    Artikel ini memaparkan mengenai bagaimana mengembangkan sebuah aplikasi stream prosesing menggunakan Flink di atas Kubernetes.
  6. Data Pipelines, Luigi, Airflow: Everything you need to know
    Posting ini berfokus pada sistem manajemen alur kerja (workflow management system) Airflow : apa itu, apa yang dapat Anda lakukan dengannya, dan bagaimana perbedaannya dari Luigi. Airflow dikembangkan di Airbnb pada tahun 2014 dan pada 2016 ia bergabung dengan program inkubasi Apache. Luigi adalah paket python untuk membangun workflow kompleks, dikembangkan di Spotify.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Unomi™ as a Top-Level Project
    Apache Software Foundation menyatakan bahwa Apache Unomi lepas dari status inkubator dan menjadi top-level project.
    Apache Unomi adalah Customer Data Platform (CDP) berbasis standard, yang mengelola pelanggan online, prospek, dan informasi pengunjung, untuk memberikan pengalaman yang dipersonalisasi dengan memperhatikan aturan privasi seperti GDPR dan pilihan “Do Not Track”. Project ini awalnya dikembangkan oleh Jahia, dan di-submit ke Apache incubator pada Oktober 2015.
  2. Apache Solr 8.0.0 released
    Sebagai rilis utama, Solr 8 menghapus banyak API yang sudah usang, mengubah berbagai default parameter dan perilaku. Beberapa perubahan mungkin memerlukan indeks ulang konten Anda. Oleh karena itu Anda dianjurkan untuk membaca “Upgrade Notes” di http://lucene.apache.org/solr/8_0_0/changes/Changes.html atau dalam file CHANGES.txt yang menyertai rilis. Solr 8.0 juga mencakup banyak fitur baru lainnya dan juga banyak optimisasi dan perbaikan bug dari rilis Apache Lucene yang sesuai.
  3. Kubernetes 1.14: Production-level support for Windows Nodes, Kubectl Updates, Persistent Local Volumes GA
    Kubernetes 1.14 terdiri dari 31 peningkatan: 10 pindah ke level stabil, 12 dalam level beta, dan 7 baru. Tema utama dari rilis ini adalah ekstensibilitas dan mendukung lebih banyak beban kerja di Kubernet dengan tiga fitur utama yang beralih ke general availability, dan fitur keamanan penting yang beralih ke level beta. Lebih banyak peningkatan yang lulus ke tingkat stabil dalam rilis ini daripada rilis Kubernet sebelumnya. Selain itu, dalam rilis ini terdapat peningkatan Pod dan RBAC yang penting.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 22 / 2019
  • Comments Off on Seputar Big Data edisi #66
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #66

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Maret 2019.

Artikel dan berita

  1. Big data AI startup Noble.AI raises a second seed round from a chemical giant
    Noble.AI, sebuah perusahaan AI berbasis yang mengklaim dapat mempercepat pengambilan keputusan dalam R&D, mendapatkan pendanaan baru dari Solvay Ventures, cabang VC dari sebuah perusahaan kimia besar, Solvay SA. Meskipun ronde tersebut dirahasiakan, TechCrunch mengetahui bahwa total pendanaan yang diperoleh Noble.AI hingga saat ini adalah US$8,6 juta.
  2. Big Data – The Budget Myth
    Banyak departemen TI mengimplementasi big data dengan membuat anggaran untuk perangkat keras dan perangkat lunak saja. Mereka tidak menyadari bahwa keberhasilan solusi mereka di masa depan tergantung pada perencanaan anggaran yang efektif untuk beberapa area penting lainnya.
  3. Singapore’s Top 10 High Growth Analytics & AI Startups With The Highest Funding
    Investasi modal ventura di startup Singapura tumbuh subur beberapa tahun terakhir dengan banyak investasi di bidang AI, IoT, analitik, data sains, dan startup cloud. Artikel ini mengulas 10 startup terkemuka di bidang teknologi yang mendapat pendanaan terbesar dalam dua tahun terakhir di Singapura.
  4. UW campuses using big data to predict students at risk of dropping out
    University of Wisconsin System baru-baru ini menyewa jasa konsultan big data untuk membantu mengidentifikasi siswa yang berisiko dan menyelamatkan mereka dari drop out. UW menandatangani kontrak untuk lima tahun senilai $10,8 juta. UW mendapatkan akses ke perangkat lunak analitik prediktif yang menghitung “skor risiko” siswa berdasarkan demografi, nilai tes dan transkrip sekolah menengah mereka.
  5. Researchers teach neural networks to determine crowd emotions
    Para ahli dari Higher School Of Economics telah mengembangkan suatu algoritma yang mendeteksi emosi dari sekelompok orang pada video berkualitas rendah. Solusi ini memberikan keputusan hanya dalam seperseratus detik, lebih cepat daripada algoritma lain yang ada, dengan akurasi yang sama. Hasilnya dijelaskan dalam makalah ‘Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings.’

Tutorial dan pengetahuan teknis

  1. How to Train a Keras Model 20x Faster with a TPU for Free
    Artikel ini menjelaskan bagaimana melatih Model LSTM menggunakan Keras dan Google CoLaboratory dengan TPU untuk mengurangi waktu pelatihan secara eksponensial dibandingkan dengan GPU pada mesin lokal Anda, secara gratis.
  2. A Gentle Introduction to Computer Vision
    Artikel ini menyajikan pengenalan terhadap bidang computer vision (CV), mencakup definisi, tujuan, tantangan dan apa task yang diselesaikan menggunakan CV.
  3. Harnessing Organizational Knowledge for Machine Learning
    Salah satu hambatan terbesar dalam mengembangkan aplikasi pembelajaran mesin (ML) adalah kebutuhan akan kumpulan data berlabel yang besar untuk melatih model. Google bekerja sama dengan Stanford dan Brown University, mengeksplorasi bagaimana pengetahuan yang ada dalam suatu organisasi dapat digunakan sebagai supervisi tingkat tinggi yang lebih ‘noisy’, atau sering disebut ‘weak supervision’, untuk melabeli kumpulan data training dengan cepat.
  4. Using Apache Spark to Query a Remote Authenticated MongoDB Server
    Apache Spark adalah salah satu alat open source paling populer untuk data besar. Pelajari cara menggunakannya untuk mengambil data dari server MongoDB jarak jauh.
  5. SOA vs. EDA: Is Not Life Simply a Series of Events?
    Kapan Anda harus menggunakan API? Kapan Anda harus menggunakan event? Sebagian besar arsitektur perangkat lunak kontemporer adalah gabungan dari dua pendekatan ini. Artikel ini mencoba menjelaskan dalam istilah awam apa itu arsitektur berbasis event (EDA) dan membandingkannya dengan arsitektur berorientasi layanan (SOA).
  6. The Importance of Data Lineage
    Dalam hal pengumpulan dan analisis yang akurat dari sejumlah besar informasi, data lineage merupakan aspek yang sangat penting. Artikel ini menjelaskan mengenai apa itu data lineage, dan mengapa data lineage perlu dicatat.
  7. Top R Packages for Data Cleaning
    Pembersihan data adalah salah satu tugas yang paling penting dan memakan waktu bagi para data saintis. Berikut ini adalah paket R paling populer untuk data cleansing.

Rilis Produk

  1. Apache Kudu 1.9.0 Released
    Rilis 1.9.0 ini adalah rilis minor yang mencakup perbaikan bugs, penambahan fitur, peningkatan dan optimasi.
  2. Apache NiFi 1.9.1 release
    Versi 1.9.1 ini adalah bug dan stability release.
  3. Apache Kylin 2.6.1 released
    Versi ini merupakan rilis bugfix sesudah versi 2.6.0, dengan 7 peningkatan fitur dan 19 perbaikan bugs. Apache Kylin adalah Engine analitik terdistribusi yang dirancang untuk memberikan antarmuka SQL dan analisis multidimensional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 21 / 2019
  • Comments Off on Seputar Big Data edisi #63
Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #63

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga Februari 2019.

Artikel dan berita

  1. New AI fake text generator may be too dangerous to release, say creators
    OpenAI, sebuah perusahaan riset nirlaba merilis model bahasa alami yang disebut GPT-2. GPT-2 dilatih dengan sampel 40 gigabytes teks internet, untuk memprediksi kata selanjutnya dari sepotong teks input. Hasil akhirnya adalah sistem yang dapat menghasilkan teks yang realistis dan koheren. OpenAI menyatakan bahwa sistem ini bekerja dengan sangat baik, sehingga dikhawatirkan akan disalahgunakan untuk tujuan negatif seperti misalnya membuat ‘fake-news’. Hal ini mendorong OpenAI untuk membuka sebagian kecil saja dari keseluruhan model tersebut.
  2. How does NASA use big data?
    Istilah “big data” pertama kali digunakan dalam makalah tahun 1997 oleh para ilmuwan di NASA. Volume data yang harus dikelola NASA sangat besar. Menurut Kevin Murphy, Eksekutif Program NASA untuk Sistem Data Ilmu Bumi, NASA – salah satu penghasil data terbesar – menghasilkan 12,1TB data setiap hari dari hampir 100 misi aktif saat ini dan ribuan sensor dan sistem di sekitar Bumi dan luar angkasa. Bagaimana NASA menangani dan mengelola data tersebut?
  3. Google to Spend $13B on US Data Center and Office Construction This Year
    Google akan membangun empat fasilitas data center baru tahun ini, dengan ekspansi besar di tiga lokasi lain. CEO Alphabet, Sundar Pichai mengatakan bahwa setelah menghabiskan $9 miliar pada tahun 2018 untuk pembangunan kantor dan data center, perusahaan akan menaikkan investasi pada 2019 menjadi US $13 miliar.
  4. China’s big data sector to expand rapidly in 2019
    Sektor big data China akan mempertahankan pertumbuhan yang pesat pada 2019. Industri inti di sektor ini diperkirakan bernilai lebih dari 720 miliar yuan (sekitar 106,3 miliar dolar AS) tahun ini, menurut sebuah laporan tentang prospek sektor yang dirilis oleh think tank CCID.
  5. Big Data in the Renewable Energy Sector
    Bagaimana big data dan AI dapat digunakan untuk meningkatkan efisiensi produksi energi terbarukan dan menawarkan peluang untuk mengurangi konsumsi listrik?
  6. Top 10 Data Science Use Cases in Telecom
    Artikel ini menyajikan 10 use case data sains yang paling relevan dan efisien dalam bidang telekomunikasi.
  7. Here Technologies to fund a $28 million research institute that applies machine learning to geolocation data
    Here Technologies, perusahaan di balik platform pemetaan dan lokasi yang populer, mengungkapkan bahwa mereka melakukan investasi sebesar 25 juta Euro (28 juta dolar AS) untuk sebuah lembaga penelitian machine learning baru yang akan mengolah data geolokasi dalam skala industri.

Tutorial dan pengetahuan teknis

  1. Backpropagation for people who are afraid of math
    Backpropagation adalah salah satu konsep terpenting dalam pembelajaran mesin, namun memahami konsepnya bisa jadi cukup menantang bagi banyak orang. Artikel ini berusaha menjabarkan backpropagation dengan jelas dan sederhana, lengkap dengan contoh program, terutama untuk mereka yang ‘alergi’ dengan persamaan matematis yang rumit.
  2. Neural Networks seem to follow a puzzlingly simple strategy to classify images
    Artikel ini membahas bahwa ternyata Deep Neural Networks masih dapat mengenali dengan baik gambar yang diacak dan bagaimana hal ini menunjukkan bahwa DNN ternyata menggunakan strategi yang cukup “sederhana” untuk melakukan klasifikasi gambar, serta beberapa konsekuensinya.
  3. Error Handling for Apache Beam and BigQuery (Java SDK)
    Pernahkah anda berurusan dengan error yang membingungkan dan membuat frustasi ketika bekerja dengan Apache Beam dan BigQuery? Artikel ini mencoba mengupasnya beserta langkah yang perlu dilakukan untuk mengatasinya.
  4. Are BERT Features InterBERTible?
    Setelah word2vec kini muncul teknik baru dalam word embedding, yaitu BERT (Bidirectional Encoder Representations from Transformers) yang diperkenalkan Google pada Oktober lalu. Artikel ini mencoba mengulas BERT dari sisi interpretabilitasnya.
  5. Journey to Event Driven – Part 2: Programming Models for the Event-Driven Architecture
    Setelah pada bagian 1 membahas mengapa “event-first thinking” perlu, artikel ini menjelaskan mengenai berbagai gaya arsitektur yang bersifat event-driven dan membandingkan model skala, persistensi dan model runtimenya, serta contoh high-level dataflow untuk melakukan desain sistem payment processing menggunakan pendekatan ini.

Rilis Produk

  1. SMM 1.2 Released with Powerful New Alerting and Topic Lifecycle Management Features with Schema Registry Integration
    Streams Messaging Manager (SMM) 1.2 menghadirkan tiga fitur yang paling banyak ditunggu SMM user : Topic Lifecycle Management, Alerting dan Integrasi skema registry.
  2. Introducing Nauta: A Distributed Deep Learning Platform for Kubernetes
    Intel merilis platform baru yang dinamai Nauta, yang memungkinkan para ilmuwan dan pengembang data menggunakan Kubernetes dan Docker untuk melakukan deep learning terdistribusi berskala besar. Nauta menyediakan “lingkungan komputasi terdistribusi multi-pengguna” untuk menjalankan eksperimen training model DL pada sistem berbasis prosesor Intel Xeon, menggunakan antarmuka command line, web dan/atau TensorBoard dan didukung oleh Kubeflow dan Docker.
  3. Introducing AresDB: Uber’s GPU-Powered Open Source, Real-time Analytics Engine
    AresDB adalah engine analitik realtime open source yang dikembangkan Uber, memanfaatkan unit pemrosesan grafis (GPU) untuk memungkinkan pengembangan analitik berskala besar.
  4. Apache Flink 1.7.2 released
    Apache Flink 1.7.2 adalah rilis perbaikan bug yang kedua dalam seri 1.7.
  5. Apache Beam 2.10.0 released!
    Rilis 2.10 ini mencakup beberapa perbaikan bug, fitur, dan peningkatan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2019
  • Comments Off on Seputar Big Data edisi #62
Artificial Intelligece, Big Data, IoT, Spark

Seputar Big Data edisi #62

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan Februari 2019.

Artikel dan berita

  1. Databricks’ Recent $250 Mn Funding Shows How The Spark Creators Are Ahead In The AI Game
    Ali Ghodsi dan Matei Zaharia, penemu Spark dan pendiri Databricks, memanfaatkan perubahan tren dan kebutuhan Big Data dengan menyediakan platform analitik terpadu.
    Bahkan minggu lalu perusahaan yang berbasis di San Francisco tersebut kembali memperoleh putaran pendanaan blockbuster sebesar $250 juta, yang menjadikan nilai dari Databricks sekitar $2,75 miliar.
  2. How to Become a Data Engineer: A Guide
    Salah satu pekerjaan yang paling menarik dan diminati di seluruh dunia saat ini: big data engineer. Big data engineer adalah para profesional yang memproses kumpulan data besar untuk memberikan analisis pada organisasi atau perusahaan, yang selanjutnya dapat digunakan untuk membuat keputusan di masa depan untuk menghindari kesalahan.
  3. Pizza Delivery Businesses Turn to Big Data Analytics for Record Growth
    Big data analytic untuk bisnis pengiriman pizza ternyata memiliki dampak yang luar biasa. Akibatnya, banyak perusahaan pengiriman pizza berkembang pesat.
  4. Toyota’s moonshot: Self-driving car for sale — in a year
    Mereka menyebutnya sebagai Toyota’s moonshot: hanya dalam satu tahun, pembuat mobil terbesar di Jepang ingin mulai menjual kendaraan self-driving yang dikatakannya akan “most powerful supercomputer on wheels”. Milestone pertama yaitu pada tahun 2020, ketika Toyota berencana untuk memperkenalkan kendaraan yang mampu mengemudi sendiri di jalan raya.
  5. Contrasting Hortonworks (HDP) and Dropbox (DBX)
    Dropbox (NASDAQ: DBX) dan Hortonworks (NASDAQ: HDP) keduanya adalah perusahaan komputer dan teknologi, tetapi mana yang merupakan saham unggulan?
  6. Here’s How Big Data Is Transforming Augmented Reality
    Big data benar-benar mengubah fungsi AR dan VR. Artikel berikut menceritakan bagaimana perusahaan modern mengubah AR dari mimpi menjadi kenyataan dengan memanfaatkan kekuatan kumpulan data yang sangat luas.
  7. Here’s What Cybersecurity Experts Worry About This Year
    “Ancaman keamanan big data berikutnya sedang berlangsung,” demikian diungkapkan Jason Hong, associate professor dari the human computer interaction institute, Carnegie Mellon University.
  8. Why Cloudera Stock Gained 22.1% in January
    Saham Cloudera (NYSE: CLDR) naik 22,1% pada Januari, menurut data dari S&P Global Market Intelligence. Saham perusahaan ini sempat mengalami penurunan sekitar 35% dalam tiga bulan terakhir tahun 2018, tetapi diuntungkan dari rebound pasar saham di awal tahun 2019 dan beberapa klarifikasi tentang strateginya setelah merger dengan Hortonworks.

Tutorial dan pengetahuan teknis

  1. Perfume Recommendations using Natural Language Processing
    Doc2Vec, Latent Semantic Analysis, and Sentiment Analysis dapat digabungkan untuk membuat rekomendasi yang tepat dalam sebuah antarmuka chatbot.
  2. Best Public Datasets for Machine Learning and Data Science: Sources and Advice on the Choice
    Ribuan kumpulan data publik tentang berbagai topik – mulai dari tren kebugaran teratas dan resep bir hingga tingkat keracunan pestisida – tersedia online. Untuk menghabiskan lebih sedikit waktu dalam pencarian dataset yang tepat, kita harus tahu di mana mencarinya.
  3. Learning from Graph data using Keras and Tensorflow
    Ada banyak data yang dapat direpresentasikan dalam bentuk graph seperti di jejaring sosial, jaringan biologis atau telekomunikasi. Penggunaan fitur graph dapat meningkatkan kinerja model. Namun, merepresentasikan data graf tidak mudah. Artikel ini mengeksplorasi beberapa cara untuk menangani graf generik untuk melakukan klasifikasi node berdasarkan representasi graf yang dipelajari langsung dari data.
  4. Introduction to Apache Spark’s Core API (Part II)
    Dalam bagian kedua dari serial pengenalan Spark API ini dibahas mengenai fungsi dan method yang dapat digunakan untuk bekerja dengan pair RDD, dilengkapi beberapa contoh dalam Python.
  5. KubernetesExecutor for Airflow
    Dalam rilis 1.10 Airflow memperkenalkan executor baru untuk menjalankan worker secara terskala: Kubernetes executor. Artikel ini membahas mengenai apa itu Airflow dan masalah apa yang dipecahkannya, Kubernetes executor dan bagaimana perbandingannya dengan Celery executor, serta contoh penerapannya di minikube.

Rilis Produk

  1. Microsoft announces general availability of Azure Data Explorer and Azure Data Lake Storage Gen2
    Microsoft mengumumkan ketersediaan umum Azure Data Explorer (ADX) dan Azure Data Lake Storage Gen2 (ADLS Gen2) – dua layanan yang dikatakan akan memberi pelanggan Azure fleksibilitas yang lebih besar dalam mengelola data yang tidak terstruktur, atau data yang dihasilkan dari interaksi di web, software-as-a-service, media sosial, aplikasi seluler, dan perangkat iot.
  2. Black Knight Launches Rapid Analytics Platform, a Premier Cloud-Based Virtual Lab for Working with Big Data and Complex Analytics
    Black Knight, Inc. (NYSE: NYSE: BKI), penyedia terkemuka perangkat lunak, data, dan analisis terintegrasi untuk industri hipotek dan real estat, mengumumkan peluncuran Rapid Analytics Platform (RAP), sebuah lab analitik virtual interaktif yang inovatif dan interaktif di mana pengguna dapat menggunakan dan mengunggah data, mengeksekusi SQL query, melakukan analitik kompleks dan melatih model machine learning – semua dalam satu ruang kerja tunggal.
  3. Apache Solr 7.7.0 released
    Apache Solr 7.7.0 mencakup 7 fitur baru, 20 bug fixes, 15 peningkatan dan 8 perubahan lain. Pengguna Solr versi sebelumnya sangat disarankan melakukan upgrade ke versi ini terkait isu security, yaitu mekanisme whitelist pada manajemen “shards”.
  4. Introducing Ludwig, a Code-Free Deep Learning Toolbox
    Uber merilis Ludwig, “toolbox” open source yang dibangun di atas kerangka kerja TensorFlow Google yang memungkinkan pengguna untuk melatih dan menguji model AI tanpa harus menulis kode. Dengan menggunakan Ludwig, para ahli dan peneliti dapat menyederhanakan proses prototyping dan merampingkan pemrosesan data sehingga mereka dapat lebih fokus pada pengembangan arsitektur deep learning daripada data wrangling.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 07 / 2019
  • Comments Off on Seputar Big Data edisi #61
Artificial Intelligece, Big Data

Seputar Big Data edisi #61

Edisi kali ini menyajikan beberapa topik menarik, mulai dari kegagalan perusahaan menuju “data-driven”, bagaimana AI menentukan dosis kemoterapi sekaligus mengubah regulasi privasi dalam data kesehatan, API baru dari Alexa untuk melacak aktivitas bayi, dan bagaimana bias dapat muncul dalam AI. Dari sisi teknis, terdapat tutorial mengenai data scaling untuk deep learning, tutorial python, testing aplikasi Kafka, kesalahan umum dalam data sains, serta dataset baru untuk pengenalan wajah yang berisi 1 juta foto wajah ter-anotasi.

Seputar Big Data #61 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Februari 2019.

Artikel dan berita

  1. Companies Are Failing in Their Efforts to Become Data-Driven
    Menjadi sebuah perusahaan yang “data-driven” adalah target dari banyak perusahaan, terutama dalam beberapa tahun terakhir ini. Namun menurut survey yang dibuat oleh NewVantage Partners terhadap 64 eksekutif tingkat teknologi dan bisnis yang mewakili perusahaan besar seperti American Express, General Electric, Johnson & Johnson, dll, tujuan ini masih jauh dari pencapaian yang memuaskan. Salah satu hasilnya adalah, sebanyak 72% menyatakan belum berhasil menciptakan “budaya data”, bahkan 53% belum memperlakukan data sebagai aset.
  2. AI able to predict chemotherapy dosages developed
    Penetapan dosis kemoterapi merupakan tantangan tersendiri dalam penatalaksanaan terapi kanker. Para peneliti dari Rumah Sakit Universitas Stanford telah berhasil menggunakan teknologi AI untuk menyesuaikan dosis kemoterapi secara akurat dengan mengidentifikasi pasien yang membutuhkan dosis lebih rendah bahkan sebelum pengobatan dimulai, menurut sebuah penelitian yang diterbitkan dalam Nature Scientific Reports.
  3. Playing Pictionary against computers could help AI learn common sense
    Salah satu hal yang sulit diajarkan kepada mesin adalah mengenai “common-sense”. Pertanyaan semacam “Dapatkah kita makan spaghetti dengan sedotan?”, misalnya, kita bisa menjawabnya dengan : bisa, tapi perlu banyak kesabaran. Peneliti dari Allen Institute for Artificial Intelligence (AI2) merilis permainan online semacam tebak gambar yang menurut mereka dapat membantu mesin mempertajam “common-sense”.
  4. New Advances in AI Could Have a Significant Impact on Health Data Privacy
    Perubahan di bidang kecerdasan buatan semakin cepat sehingga regulator dan legislator mengalami kesulitan untuk mengimbangi. Hal ini sangat dirasakan dalam industri kesehatan, di mana kemajuan yang cepat dalam teknologi AI mulai membuat para profesional kesehatan memikirkan kembali efektivitas dari Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA) yang dirumuskan tahun 1996 dan mempertimbangkan kemungkinan peraturan baru untuk privasi data kesehatan.
  5. Amazon’s Baby Activity Skill API lets Alexa developers build apps that track tots’ activities
    Amazon merilis Baby Skill Activity API, yang memungkinkan pengembang untuk membangun aplikasi pihak ketiga yang membantu pelanggan melacak aktivitas bayi – misalnya mencatat waktu penggantian popok. Dengan Baby Skill Activity API, pengembang dapat membangun keterampilan Alexa dan yang memungkinkan pelanggan untuk dengan mudah login dan menanyakan informasi aktivitas hanya dengan menggunakan suara mereka.
  6. The new AI frontier: Hyperpersonalized automated advertising
    Saat ini banyak iklan otomatis berbasis AI digunakan untuk menghubungkan konsumen ke produk untuk meningkatkan penjualan. Teknologi AI membantu pengiklan memberikan promosi yang lebih relevan yang menghubungkan merek dengan konsumen melalui iklan otomatis yang sangat personal.
  7. This is how AI bias really happens—and why it’s so hard to fix
    Akhir-akhir ini deep learning menjadi dasar dari banyak aplikasi berbasis AI, yang mempengaruhi kehidupan banyak orang. Namun penggunaan data dalam deep learning ini rawan bias, yang dapat berakibat pada ketidakadilan dalam berbagai proses : rekrutmen, penjualan, keamanan dan bahkan dalam sistem hukum pidana. Untuk dapat mengatasinya, kita perlu memahami mekanisme munculnya bias dalam AI, seperti yang diuraikan dalam artikel ini.
  8. Databricks Clinches Microsoft Backing, Plans European Expansion on $250m Series E
    Databricks, spesialis manajemen data dan pembelajaran mesin yang berbasis di San Francisco, telah memperoleh $250 juta dalam putaran pendanaan Seri E dengan Microsoft sebagai investor. CEO Ali Ghodsi mengatakan fokus mereka adalah pada pertumbuhan yang berkelanjutan, dengan investasi di Eropa termasuk peningkatan tim teknis mereka di Belanda, serta peningkatan penjualan.

Tutorial dan pengetahuan teknis

  1. How to Improve Neural Network Stability and Modeling Performance With Data Scaling
    Penggunaan angka bernilai kecil untuk weight dan error dalam deep neural network menjadikan penentuan skala input dan output yang digunakan untuk training menjadi faktor yang penting. Penentuan variabel input yang kurang tepat menyebabkan proses training menjadi lambat atau tidak stabil, dan pada variabel target dapat mengakibatkan meledaknya gradien sehingga proses training menjadi gagal.
    Salah satu yang dapat dilakukan adalah persiapan data menggunakan teknik-teknik normalisasi dan standarisasi input, salah satunya adalah penskalaan data seperti yang dijelaskan dalam tutorial ini.
  2. Guidelines for human-AI interaction design
    Kemajuan dalam kecerdasan buatan (AI) menghasilkan peluang dan tantangan terhadap desain antarmuka pengguna. Prinsip-prinsip interaksi manusia-AI telah dibahas dalam komunitas interaksi manusia-komputer selama lebih dari dua dekade, namun diperlukan lebih banyak penelitian dan inovasi. Dalam tulisan ini diusulkan 18 pedoman desain yang berlaku umum untuk interaksi manusia-AI. Pedoman ini divalidasi melalui beberapa putaran evaluasi termasuk studi pengguna dengan 49 praktisi desain yang menguji 20 produk populer yang berbasis AI.
  3. Getting Your Feet Wet with Stream Processing – Part 2: Testing Your Streaming Application
    Memastikan bahwa suatu solusi berfungsi sama pentingnya dengan mengimplementasikannya. Hal ini menjamin aplikasi berfungsi sesuai rancangan, dapat menangani peristiwa yang tak terduga, dapat berkembang tanpa merusak fungsi yang ada, dll. Pada bagian kedua dari rangkaian artikel ini dijelaskan bagaimana melakukan testing terhadap proses stream yang sudah dibuat sesuai tutorial pada bagian terdahulu.
  4. Python Functions Tutorial: Working With Functions in Python, Part 3
    Dalam tutorial bagian 3 ini dijelaskan mengenai bagaimana membuat fungsi yang ditentukan pengguna, fungsi rekursif, beserta contoh aplikasinya.
  5. From Good to Great Data Science, Part 1: Correlations and Confidence
    Seorang data saintis handal perlu memiliki dasar matematis dan intuisi yang memadai, agar tidak mudah terjerumus dalam berbagai kesalahan dalam interpretasi data. Dalam bagian pertama dari rangkaian artikel ini dijelaskan secara menarik mengenai 2 kesalahan umum yang sering ditemui, dengan menggunakan contoh data dari bidang kesehatan.
  6. [DATASET] IBM Research releases ‘Diversity in Faces’ dataset to advance study of fairness in facial recognition systems
    Tantangan dalam training AI model tergambar dengan jelas dalam teknologi pengenalan wajah, terutama dalam hal fairness. Agar sistem pengenalan wajah dapat bekerja seperti yang diinginkan, data pelatihan harus beragam dan memberikan cakupan yang luas. Gambar harus mencerminkan distribusi fitur di wajah yang kita lihat di seluruh dunia.
    IBM Research merilis dataset besar dan beragam yang disebut Diversity in Faces (DiF) untuk mendukung studi tentang keadilan dan akurasi dalam teknologi pengenalan wajah. DiF menyediakan dataset 1 juta gambar wajah manusia ter-anotasi.

Rilis Produk

  1. Introducing Scylla Open Source 3.0
    Scylla adalah basis data NoSQL open source yang menawarkan skala horisontal dan toleransi kesalahan sebagaimana Apache Cassandra, dengan 10X throughput dan latensi yang rendah dan stabil. Diimplementasikan dalam C ++, desain Scylla yang lebih dekat dengan perangkat keras mengurangi jumlah node basis data yang anda butuhkan secara signifikan untuk beban kerja yang dinamis dengan berbagai kombinasi perangkat keras.
  2. Apache BookKeeper 4.9.0 released
    Rilis 4.9.0 ini adalah milestone baru untuk komunitas Apache BookKeeper. Beberapa update penting diantaranya adalah : perubahan besar dalam manajemen metadata, seperti refactoring metadata ledger untuk membuatnya immutable, menyimpan metadata ledger dalam format biner dan implementasi driver metadata baru berdasarkan Etcd. Selain itu, ada peningkatan besar dalam manajemen memori, tooling, dan dokumentasi.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 23 / 2019
  • Comments Off on Seputar Big Data edisi #59
Artificial Intelligece, Big Data, Social Media

Seputar Big Data edisi #59

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Januari 2019.

Artikel dan berita

  1. Alibaba Snaps Up data Artisans for €90 million: Open Sources “Blink”
    Alibaba telah membeli perusahaan startup Data Artisans yang berbasis di Berlin dengan harga € 90 juta (£ 80 juta). Data Artisans didirikan pada tahun 2014 oleh pembuat framework pemrosesan data stream, Apache Flink.
  2. Creating a Data Strategy
    Kita perlu memiliki strategi untuk memaksimalkan nilai data yang kita miliki. Bagaimana melakukannya? Data apa yang harus dikumpulkan? Data mana yang akan disimpan – dan di mana? Siapa audiens untuk data tersebut? Siapa yang mengonsumsi data yang telah dianalisa?
  3. Was The Facebook ’10 Year Challenge’ A Way To Mine Data For Facial Recognition AI?
    Baru-baru ini cukup viral tantangan bertagar #10yearschallenge mengenai posting foto terkini disandingkan dengan foto dari 10 tahun yang lalu. Banyak pihak yang menduga mengenai motif di balik challenge tersebut, di antaranya apakah ini sebuah strategi dari Facebook untuk mengumpulkan data pengenalan wajah. Meskipun pihak Facebook menyangkal keterlibatan mereka dalam hal ini, namun perlu diakui bahwa beredarnya ratusan ribu, bahkan mungkin jutaan foto tersebut dapat menjadi data yang sangat bagus untuk melatih model pengenalan wajah.
  4. Novartis allies with Oxford academics for big data R&D drive
    Kolaborasi riset antara Novartis dan Big Data Institute di University of Oxford yang bertujuan untuk mengubah kumpulan data yang besar untuk digabungkan dan dianalisa untuk memperoleh insight yang dapat meningkatkan pengembangan obat dan perawatan pasien. Novartis adalah sebuah perusahaan farmasi yang berasal dari Swiss. Kerja sama ini telah berlangsung selama 5 tahun.
  5. What Is Data Profiling?
    Data Profiling adalah proses pemeriksaan data dari sumber yang ada dan merangkum informasi tentang data itu. Artikel ini akan menjelaskan kegunaan dan keuntungan dari Data Profiling.
  6. Researchers use Samsung data and AI to predict mobile game churn
    Tim peneliti yang berasal dari Samsung Research America, Universitas A&M Samsung, Universitas Pittsburgh, dan Universitas Arizona melakukan penelitian mengenai analisis churn dalam mobile game skala besar menggunakan deep learning. Metode ini menjanjikan analisis dan prediksi churn dengan memanfaatkan data interaksi detail.
  7. AI Devs Behind Robot Sophia Partner with Blockchain Agricultural Data Firm
    SingularityNET yang dikenal sebagai salah satu pendukung teknologi di belakang robot Sophia, menjalin kerja sama dengan Hara, sebuah perusahaan startup blockchain bidang pertanian. Kemitraan ini bertujuan untuk memanfaatkan data dalam proses diagnosis tanaman dan analisis data berbasis AI.

Tutorial dan pengetahuan teknis

  1. Accelerate the Training of Deep Neural Networks with Batch Normalization
    Melatih deep neural network yang memiliki puluhan layer cukup sulit dan berat karena neural network ini sangat peka terhadap inisialisasi dan perubahan konfigurasi algoritma pembelajaran. Salah satu strategi untuk mempercepat proses training adalah dengan metode batch normalization.
  2. What’s coming in TensorFlow 2.0
    TensorFlow 2.0 akan fokus dalam kemudahan dan kesederhanaan penggunaan, termasuk didalamnya beberapa fitur andalan seperti kemudahaan pembuatan model dengan menggunakan Keras, kemampuan yang baik untuk mengimplementasikan model di lingkungan production dalam berbagai platform, dan kemampuan ujicoba yang baik dalam skala riset. Untuk selengkapnya bisa membaca artikel ini.
  3. The Data Fabric for Machine Learning. Part 1
    Data fabric merupakan sebuah konsep mutakhir mengenai kesatuan data dalam sebuah organisasi. Artikel ini menjelaskan mengenai data fabric dan pemanfaatannya untuk mendukung machine learning.
  4. What Are Data Silos?
    Salah satu permasalahan dalam pengolahan dan pemanfaatan data dalam bisnis adalah munculnya data silo, yaitu data yang terpisah-pisah dan tidak dapat diakses oleh divisi lain. Artikel ini mengupas mengenai apa data silo, mengapa dapat muncul, serta apa strategi yang tepat untuk mengatasinya.
  5. ETL — Understanding It and Effectively Using It
    ETL atau extract, load, transform, adalah proses inti dari sistem pengolahan dan pemanfaatan data, mulai dari database, data warehouse, data hub, ataupun data lake. Kualitas produk data dan analisis yang dihasilkan sebuah sistem data sangat bergantung pada kualitas ETL-nya. Artikel ini membahas mengenai serba-serbi ETL dan bagaimana kita dapat menggunakannya secara efektif untuk berbagai sistem data

Rilis Produk

  1. AgilOne Announces Customer Data Platform Update with New Features for Machine Learning
    AgilOne, mengumumkan kemampuan fitur machine learning yang jauh lebih baik, serta peningkatan kemampuan pelaporan dan fitur-fitur baru untuk memaksimalkan keuntungan dan hasil program kupon.
  2. SOD: An Embedded OpenCV Alternative
    SOD adalah library alternatif untuk embedded machine learning lintas-platform dan computer vision yang mengekspos serangkaian API untuk deep learning, analisis & pemrosesan.
  3. Apache Arrow 0.12.0 released
    Apache Arrow 0.12.0 mencakup 614 resolved issues sejak rilis 0.11.1. Apache Arrow adalah layer analisis memori kolumnar untuk big data.
  4. Apache Kylin 2.6.0 released
    Rilis ini adalah rilis utama setelah versi 2.5, dengan lebih dari 90 perbaikan bug dan fitur tambahan. Apache Kylin adalah open source Distributed Analytics Engine yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) di Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 15 / 2019
  • Comments Off on Seputar Big Data edisi #58
Artificial Intelligece, Big Data

Seputar Big Data edisi #58

AI menciptakan jutaan lapangan kerja, Intel dan Facebook menciptakan chip AI yang lebih murah, deteksi dini alzheimer dengan AI 6 tahun lebih cepat dari diagnosis medis, dan berbagai tutorial serta artikel teknis seperti bagaimana membangun aplikasi streaming dengan Kafka Stream API, NLP dengan deep learning dan lain-lain, adalah beberapa topik yang disajikan dalam Seputar Big Data kali ini.

Seputar big Data edisi 58 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Januari 2019.

Artikel dan berita

  1. AI Will Create Millions More Jobs Than It Will Destroy. Here’s How
    Ungkapan yang populer adalah bahwa AI akan menghapus banyak pekerjaan manusia.
    Namun sebenarnya AI juga menghasilkan banyak lapangan kerja baru, seperti yang dipaparkan dalam artikel ini.
  2. Baidu unveils open source edge computing platform and AI boards
    Baidu mengumumkan OpenEdge, platform komputasi open source yang memungkinkan pengembang membangun aplikasi edge “dengan lebih banyak fleksibilitas”. Baidu juga mengumumkan dua platform pengembangan perangkat keras AI : BIE-AI-Box, kit analisis video yang dikembangkan bersama Intel, dan BIE-AI-Board, sebuah chipboard untuk klasifikasi objek.
  3. CES 2019: Intel, Facebook Working on Cheaper AI Chip
    Intel dan Facebook bekerja sama mengembangkan AI Chip yang diberi nama “Nervana Neural Network Processor for Inference” (NNP-I). Chip ini diharapkan menjadi solusi yang lebih murah untuk kebutuhan kecerdasan buatan yang membutuhkan kapasitas komputasi besar.
  4. Researchers Develop AI That Detects Alzheimer’s Six Years Early
    Salah satu permasalahan pada penyakit Alzheimer adalah ketika semua gejala klinis terwujud dan diagnosis dapat ditegakkan, terlalu banyak neuron yang telah mati, sehingga pada dasarnya efeknya tidak dapat dibalikkan. Hal inilah mengapa deteksi dini sangat diperlukan. Para peneliti di UC San Francisco mengembangkan sistem AI yang dapat mendeteksi Alzheimer secara dini, yaitu enam tahun sebelum diagnosis yang sebenarnya.
  5. GE Healthcare, Vanderbilt partner on AI-enabled precision medicine
    Kemajuan dalam pengobatan kanker seperti imunoterapi menjanjikan keberhasilan yang lebih besar tetapi juga mengandung risiko yang tinggi dan hasil yang terkadang tidak pasti. GE Healthcare bekerja sama dengan Vanderbilt University Medical Center mengembangkan aplikasi AI yang akan menganalisa data pasien yang dianonimkan untuk membantu dokter menentukan program terapi yang lebih baik.

Tutorial dan pengetahuan teknis

  1. Getting Your Feet Wet with Stream Processing – Part 1: Tutorial for Developing Streaming Applications
    Tutorial mengenai stream processing menggunakan Kafka Stream API. Pada bagian pertama dari 2 serial ini dijelaskan mengenai bagaimana membangun aplikasi streaming secara langkah demi langkah dengan jelas, lengkap dengan contoh dan latihan.
  2. Modern Deep Learning Techniques Applied to Natural Language Processing
    Resource mengenai overview tren terkini dalam pemrosesan bahasa alami (NLP) berbasis deep learning. Mencakup penjelasan teoritis dan implementasi detail berbagai model deep learning, seperti RNN, CNNs, dan reinforcement learning, yang digunakan untuk menyelesaikan berbagai tugas dan aplikasi NLP.
  3. Introduction to Regularization to Reduce Overfitting of Deep Learning Neural Networks
    Overfitting adalah permasalahan yang cukup pelik dalam training model, terutama model yang kompleks seperti deep neural network. Artikel ini membahas mengenai permasalahan ini dan regularization untuk mengatasinya.
  4. Developing a Graph in Spark and Scala
    Artikel yang membahas tentang dasar-dasar teori graph dan bagaimana menerapkan teori ini ke dalam kode menggunakan Scala dan Spark framework.

Rilis Produk

  1. Apache HBase 2.1.2 is now available for download
    HBase 2.1.2 adalah rilis terbaru dari garis HBase 2.1. Rilis ini memperbaiki masalah kritikal yang ditemukan di 2.1.1 dan 2.0.3. Mencakup ~70 bug dan perbaikan yang dilakukan sejak 2.1.1, dirilis.
  2. Apache Flume 1.9.0 released
    Apache Flume 1.9.0 mencakup 3 fitur baru, serta sekitar 45 peningkatan dan juga perbaikan bugs.
  3. The Apache Software Foundation Announces Apache® Airflow™ as a Top-Level Project
    Apache Airflow ‘lulus’ dari Apache Incubator dan dinyatakan sebagai Top-Level Project.
    Apache Airflow adalah sistem otomatisasi alur kerja dan scheduling yang scalable, untuk membuat dan mengelola pipeline pemrosesan big data.
  4. OpenNLP 1.9.1 released
    Apache OpenNLP team merilis versi 1.9.1. Apache OpenNLP library adalah toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami. Library ini mendukung berbagai task NLP seperti tokenization, segmentasi kalimat, POS tagging, NER, chunking, dan parsing.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 07 / 2018
  • Comments Off on Seputar Big Data edisi #57
Apache, Artificial Intelligece, Big Data, Implementation

Seputar Big Data edisi #57

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke empat bulan November 2018.

Artikel dan berita

  1. Alibaba Open-Sources Its X-Deep Learning Framework
    Alibaba mengumumkan akan meng-opensource X-Deep Learning (XDL), framework algoritma di balik teknologi pemasaran dan platform big data mereka, Alimama. Rilis source code dan dokumen pendukung dijadwalkan dilakukan bulan Desember ini.
  2. Britain Is Developing an AI-Powered Predictive Policing System
    West Midlands Police (WMP), mengembangkan sistem yang menggunakan machine learning untuk menganalisis berbagai database polisi lokal dan nasional untuk mengidentifikasi mereka yang berisiko melakukan atau menjadi korban kejahatan. Mereka akan meluncurkan prototipe pada Maret 2019. Para ahli di bidang etika data menyuarakan kekhawatiran mereka mengenai aspek etis dalam penerapan sistem ini. Terlebih lagi, upaya pernah dilakukan oleh kepolisian Chicago, dan menimbulkan beberapa isu terkait bias terhadap ras tertentu.
  3. Facebook kept granting private data to high-profile advertisers long after it said it stopped
    Rabu lalu, parlemen Inggris merilis dokumen sepanjang 250 halaman, yang diantaranya menunjukkan bahwa Facebook tetap memberikan akses ke data-data pribadi penggunanya melalui Friend List ke perusahaan-perusahaan besar yang mereka catat dalam ‘whitelist’, bahkan sesudah mereka melakukan update API di tahun 2014.
  4. Big tech has your kid’s data — and you probably gave it to them
    Salah satu kegemaran orang tua di masa kini adalah memposting segala sesuatu tentang keluarga mereka, terutama anak-anak. Namun yang kurang disadari, mereka sebenarnya sedang membagikan data penting mengenai anak-anak mereka. Sebuah study di Inggris mengenai ‘datafikasi’ anak-anak dan akibatnya, menunjukkan bahwa posting semacam itu bisa jadi menimbulkan lebih banyak masalah daripada yang kita perkirakan.

Tutorial dan pengetahuan teknis

  1. Handling Imbalanced Datasets in Deep Learning
    Selain algoritma, faktor yang menentukan dalam deep learning adalah data. Salah satu permasalahan yang sering dihadapi adalah ketidakseimbangan data. Namun, perlu difahami terlebih dahulu apakah data imbalance ini betul-betul menjadi masalah untuk problem yang akan kita selesaikan. Artikel ini membahas mengenai apa itu data imbalance, mengapa perlu diperhatikan, dan apa yang dapat dilakukan untuk mengatasinya.
  2. Introduction to SparkSession
    Spark 2.0 membawa perubahan besar pada tingkat abstraksi untuk API dan library Spark. Artikel ini membahas salah satu fitur baru Spark 2.0 : SparkSession, termasuk kode Scala dan SQL yang perlu diketahui untuk menggunakannya.
  3. A Gentle Introduction to Dropout for Regularizing Deep Neural Networks
    Overfitting sangat mungkin terjadi pada deep neural network dengan dataset yang tidak mencukupi. Artikel ini membahas mengenai salah satu metode yang paling mudah dan murah namun cukup handal untuk mengatasi permasalahan overfitting ini, yaitu dropout.
  4. [FREE EBOOK] Data Science Live Book – Pablo Casas
    Buku mengenai data preparation, data analysis, dan pembelajaran mesin. Buku ini open source dengan contoh kode dalam R.

Rilis Produk

  1. Apache Flink 1.7.0 released
    Flink 1.7.0 merupakan rilis major, mencakup 420 penyelesaian issue serta peningkatan dan penambahan fitur yang menarik, diantaranya : support Scala 2.12, state evolution untuk aplikasi long-running, kombinasi CEP dengan SQL untuk pencocokan pola pada data stream, dan lain sebagainya.
  2. Apache Kylin 2.5.2 released
    Rilis ini adalah rilis minor setelah 2.5.1, mencakup 12 perbaikan bugs dan peningkatan.
    Apache Kylin adalah Distributed Analytics Engine open source yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) pada Apache Hadoop.
  3. Apache HBase 2.0.3 is now available for download
    HBase 2.0.3 adalah rilis maintenance ketiga dalam lini HBase 2.0. Rilis ini mencakup 120 perbaikan bug yang dilakukan pada versi 2.0.2.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 03 / 2018
  • Comments Off on Seputar Big Data edisi #56
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #56

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan November 2018.

Artikel dan berita

  1. If Waymo Is Having Difficulty, Everyone Else Must Be In A Right Autonomous Driving Pickle
    Setelah serangkaian insiden, Waymo mengumumkan penambahan fitur keamanan dalam mobil swakemudi mereka. Waymo juga mengembalikan posisi safety driver ke belakang kemudi, dan menambahkan kamera untuk memonitor kelelahan pengemudi. Hal ini menimbulkan beberapa pertanyaan mengenai kesiapan kendaraan swakemudi secara umum.
  2. Early Detection Of Epilepsy In Children Via Deep Learning Computer Science Technique
    Deteksi dini dari Benign epilepsy with centrotemporal spikes (BECT), jenis epilepsi yang paling umum pada anak-anak, kini dimungkinkan dengan menggunakan deep learning. Studi ini dilakukan oleh para peneliti dari Georgia State University.
  3. Amazon debuts a scale model autonomous car to teach developers machine learning
    Amazon hari ini mengumumkan AWS DeepRacer, mobil balap berskala 1/18 yang sepenuhnya otonom, yang bertujuan untuk membantu para developer mempelajari machine learning. Dibanderol dengan harga $399, mobil balap ini memungkinkan pengembang mendapatkan secara langsung dengan teknik pembelajaran mesin yang disebut reinforcement learning (RL).
  4. Deep learning will help keep video from clogging up the internet
    75% trafik internet adalah konten video, dan volume ini diperkirakan akan meningkat sampai 3 kali lipat di tahun 2021. Teknik kompresi data yang digunakan saat ini dianggap belum banyak berkembang dalam 20 tahun terakhir. WaveOne, sebuah perusahaan deep-learning, mengembangkan algoritma kompresi yang dapat melampaui kinerja kompresi yang ada saat ini, dengan menggunakan deep learning

Tutorial dan Pengetahuan Teknis

  1. Sales Forecasting Using Facebook’s Prophet
    Sales forecasting adalah salah satu pekerjaan paling umum di banyak perusahaan. Dalam tutorial ini, kita akan menggunakan Prophet, package yang dikembangkan oleh Facebook untuk melakukan Sales Forecasting. Package ini tersedia dalam Python dan R.
  2. How Druid enables analytics at Airbnb
    Airbnb memaparkan pengalaman mereka menggunakan Druid untuk analitik. Mereka menggambarkan bagaimana Druid melengkapi sistem big data mereka yang lain, bagaimana mereka memproses data dengan Spark Streaming, integrasi dengan Presto, pemantauan, dan apa tantangan/perbaikan di masa depan.
  3. 3 Ways to Prepare for Disaster Recovery in Multi-Datacenter Apache Kafka Deployments
    Disaster Recovery adalah hal yang sangat penting dalam memastikan kelangsungan bisnis. Artikel ini menjelaskan langkah-langkah yang perlu diambil untuk mempersiapkan DRM Kafka deployment dengan menggunakan Multi-Datacenter.
  4. [FREE EBOOK] Reinforcement Learning: An Introduction
    Reinforcement Learning: An Introduction, oleh Rich Sutton dan Andrew Barto dirilis tanggal 15 Oktober, 2018. Para penulisnya membagikan versi draft dalam format PDF di google drive. Buku ini sangat lengkap dan sesuai bagi yang ingin memulai mempelajari Reinforcement Learning.

Rilis Produk

  1. Apache Kafka 2.1.0
    Kafka versi 2.1.0 adalah rilis major yang mencakup 179 JIRA, termasuk di dalamnya penambahan fitur, peningkatan dan beberapa perbaikan bugs yang kritikal.
  2. Apache Bigtop 1.3.0 released
    Apache BigTop menyediakan packaging, testing dan konfigurasi komponen-komponen opensource big data yang komprehensif. Versi 1.3.0 dirilis dengan berbagai perbaikan, peningkatan dan penambahan fitur.
  3. boundary-layer : Declarative Airflow Workflows
    Etsy meng-opensource-kan tools mereka, yang disebut boundary-layer, yang digunakan mendefinisikan alur kerja Apache Airflow menggunakan YAML. Artikel ini menjelaskan secara detail mengenai alasan mereka dan bagaimana alat ini digunakan di Etsy.
  4. New fastMRI open source AI research tools from Facebook and NYU School of Medicine
    Facebook AI Research (FAIR) dan NYU School of Medicine’s Center for Advanced Imaging Innovation and Research (CAI²R) mengumumkan alat dan data open source baru sebagai bagian dari fastMRI, sebuah proyek penelitian bersama untuk memacu pengembangan sistem AI untuk mempercepat scan MRI hingga 10x. Rilis tersebut mencakup model dan baseline baru untuk tugas ini. Termasuk di dalamnya kumpulan data MRI berskala besar pertama, yang dapat berfungsi sebagai patokan untuk penelitian masa depan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12345
Tertarik dengan Big Data beserta ekosistemnya? Gabung