:::: MENU ::::

Posts Categorized / Big Data

  • Dec 07 / 2018
  • Comments Off on Seputar Big Data edisi #57
Apache, Artificial Intelligece, Big Data, Implementation

Seputar Big Data edisi #57

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke empat bulan November 2018.

Artikel dan berita

  1. Alibaba Open-Sources Its X-Deep Learning Framework
    Alibaba mengumumkan akan meng-opensource X-Deep Learning (XDL), framework algoritma di balik teknologi pemasaran dan platform big data mereka, Alimama. Rilis source code dan dokumen pendukung dijadwalkan dilakukan bulan Desember ini.
  2. Britain Is Developing an AI-Powered Predictive Policing System
    West Midlands Police (WMP), mengembangkan sistem yang menggunakan machine learning untuk menganalisis berbagai database polisi lokal dan nasional untuk mengidentifikasi mereka yang berisiko melakukan atau menjadi korban kejahatan. Mereka akan meluncurkan prototipe pada Maret 2019. Para ahli di bidang etika data menyuarakan kekhawatiran mereka mengenai aspek etis dalam penerapan sistem ini. Terlebih lagi, upaya pernah dilakukan oleh kepolisian Chicago, dan menimbulkan beberapa isu terkait bias terhadap ras tertentu.
  3. Facebook kept granting private data to high-profile advertisers long after it said it stopped
    Rabu lalu, parlemen Inggris merilis dokumen sepanjang 250 halaman, yang diantaranya menunjukkan bahwa Facebook tetap memberikan akses ke data-data pribadi penggunanya melalui Friend List ke perusahaan-perusahaan besar yang mereka catat dalam ‘whitelist’, bahkan sesudah mereka melakukan update API di tahun 2014.
  4. Big tech has your kid’s data — and you probably gave it to them
    Salah satu kegemaran orang tua di masa kini adalah memposting segala sesuatu tentang keluarga mereka, terutama anak-anak. Namun yang kurang disadari, mereka sebenarnya sedang membagikan data penting mengenai anak-anak mereka. Sebuah study di Inggris mengenai ‘datafikasi’ anak-anak dan akibatnya, menunjukkan bahwa posting semacam itu bisa jadi menimbulkan lebih banyak masalah daripada yang kita perkirakan.

Tutorial dan pengetahuan teknis

  1. Handling Imbalanced Datasets in Deep Learning
    Selain algoritma, faktor yang menentukan dalam deep learning adalah data. Salah satu permasalahan yang sering dihadapi adalah ketidakseimbangan data. Namun, perlu difahami terlebih dahulu apakah data imbalance ini betul-betul menjadi masalah untuk problem yang akan kita selesaikan. Artikel ini membahas mengenai apa itu data imbalance, mengapa perlu diperhatikan, dan apa yang dapat dilakukan untuk mengatasinya.
  2. Introduction to SparkSession
    Spark 2.0 membawa perubahan besar pada tingkat abstraksi untuk API dan library Spark. Artikel ini membahas salah satu fitur baru Spark 2.0 : SparkSession, termasuk kode Scala dan SQL yang perlu diketahui untuk menggunakannya.
  3. A Gentle Introduction to Dropout for Regularizing Deep Neural Networks
    Overfitting sangat mungkin terjadi pada deep neural network dengan dataset yang tidak mencukupi. Artikel ini membahas mengenai salah satu metode yang paling mudah dan murah namun cukup handal untuk mengatasi permasalahan overfitting ini, yaitu dropout.
  4. [FREE EBOOK] Data Science Live Book – Pablo Casas
    Buku mengenai data preparation, data analysis, dan pembelajaran mesin. Buku ini open source dengan contoh kode dalam R.

Rilis Produk

  1. Apache Flink 1.7.0 released
    Flink 1.7.0 merupakan rilis major, mencakup 420 penyelesaian issue serta peningkatan dan penambahan fitur yang menarik, diantaranya : support Scala 2.12, state evolution untuk aplikasi long-running, kombinasi CEP dengan SQL untuk pencocokan pola pada data stream, dan lain sebagainya.
  2. Apache Kylin 2.5.2 released
    Rilis ini adalah rilis minor setelah 2.5.1, mencakup 12 perbaikan bugs dan peningkatan.
    Apache Kylin adalah Distributed Analytics Engine open source yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) pada Apache Hadoop.
  3. Apache HBase 2.0.3 is now available for download
    HBase 2.0.3 adalah rilis maintenance ketiga dalam lini HBase 2.0. Rilis ini mencakup 120 perbaikan bug yang dilakukan pada versi 2.0.2.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 03 / 2018
  • Comments Off on Seputar Big Data edisi #56
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #56

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan November 2018.

Artikel dan berita

  1. If Waymo Is Having Difficulty, Everyone Else Must Be In A Right Autonomous Driving Pickle
    Setelah serangkaian insiden, Waymo mengumumkan penambahan fitur keamanan dalam mobil swakemudi mereka. Waymo juga mengembalikan posisi safety driver ke belakang kemudi, dan menambahkan kamera untuk memonitor kelelahan pengemudi. Hal ini menimbulkan beberapa pertanyaan mengenai kesiapan kendaraan swakemudi secara umum.
  2. Early Detection Of Epilepsy In Children Via Deep Learning Computer Science Technique
    Deteksi dini dari Benign epilepsy with centrotemporal spikes (BECT), jenis epilepsi yang paling umum pada anak-anak, kini dimungkinkan dengan menggunakan deep learning. Studi ini dilakukan oleh para peneliti dari Georgia State University.
  3. Amazon debuts a scale model autonomous car to teach developers machine learning
    Amazon hari ini mengumumkan AWS DeepRacer, mobil balap berskala 1/18 yang sepenuhnya otonom, yang bertujuan untuk membantu para developer mempelajari machine learning. Dibanderol dengan harga $399, mobil balap ini memungkinkan pengembang mendapatkan secara langsung dengan teknik pembelajaran mesin yang disebut reinforcement learning (RL).
  4. Deep learning will help keep video from clogging up the internet
    75% trafik internet adalah konten video, dan volume ini diperkirakan akan meningkat sampai 3 kali lipat di tahun 2021. Teknik kompresi data yang digunakan saat ini dianggap belum banyak berkembang dalam 20 tahun terakhir. WaveOne, sebuah perusahaan deep-learning, mengembangkan algoritma kompresi yang dapat melampaui kinerja kompresi yang ada saat ini, dengan menggunakan deep learning

Tutorial dan Pengetahuan Teknis

  1. Sales Forecasting Using Facebook’s Prophet
    Sales forecasting adalah salah satu pekerjaan paling umum di banyak perusahaan. Dalam tutorial ini, kita akan menggunakan Prophet, package yang dikembangkan oleh Facebook untuk melakukan Sales Forecasting. Package ini tersedia dalam Python dan R.
  2. How Druid enables analytics at Airbnb
    Airbnb memaparkan pengalaman mereka menggunakan Druid untuk analitik. Mereka menggambarkan bagaimana Druid melengkapi sistem big data mereka yang lain, bagaimana mereka memproses data dengan Spark Streaming, integrasi dengan Presto, pemantauan, dan apa tantangan/perbaikan di masa depan.
  3. 3 Ways to Prepare for Disaster Recovery in Multi-Datacenter Apache Kafka Deployments
    Disaster Recovery adalah hal yang sangat penting dalam memastikan kelangsungan bisnis. Artikel ini menjelaskan langkah-langkah yang perlu diambil untuk mempersiapkan DRM Kafka deployment dengan menggunakan Multi-Datacenter.
  4. [FREE EBOOK] Reinforcement Learning: An Introduction
    Reinforcement Learning: An Introduction, oleh Rich Sutton dan Andrew Barto dirilis tanggal 15 Oktober, 2018. Para penulisnya membagikan versi draft dalam format PDF di google drive. Buku ini sangat lengkap dan sesuai bagi yang ingin memulai mempelajari Reinforcement Learning.

Rilis Produk

  1. Apache Kafka 2.1.0
    Kafka versi 2.1.0 adalah rilis major yang mencakup 179 JIRA, termasuk di dalamnya penambahan fitur, peningkatan dan beberapa perbaikan bugs yang kritikal.
  2. Apache Bigtop 1.3.0 released
    Apache BigTop menyediakan packaging, testing dan konfigurasi komponen-komponen opensource big data yang komprehensif. Versi 1.3.0 dirilis dengan berbagai perbaikan, peningkatan dan penambahan fitur.
  3. boundary-layer : Declarative Airflow Workflows
    Etsy meng-opensource-kan tools mereka, yang disebut boundary-layer, yang digunakan mendefinisikan alur kerja Apache Airflow menggunakan YAML. Artikel ini menjelaskan secara detail mengenai alasan mereka dan bagaimana alat ini digunakan di Etsy.
  4. New fastMRI open source AI research tools from Facebook and NYU School of Medicine
    Facebook AI Research (FAIR) dan NYU School of Medicine’s Center for Advanced Imaging Innovation and Research (CAI²R) mengumumkan alat dan data open source baru sebagai bagian dari fastMRI, sebuah proyek penelitian bersama untuk memacu pengembangan sistem AI untuk mempercepat scan MRI hingga 10x. Rilis tersebut mencakup model dan baseline baru untuk tugas ini. Termasuk di dalamnya kumpulan data MRI berskala besar pertama, yang dapat berfungsi sebagai patokan untuk penelitian masa depan.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 21 / 2018
  • Comments Off on Seputar Big Data edisi #55
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Medical Analytics

Seputar Big Data edisi #55

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan November 2018.

Artikel dan Berita

  1. If You Drive in Los Angeles, the Cops Can Track Your Every Move
    Palantir sejak tahun 2012 mengembangkan sistem Automatic License Plate Reader, yang menyimpan database foto kendaraan yang melintas di jalan raya. ALPR menggunakan kamera digital yang ada di gedung, lampu lalu lintas dan mobil patroli. Teknologi computer-vision dapat mengenali dan membaca plat kendaraan yang melintas.
  2. Machine learning, meet quantum computing
    Francesco Tacchino dan rekan-rekannya yang merupakan peneliti dari Universitas Pavia di Italia, telah membangun perceptron pertama di dunia yang diimplementasikan diatas komputasi kuantum dan menerapkannya untuk memproses gambar sederhana.
  3. A deep learning approach to identify Twitter users’ location during emergencies
    Peneliti dari National Institute of Technology Patna, India, baru-baru ini mengembangkan metode untuk mengidentifikasi lokasi geografis dari keadaan darurat dan bencana serta orang-orang yang berada di sekitarnya. Metode ini mereka publikasikan dalam the International Journal of Disaster Risk Reduction
  4. How AI and Genomics Can Help Fight Antibiotic Resistance
    Antimicrobial Resistance (AMR) merupakan ancaman global bagi kesehatan. AMR disebabkan oleh penggunaan antibiotik berlebihan oleh manusia dan ternak, serta peningkatan penggunaan produk pembersih dan kebersihan antibakteri. Para peneliti dari beberapa universitas dan bahkan perusahaan rintisan telah membuat inovasi untuk membantu mengatasi masalah tersebut dengan bantuan big data, AI dan gnomic.
  5. Machine Learning Can Create Fake ‘Master Key’ Fingerprints
    Baru-baru ini peneliti dari Tandon School of Engineering New York University, berhasil mengembangkan metode machine learning untuk menghasilkan sidik jari palsu yang disebut DeepMasterPrints. Sidik jari yang dihasilkan tidak hanya mampu menipu sensor ponsel cerdas, tetapi juga berhasil membuat ‘master finger print’ untuk banyak orang yang berbeda.
  6. Amazon Comprehend adds customized language lists to machine learning tool
    Tahun lalu Amazon mengumumkan Comprehend, alat pengolah bahasa alami untuk membantu perusahaan mengekstrak kata dan frasa umum dari korpus. Hari ini Amazon mengumumkan fitur baru Comprehend yang memungkinkan developer untuk membuat daftar kata dan frasa khusus tanpa perlu memiliki pengetahuan machine learning.
  7. A Facebook patent would use your family photos to target ads
    Facebook telah mengajukan paten yang akan memudahkan mereka untuk menargetkan iklan kepada seluruh anggota keluarga user dengan menganalisis foto yang mereka posting. Aplikasi yang diajukan pada tanggal 10 Mei tersebut mencakup suatu algoritma yang akan mengidentifikasi elemen-elemen foto – seperti wajah atau detail lainnya – dan melakukan referensi silang dengan data lain untuk membangun profil seluruh anggota keluarga dari seorang pengguna.

Tutorial dan pengetahuan teknis

  1. ColorUNet: A new deep CNN classification approach to colorization
    Sebuah tim peneliti di Stanford University baru-baru ini mengembangkan metode klasifikasi CNN yang merubah gambar hitam putih menjadi berwarna. Alat yang mereka buat diberinama ColorUnet, yang terinspirasi dari U-Net sebuah jaringan konvolusional (convolution network) untuk segmentasi gambar.
  2. Modeling: Teaching a Machine Learning Algorithm to Deliver Business Value
    Artikel yang merupakan bagian terakhir dari 4 seri mengenai penggunaan machine learning di Feature Labs. Dalam artikel ini membahas mengenai konsep dan implementasi dalam studi kasus Predicting Customer Churn
  3. Python Data Visualization 2018: Why So Many Libraries?
    Pada sesi khusus SciPy 2018 di Austin, perwakilan dari berbagai tools visualisasi Python open source berbagi visi mereka untuk masa depan visualisasi data dengan Python. Dipaparkan pula berbagai pembaruan pada Matplotlib, Plotly, VisPy, dan banyak lagi.
  4. Real-Time Stock Processing With Apache NiFi and Apache Kafka, Part 1
    Memproses sejumlah sumber data termasuk REST feeds, Social feeds, pesan, gambar, dokumen, dan data relasional dengan NiFi kemudian memfilter dan mengelompokkannya ke topik Kafka. Spark dan NiFi digunakan untuk pemrosesan event dan machine learning serta deep learning, sedangkan dashboard dibuat menggunakan Superset dan Spark SQL + Zeppelin.

Rilis produk

  1. Elasticsearch for Apache Hadoop 6.5.0 Released
    Tim developer Elascticsearch mengumumkan Elasticsearch for Apache Hadoop (ES-Hadoop) versi 6.50. Beberapa perbaikan dan fitur baru disematkan pada versi ini.
  2. Apache Phoenix 4.14.1 released
    Rilis ini mencakup fitur parity dengan dukungan versi HBASE dan perbaikan bug kritikal untuk indeks sekunder.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 16 / 2018
  • Comments Off on Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat
Big Data, Hadoop, Implementation, Medical Analytics

Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat

Google AI mempublikasikan hasil yang luar biasa dari proyek LYNA, sebuah tool berbasis deep learning yang memiliki tingkat akurasi hingga 99% dalam mendeteksi metastasis pada kanker payudara.

Tumor metastasis adalah sel-sel kanker yang menyebar dari jaringan asal mereka ke organ atau jaringan lainnya dan membentuk tumor baru di bagian lain tubuh. Pendeteksian kanker yang telah bermetastasis ke kelenjar getah bening disekitarnya adalah tugas yang sulit dan memakan waktu.

Peneliti Google mengembangkan tools yang diberi nama Lymph Node Assistant (LYNA), tools berbasis deep learning yang diharapkan dapat membantu ahli patologi untuk dapat mendeteksi dan menganalisa metastasis lebih akurat, bahkan untuk ukuran yang sangat kecil (micrometastases)


gambar_mikroskopik
LYNA ditrain untuk mengenali karakteristik tumor menggunakan dua set slide patologis yang memberikannya kemampuan untuk menemukan metastasis dalam berbagai macam kondisi. Dalam tes, LYNA dilaporkan berhasil dengan benar membedakan slide dengan kanker dari slide tanpa kanker dengan keakuratan 99%. LYNA juga mampu menentukan lokasi kanker yang beberapa di antaranya terlalu kecil untuk dapat dilihat oleh manusia

Meskipun hasil yang didapat sudah cukup baik, namun para peneliti mengakui AI masih membutuhkan beberapa evaluasi karena belum digunakan dalam lingkungan klinis yang nyata. Namun demikian, mereka tetap optimis dan berharap LYNA dapat membantu meningkatkan akurasi dan ketersediaan diagnosa patologi di seluruh dunia.

Sumber :
https://ai.googleblog.com/2018/10/applying-deep-learning-to-metastatic.html

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan
dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling.
Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Nov 15 / 2018
  • Comments Off on Seputar Big Data edisi #54
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #54

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2018.

Artikel dan berita

  1. Waymo to Start First Driverless Car Service Next Month
    Waymo, sebuah anak perusahaan dari perusahaan induk Google, Alphabet Inc., berencana untuk meluncurkan layanan mobil tanpa pengemudi komersial pertama di dunia pada awal Desember, menurut sebuah sumber yang tidak disebutkan namanya. Layanan ini akan beroperasi di bawah merek baru dan bersaing langsung dengan Uber dan Lyft, akan diluncurkan di Phoenix Arizona.
  2. How Big Data can revolutionise education
    Big Data telah menjadi bagian erat dari hampir setiap sektor, termasuk juga untuk sektor pendidikan. Banyak studi kasus yang dapat diselesaikan menggunakan Big Data dan Machine Learning.
  3. Artificial intelligence could help doctors identify hard-to-spot colon polyps
    Kanker usus besar adalah penyebab utama kedua kematian terkait kanker di AS, tetapi kolonoskopi telah ditemukan untuk mengurangi risiko kematian akibat penyakit hingga 70 persen dengan menemukan dan mengangkat polip jinak sebelum mereka memiliki waktu untuk berubah menjadi kanker.
  4. Startups Can Leverage Big Data for Big Results
    Agar tetap kompetitif, startup modern semakin mencari untuk memanfaatkan Big Data. Karena berbagai perusahaan muda masuk ke pasar dengan produk dan layanan inovatif, transformatif, solusi data dapat membantu membuka jalan menuju kesuksesan.
  5. Google AI can spot advanced breast cancer more effectively than humans
    Google telah memberikan bukti lebih lanjut bahwa AI dapat membantu dalam mendeteksi kanker. Peneliti perusahaan ini telah mengembangkan aplikasi Deep Learning yang lebih akurat dalam menemukan metastatis pada kanker payudara.

Tutorial dan Pengetahuan Teknis

  1. Predicting Professional Players’ Chess Moves with Deep Learning
    Tutorial mengenai membuat model yang dapat bermain catur yang tidak menggunakan metode Reinforcement Learning dan bagaimana mengimplementasikan model menggunakan antarmuka web.
  2. How to Develop Convolutional Neural Network Models for Time Series Forecasting
    Dalam tutorial ini akan dijelaskan cara mengembangkan rangkaian model CNN untuk berbagai masalah time series forecasting.
  3. 5 Essential Neural Network Algorithms
    Data Scientist menggunakan banyak algoritma yang berbeda untuk melatih neural network, dan ada banyak variasi untuk masing-masingnya. Dalam artikel ini akan menguraikan lima algoritma yang akan memberikan pemahaman menyeluruh tentang bagaimana Neural Network bekerja.
  4. Uber’s Big Data Platform: 100+ Petabytes with Minute Latency
    Dalam artikel ini, akan dibahas mendalam mengenai perjalanan platform Hadoop yang digunakan Uber dan bagaimana memperluas ekosistemnya.
  5. UMulti-Class Text Classification with Doc2Vec & Logistic Regression
    Tutorial python mengenai klasifikasi teks ke dalam beberapa kategori, menggunakan doc2vec dan regresi logistik.

Rilis Produk

  1. Google Dataset Search Launched to Help Analysts Scour Repositories
    Google Dataset Search adalah produk baru yang masih dalam fase beta yang dapat digunakan untuk melakukan pencarian dataset yang dipublikasikan secara online. Antarmuka tunggal memungkinkan Anda untuk mencari repositori di seluruh dunia.
  2. Introducing Apache Spark 2.4
    Kami senang mengumumkan ketersediaan Apache Spark 2.4 sebagai bagian dari Databricks Runtime 5.0. Kami ingin mengucapkan terima kasih kepada komunitas Apache Spark untuk semua kontribusi berharga mereka untuk rilis Spark 2.4
  3. Apache Kafka 2.0.1
    Rilis ini adalah bug fixing rilis, mencakup penyelesaian dari 51 JIRA
  4. Google open sources BERT, an NLP pre-training technique
    Google meng-opensource-kan Bidirectional Encoder Representations from Transformers (BERT) untuk pre-training NLP pada 2 Nopember lalu. BERT adalah metode baru pre-training representasi bahasa yang memperoleh hasil terkini untuk berbagai macam tugas pada NLP, seperti sentimen analysis, penerjemahan bahasa dll.
  5. Apache HBase 2.1.1 is now available for download
    Merupakan rilis maintenance terbaru dari versi 2.1, mencakup 180 bug fixes. Pengguna HBase versi 2.1.0 sangat disarankan untuk melakukan upgrade ke versi ini.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 07 / 2018
  • Comments Off on Seputar Big Data Edisi #53
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Social Media

Seputar Big Data Edisi #53

Setelah lama tidak hadir, berikut kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali

Artikel dan Berita

  1. Big data plays a role in tourism of Hangzhou, a desirable destination for European travelers
    Hangzhou telah lama dianggap memiliki budaya hotspot dan kota pariwisata populer.
    Untuk membantu lebih memahami perilaku pengunjung terutaman dari Eropa, Expedia Group Media Solutions menganalisa pilihan yang dibuat oleh pengguna selama waktu mereka di situs web, bersama dengan data pemesanan yang ada dan tanggapan atau komentar yang dibuat.
  2. How big data can help identify and motivate voters
    Sebuah video wawancara dengan Chris Wilson dari WPA Intelligence menjelaskan bagaimana para ahli analisa data dapat membantu meningkatkan jumlah pemilih. Mereka menggunakan cara yang hampir sama pada sistem rekomendasi yang digunakan oleh Spotify, Netflix ataupun Amazon. Mereka mengidentifikasi profile pemilih dan mengidentifikasi masalah yang akan memotivasi pemilih dalam memilih kandidat.
  3. Apache Hadoop is Thriving!
    Sejak kelahirannya lebih dari satu dekade yang lalu, Hadoop telah berevolusi menjadi platform yang kuat dan sangat populer untuk penyimpanan dan analisa Big Data. Sebuah studi baru-baru ini dari Transparency Market Research menyatakan bahwa tidak hanya pertumbuhannya, pendapatan pasar global Hadoop diperkirakan juga meningkat menjadi 29% CAGR antara 2017 – 2023.
  4. Who’s Hot in Data & Analytics: Top Vendors to Watch
    2018 telah menjadi tahun yang penting bagi bisnis di seluruh industri karena mereka terus mendigitalkan lebih banyak operasional mereka. Berikut ini beberapa vendor penyedia jasa dan platform untuk Advanced Analytics, Data Science and Machine Learning Platform, Data Management and Governance.

Tutorial dan Pengetahuan Teknis

  1. Multi-Class Text Classification Model Comparison and Selection
    Tutorial mengenai penggunaan berbagai algoritma untuk mengklasifikasikan text, dan membandingkannya untuk memperoleh hasil yang paling akurat.
  2. TransmogrifAI: Building ML Apps simplified with AutoML
    Tutorial yang membahas keajaiban di balik TransmogrifAI dan akan dibandingkan penggunaannya dengan SparkML untuk memprediksi harga rumah.
  3. The Data Catalog Comes of Age
    Membuat katalog data adalah proses yang besar dan rumit. Artikel ini akan membahas mengenai langkah-langkah yang diperlukan, seperti mengumpulkan metadata, dan membuat katalog data yang sesuai dengan GDPR
  4. Top 10 real-life examples of Machine Learning
    Saat ini, machine learning telah digunakan dalam berbagai bidang dan industri. Misalnya, diagnosis medis, pemrosesan gambar, prediksi, klasifikasi, asosiasi pembelajaran, regresi, dll
  5. Protecting Hadoop Clusters From Malware Attacks
    Dua ancaman malware baru – XBash dan DemonBot – menargetkan server Apache Hadoop untuk penambangan Bitcoin dan untuk DDOS.

Rilis Produk

  1. Horizon: The first open source reinforcement learning platform for large-scale products and services
    Facebook mengumumkan Horizon sebagai proyek open source, sebuah platform machine learning berbasis Reinforcement Learning untuk dapat mengoptimalkan produk dan layanan yang digunakan oleh banyak orang.
  2. Tesseract version 4.0 released
    Google merilis Tesseract 4.0 yang memiliki proses OCR berbasis jaringan saraf yang baru yaitu LSTM, berbagai pembaharuan sistem pada sistem dan perbaikan lainnya, serta perbaikan bug.
  3. Python 3.7.1 and 3.6.7 are now availablePython 3.7.1 dan 3.6.7 merupakan maintenance release untuk versi Python 3.7 dan Python 3.6.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2018
  • Comments Off on Cloudera dan Hortonworks Sepakat Untuk Merger
Big Data, Hadoop, Implementation

Cloudera dan Hortonworks Sepakat Untuk Merger

Cloudera dan Hortonworks, dua perusahaan penyedia Big Data Platform berbasiskan Hadoop, menyatakan akan bergabung dalam merger dengan kesepakatan senilai $ 5,2 miliar.

Tom Reilly, CEO dari Cloudera mengatakan bahwa dengan penggabungan investasi Hortonworks dalam end-to-end data management dengan investasi Cloudera dalam data warehouse dan machine learning akan memudahkan pelanggan untuk melakukan transformasi digital.

Sementara itu, Rob Bearden, CEO dari Hortonworks menyatakan bahwa penggabungan ini akan membantu perusahaan berinvestasi lebih banyak untuk terus berkembang dan bersaing dalam pasar streaming dan IoT, manajemen data, data warehouse, machine learning/AI dan cloud hybrid.

Pemegang saham Cloudera akan memiliki 60 persen dari perusahaan gabungan, sedangkan pemegang saham Hortonworks yang akan memperoleh 40 persennya. Pemegang saham Hortonworks akan mendapatkan 1.305 saham Cloudera untuk setiap saham yang dimiliki.

Dalam perusahaan baru yang akan dibentuk ini akan memiliki komposisi:

  • Chief Executive Officer:  Tom Reilly – CEO Cloudera
  • Chief Operating Officer: Scott Davidson – COO Hortonworks
  • Chief Finance Officer: Jim Frankola – CFO Cloudera.
  • Chief Product Officer: Arun C.Murthy – CPO Hortonworks.

Sedangkan  Rob Bearden, CEO dari Hortonworks akan menjadi anggota dari board of director yang akan dipimpin oleh Marty Cole dari Cloudera

Sumber:
https://www.businesswire.com/news/home/20181003005869/en/

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Apr 08 / 2018
  • Comments Off on Menguak Skandal Cambridge Analytica
Big Data, Forum Info, Implementation, IoT, machine learning

Menguak Skandal Cambridge Analytica

Privasi dan penggunaan data pribadi adalah salah satu permasalahan utama yang disoroti setelah skandal Cambridge Analytica menjadi topik hangat akhir-akhir ini.

Siapakah Cambridge Analytica?

CA (Cambridge Analytica) adalah perusahaan konsultasi politik yang memanfaatkan data mining dan analisis. CA didirikan pada tahun 2013 sebagai anak perusahaan SCL group, bersama dengan Steve Bannon, yang kemudian menjadi penasehat strategis Donald Trump.

Apa yang dilakukan oleh Cambridge Analytica, yang dianggap tidak etis?

CA memperoleh data pribadi milik sekitar 50 juta pengguna Facebook melalui aplikasi kuis yang bernama this is your digital life. Mereka membayar 270.000 user untuk menggunakan aplikasi tersebut, dan dari user tersebut mereka mengakses pengguna lain yang ada di dalam daftar pertemanan mereka. Data tersebut kemudian digunakan sebagai input untuk mengembangkan algoritma psikografik analisis. Hasil analisisnya kemudian digunakan untuk melakukan targeted campaign melalui berbagai iklan dan content.

Apa itu psikografik analisis?

Analisis psikografik adalah metode analisis yang mencoba menggambarkan kepribadian seseorang berdasarkan data-data preferensi mereka, dalam hal ini diwakili oleh content atau status yang kita post, like dan klik. Intinya, selain data profil kita, setiap kita melakukan posting maupun klik atau like pada entry tertentu, data aktifitas tersebut juga akan diambil dan dianalisis untuk membentuk profil kepribadian kita.

Apakah pengumpulan data yang dilakukan menggunakan aplikasi Facebook semacam itu sesuatu yang luar biasa atau ilegal menurut Facebok?

Ternyata tidak. Mengumpulkan data pribadi user dengan iming-iming kuis kepribadian atau aplikasi lainnya di facebook, beserta data pengguna lain yang berada di dalam daftar pertemanannya, ternyata merupakan praktek yang lazim dilakukan oleh para internet marketer. Hal tersebut dapat dilakukan karena Facebook memang menyediakan API yang memungkinkan developer mengakses data user dan semua orang di friendlist user tersebut.

Microstrategy misalnya, memiliki data sekitar 17 juta pengguna, yang didapatkan dari 52.600 instalasi aplikasi, dengan masing-masing user ‘membawa’ sekitar 300 teman dalam friendlist mereka. LoudDoor, sebuah perusahaan yang khusus menangani iklan di Facebook, bahkan mengklaim 12 juta instalasi aplikasi Fan Satisfaction, yang menghasilkan data sekitar 85 juta penduduk Amerika. Dan ini bisa jadi hanyalah semacam puncak dari sebuah gunung es, karena pada dasarnya siapa saja bisa melakukan hal yang sama.

Praktek eksploitasi data pribadi untuk kepentingan politik ini sebenarnya sudah ‘tercium’ sejak jauh hari. The Guardian misalnya, sudah menulis mengenai penggunaan data pribadi dalam kampanye-kampanye politik. Propublica, sebuah organisasi nonprofit yang melakukan jurnalisme investigatif, bahkan membuat aplikasi yang bertujuan memonitor targeted ads tersebut. CA tentunya bukan satu-satunya perusahaan yang melakukan praktek sejenis, dan Donald Trump pun tentu bukan satu-satunya klien yang memanfaatkan jasa semacam ini.

Lalu mengapa baru saat ini kontroversi ini meledak?

Penyebabnya adalah Christopher Wylie, seorang mantan pegawai SCL yang juga ikut dalam pembentukan Cambridge Analytica mengungkap skandal ini, yang kemudian ditayangkan oleh The Guardian dan New York Times pada tanggal 17 Maret 2018.
Sehari kemudian para anggota Parlemen di Inggris dan Amerika menuntut penjelasan kepada Facebook, mengenai bagaimana data pribadi puluhan juta penggunanya dapat jatuh ke tangan perusahaan yang menangani kampanye Presiden Trump di tahun 2016 lalu.
Setelah berbagai laporan mengenai keterlibatan CA pada pemilu di beberapa negara lain bermunculan, pada tanggal 20 Maret, CA men-suspend CEO mereka, Alexander Nix. Akibat skandal ini, nilai saham Facebook turun sampai 9% atau sekitar US$60 miliar.

Apa yang dilakukan Facebook dalam menanggapi skandal ini?

Banyak pihak menilai Facebook kurang serius menanggapi isu ini. Lima hari pertama sejak meledaknya kasus ini Facebook tidak memberikan pernyataan apapun. Baru setelah marak tagar #deletefacebook yang diikuti banyak tokoh, termasuk diantaranya Elon Musk, Mark Zuckerberg memberikan pernyataan. Intinya adalah Facebook menyesalkan insiden yang terjadi, dan mengambil beberapa tindakan, yaitu :

  • Akan menyelidiki aplikasi-aplikasi yang mengakses data user beserta user lain di friendlistnya dalam jumlah besar, sebelum Facebook mengubah kebijakannya di tahun 2014. Sejak tahun 2014 aplikasi tidak lagi dapat mengakses data user lain selain yang menginstal aplikasi tersebut. Facebook akan mem-blacklist developer yang tidak bersedia diaudit.
  • Mematikan akses developer ke data user, jika user tersebut tidak menggunakan aplikasi yang bersangkutan selama 3 bulan, dan mengurangi jenis informasi yang bisa diakses oleh aplikasi tersebut ketika user sign in.
  • Membuat tools yang menunjukkan list aplikasi apa saja yang dapat mengakses data user, dan menampilkannya di atas newsfeed, serta memudahkan user untuk mengubah ijin akses tersebut. Tools ini ditargetkan selesai bulan depan.

Bagaimana sebenarnya tim pemenangan Trump (dan mungkin banyak lagi yang lainnya), menggunakan data dalam menyukseskan kampanye mereka?

Untuk kasus Trump, mereka membuat lebih dari 100.000 situs web yang dirancang khusus untuk berbagai profil psikologis dan preferensi dari kelompok-kelompok kecil targetnya. Hal ini disebut dengan microtargeting. Untuk menyebarkan link ke situs tersebut, mereka membeli $2 million dollars Facebook ads, yang mengarahkan pengguna ke website-website tersebut. Ratusan ribu website tersebut dibuat sekontroversial mungkin, sesuai dengan kecenderungan user yang ditarget, terkadang menggunakan fake news, black campaign dan berbagai clickbait.

Dalam mengelompokkan dan mengarahkan iklan, mereka memanfaatkan fitur “Audience Targeting Options”, dan “Lookalike Audiences”. Dua fitur ini merupakan alat yang jika dikelola dengan lihai akan dapat menyampaikan iklan ke segmen yang sesuai. Dua fitur tersebut, dipadukan dengan informasi dan profil yang dihasilkan dari algoritma yang dipergunakan oleh Cambridge Analytica, berhasil menjangkau para calon pemilih di masa itu, dan memberikan hasil yang luar biasa, yaitu terpilihnya Trump sebagai presiden Amerika.

Terlepas dari berbagai kontroversi dan permasalahan yang melingkupinya, kasus ini memberikan bukti nyata akan kekuatan data yang sebenarnya. Data yang diolah dengan piawai, dapat menjadi senjata yang sangat ampuh, yang dapat mengubah dunia dalam arti yang sesungguhnya. Di samping itu kita juga mendapat gambaran, bisnis apa yang ada di belakang berbagai aplikasi dan media sosial di dunia, mengapa begitu banyak orang mau berinvestasi besar-besaran ke dalam perusahaan-perusahaan yang menghasilkan data besar, seperti Facebook, Twitter, GoJek, dan lain-lain.

“These stories illustrate a simple truth : information is power. Anyone who hold a vast amount of information about us has power over us.” (Julia Angwin – Dragnet Nation)

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 23 / 2018
  • Comments Off on Seputar Big Data Edisi #52
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, Spark, Storm

Seputar Big Data Edisi #52

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Maret 2018

Artikel dan Berita

  1. Cambridge Analytica harvested data from millions of unsuspecting Facebook users
    Cambridge Analytica, perusahaan yang melakukan profiling pemilih dalam kampanye Donald Trump, diduga mengumpulkan informasi pribadi milik lebih dari 50 juta profil Facebook, yang kemudian mereka gunakan untuk mempengaruhi dan melakukan ‘perang budaya’ dalam pemilu 2016 lalu.
  2. How Machine Learning is Revolutionizing Cybersecurity
    Machine learning telah terbukti bermanfaat dalam berbagai penerapan analisis data. Machine learning is particularly useful in various applications of data analysis. Kemampuan untuk belajar dari data, mengidentifikasi pola, mengotomasi pembuatan model, dan pengambilan keputusan, sangat bermanfaat untuk bidang keamanan saiber (cybersecurity), yang memanfaatkan data besar serta analisa pola perilaku.
  3. Is Your Company Ready For AI? Ask Yourself These Nine Questions
    Statista memprediksi bahwa pasar AI secara global akan bernilai lebih dari $ 10,5 miliar pada tahun 2020, dan bisnis akan menerapkan AI ke dalam operasi sehari-hari mereka dalam bentuk otomatisasi dan chatbots layanan pelanggan. Menurut CIOs, CTOs dan technology executive anggota Forbes Technology Council, berikut adalah sembilan pertanyaan untuk menentukan apakah AI adalah investasi cerdas untuk bisnis Anda saat ini.
  4. Hortonworks, Confluent and Waterline attempt to make Big Data easier
    Big data dan produk yang menyertainya memiliki kompleksitas yang seringkali tidak terhindarkan. Beberapa vendor besar menyadari hal ini, dan menawarkan berbagai solusi untuk memudahkan implementasi dan adopsi teknologi mereka untuk bisnis. Hortonwork, Confluent dan Waterline adalah beberapa di antaranya.
  5. Deep Learning Achievements Over the Past Year
    Pada musim natal lalu, tim statbot melakukan beberapa review terhadap pencapaian dari berbagai produk machine learning dalam setahun terakhir
  6. Top 5 Reasons Most Big Data Projects Never Go Into Production
    Pada akhir tahun 2016, Gartner merilis sebuah laporan yang menyatakan : “Hanya 15 persen dari proyek big data yang diimplementasikan ke dalam sistim produksi”. Pada kenyataannya hingga saat ini pun masih terjadi kendala-kendala yang dihadapi dalam implementasi big data.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka for Real-Time Event Processing
    Bagaimana implementasi Apache Kafka dalam mendukung pemrosesan secara reltime? Dalam posting ini, diperlihatkan bagaimana membangun pipeline pemrosesan aliran data menggunakan Apache Kafka.
  2. Top 5 Best Jupyter Notebook Extensions
    Ekstensi Notebook adalah plug-in yang dapat dengan mudah ditambahkan ke notebook Jupyter Anda. Berikut 5 Jupyter Extension yang paling sering digunakan.
  3. Managing isolated Environments with PySpark
    Melakukan konfigurasi node dalam cluster Hadoop/Spark dengan dependensi non-JVM biasanya cukup menyulitkan. Artikel ini menguraikan contoh solusi dan memberikan beberapa contoh code untuk menjalankan PySpark dengan Pandas dan library python lainnya.
  4. Data infrastructure at GO-JEK
    Dengan 100M order per bulan, 700ribu pengemudi aktif, dan 125 ribu merchant, GO-JEK memerlukan sistem yang handal. Mari ‘mengintip’ ke dalam infrastruktur data milik perusahaan terkemuka di Indonesia ini.
  5. [DATASET] Mozilla Common Voice
    Sekitar 400.000 rekaman dari 20.000 orang yang berbeda, menghasilkan total sekitar 500 jam rekaman suara. Saat ini merupakan koleksi dataset suara terbesar ke dua, dan jumlahnya masih terus bertambah.

Rilis Produk

  1. Apache PredictionIO 0.12.1 Release
    Apache PredictionIO adalah machine learning server yang dibangun di atas open source stack. Rilis 0.12.1 mencakup penambahan support untuk Spark 2.2, CleanupFunctions untuk Python, dan beberapa perubahan.
  2. Altair 2.0
    Altair adalah library Python untuk visualisasi statistik deklaratif berbasis Vega dan Vega-Lite. Kandidat untuk versi 2.0 sudah tersedia, dengan support untuk visualisasi interaktif Vega-Lite di Python.
  3. Tensorflow 1.6.0 released
    Tensorflow 1.6.0 mendukung CUDA 9.0 dan cdDNN 7, beserta beberapa fitur tambahan perbaikan bugs lainnya
  4. R 3.4.4 is released
    Rilis ini direncanakan merupakan rilis terakhir dari seri 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on MeetUp #19 Universitas Andalas, Padang
Apache, Artificial Intelligece, Big Data, Blockchain, Forum Info, Implementation, Komunitas, Social Media

MeetUp #19 Universitas Andalas, Padang

Pada meetup ke #19 ini idBigData menyapa rekan-rekan di kota Padang. Kali ini idBigData bekerja sama dengan Universitas Andalas, AIDI (Asosiasi Ilmuwan Data Indonesia), dan Labs247. Meetup dilaksanakan pada tanggal 13 Maret 2018 yang lalu, di gedung perpustakaan Universitas Andalas. Antusiasme rekan-rekan idBigData di Padang terlihat dari jumlah peserta yang mencapai sekitar 300 orang.

Acara dimulai pada pukul 9 pagi, dan dibuka dengan sambutan dari Rektor Universitas Andalas, Prof. Dr. Tafdhil Husni, S.E., M.B.A. dan Dekan Fakultas Teknologi Informasi, Dr. Ahmad Syafruddin Indrapriyatna, M.T.

Pembicara pertama adalah Husnil Kamil, M.T. dari Universitas Andalas, yang menyampaikan mengenai Big Data dalam Dunia Pendidikan. Dilanjutkan oleh CEO Labs247, Beno K. Pradekso, mengenai Big Data dan Deep Learning. Pembicara selanjutnya adalah chairman idBigData, Sigit Prasetyo, dengan materi Open Source Big Data Platform. Ditutup oleh Bagus Rully Muttaqien dari AIDI, menyampaikan topik Big Data dan Media Sosial.

Video meetup #19 dapat disaksikan di sini.


meetup-19-1

meetup-19-2

meetup-19-3

meetup-19-4

meetup-19-5

meetup-19-6

meetup-19-7

meetup-19-8

meetup-19-9

meetup-19-10

meetup-19-11

meetup-19-12

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Pages:1234567...12
Tertarik dengan Big Data beserta ekosistemnya? Gabung