:::: MENU ::::

Posts Categorized / Hadoop

  • Jan 09 / 2018
  • Comments Off on Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017
Apache, Big Data, Hadoop, Implementation

Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017

Berikut ini kami sajikan kembali artikel-artikel pilihan selama 2017 dari segmen tutorial dan teknis, yang kami rangkum dalam 8 topik utama.

1. Data Wrangling and Cleaning

Pemrosesan data merupakan tulang punggung big data. Semakin besar dan kompleks data yang diproses, prinsip garbage in-garbage out menjadi semakin penting. Berikut ini beberapa tutorial dan tips data cleansing dan data wrangling.

Pandas Cheat Sheet: Data Science and Data Wrangling in Python
Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

DZone Big Data – Parsing and Querying CSVs With Apache Spark
Bagaimana memecah dan melakukan query data berformat CSV menggunakan Apache Spark dengan menggunakan SQLContext.

Python Pandas Tutorial: DataFrame Basics
DataFrame adalah struktur data yang paling banyak digunakan dalam Python Pandas. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.

Data Cleaning and Wrangling With R
10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

2. Analytics dan Data Science

Data acquisition in R (1/4)
Serangkaian artikel mengenai proses data akuisisi, analisis sampai visualisasi dalam R

Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.

3. Data Visualization

Langkah terakhir dan merupakan suatu hal yang sangat penting dalam data science dan machine learning adalah bagaimana menyajikannya sehingga data tersebut dapat ‘bercerita’. Oleh karena itu visualisasi data menjadi bagian yang penting. Berikut ini beberapa artikel pilihan mengenai tutorial dan contoh kasus yang menarik.

Creating Data Visualization in Matplotlib
Menampulkan beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat ‘bercerita’.

Visualizing Tennis Grand Slam Winners Performances
Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.

Facets: An Open Source Visualization Tool for Machine Learning Training Data
Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.

4. Realtime and Stream Processing

Pemrosesan waktu nyata dan pemrosesan stream merupakan topik yang penting dalam big data, karena semakin banyak sistem yang menghasilkan data dan memerlukan monitoring serta feedback secara realtime. Berikut ini

An Introduction to Kafka Streams
Kafka, secara singkat, adalah sistem fault tolerant distributed publish-subscribe messaging system, yang dirancang untuk pemrosesan data dengan cepat dan memiliki kemampuan untuk menangani ratusan ribu pesan. Kafka Streams adalah library untuk membangun aplikasi streaming yang dapat melakukan transformasi pada aliran data yang masuk.

Streaming in Spark, Flink, and Kafka
Banyak hal yang digaungkan mengenai penggunaan Spark, Flink dan Kafka. Tulisan berikut akan membahas mengenai kelebihan dan perbandingan antara ketiganya.

Performance Tuning of an Apache Kafka/Spark Streaming System
Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.

Self-Learning Kafka Streams With Scala: Part 1
Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala

Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.

5. Benchmark & Comparison

Dengan begitu banyaknya platform, tools, framework dan berbagai komponen yang mendukung big data, salah satu hal yang penting untuk dilakukan untuk menentukan mana yang paling tepat untuk kita adalah dengan melakukan benchmark dan perbandingan. Berikut ini beberapa benchmark dan komparasi, serta sebuah artikel menarik mengenai bagaimana hasil benchmark yang dilakukan Databrick ternyata kurang tepat karena adanya bug dalam data generator yang digunakan.

Performance comparison of different file formats and storage engines in the Hadoop ecosystem
Perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu untuk mengevaluasi efisiensi, ingestion performance, analytic scans and pencarian data secara random pada data layanan CERN Hadoop.

Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.

PyTorch vs TensorFlow — spotting the difference
Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.

Benchmark: Sub-Second Analytics with Apache Hive and Druid
Bagian ke 2 dari artikel ultra fast analytics dengan Apache Druid. Pada bagian ini ditampilkan hasil benchmarking OLAP dengan skala 1TB, dan response time yang benar-benar interaktif.

The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.

6. Machine Learning

Machine learning menjadi salah satu teknologi yang paling banyak berkembang dan diterapkan dalam big data, dan menjadi salah satu keahlian yang akan banyak dibutuhkan dalam tahun-tahun mendatang. Berikut ini beberapa tutorial pengenalan machine learning yang menarik untuk disimak kembali.

A Visual Introduction to Machine Learning
Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.

Top 10 Machine Learning Algorithms for Beginners
Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.

Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.

Machine Learning Exercises in Python: An Introductory Tutorial Series
Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.

Getting Started with TensorFlow: A Machine Learning Tutorial
Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.

7. Deep Learning

Data berukuran sangat besar dengan atribut yang banyak memberi tantangan tersendiri dalam penerapan machine learning. Deep learning kerap kali dipilih karena teknik ini dianggap paling sesuai untuk data dengan karakteristik tersebut. Berikut ini beberapa artikel pilihan mengenai deep learning yang telah disajikan selama 2017.

Deep Learning in Minutes with this Pre-configured Python VM Image
Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.

Deep Learning Zero to One: 5 Awe-Inspiring Demos with Code for Beginners, part 2
Beberapa contoh dan demo aplikasi deep learning yang menarik yang langsung dapat diunduh dan dijalankan. Tanpa matematika. Tanpa teori. Tanpa buku.
Termasuk di dalamnya adalah : Pencarian artis menggunakan perintah suara di Spotify Artist, Symbolic AI Speech Recognition, dan Algorithmia API Photo Colorizer yang dapat mewarnai gambar hitam putih secara otomatis.

Medical Image Analysis with Deep Learning
Sebuah tutorial singkat mengenai dasar image processing, pengenalan dasar format gambar dalam bidang medis dan visualisasi data-data medis. Merupakan artikel pertama dari beberapa seri artikel.

When not to use deep learning
Meskipun telah banyak keberhasilan dalam penerapan Deep Learning, namun ternyata tidak selamanya deep learning menjadi solusi yang tepat. Dalam artikel ini dibahas 4 situasi ketika deep learning justru menjadi penghalang.

8. Case Implementation example

Beberapa contoh implementasi menarik, mulai dari twitter bot, churn modelling sampai GBoard, yang dapat menjadi inspirasi dan motivasi bagi anda yang ingin mengetahui berbagai penerapan big data.

How to set up a Twitter bot using R
Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.

Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.

Feature Engineering for Churn Modeling
Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.

The Machine Intelligence Behind Gboard
Bagaimana Gboard mendeteksi kesalahan ketik dan melakukan autocorrect? Tools yang digunakan sama dengan yang dipakai untuk melakukan speech recognition, yaitu machine learning. Artikel ini mengupas secara teknis bagaimana penerapan machine learning dalam meningkatkan kinerja Gboard.

Log Analytics With Deep Learning And Machine Learning
Paparan yang cukup lengkap dan menarik mengenai deep learning dan machine learning.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 26 / 2017
  • Comments Off on Seputar Big Data Edisi #43
Apache, Artificial Intelligece, Big Data, Hadoop

Seputar Big Data Edisi #43

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan Desember 2017

Artikel dan Berita

  1. Retail: How to Keep it Personal & Take Care of Privacy
    Pemanfaatan informasi pelanggan untuk meningkatkan penjualan adalah hal yang sudah biasa dalam sektor retail. Yang perlu dicermati adalah, dengan semakin canggihnya teknologi pengumpulan, penyimpanan dan pengolahan informasi, bagaimana para pengusaha di sektor ini dapat meningkatkan personalisasi layanan mereka, dengan tetap menjaga privasi para pelanggannya.
  2. How AI can make us better at arguing
    Kemampuan untuk berdebat dan menyampaikan pemikiran adalah salah satu ciri khas manusia. Perdebatan merupakan bagian yang penting dalam berbagai aspek kehidupan, termasuk penentuan kebijakan dalam berbagai bidang. Salah satu yang perlu diwaspadai dalam era teknologi informasi saat ini adalah terbentuknya ‘filter bubbles’ di mana informasi yang kita dapatkan sudah dipersonalisasi atau disesuaikan dengan profil kita oleh penyedia informasi, termasuk Google, Facebook, bahkan media-media online seperti Fox News dan BBC. ARG-Tech, sebuah pusat penelitian di Universitas Dundee bekerja sama dengan BBC Radio melakukan percobaan dengan mendeploy dua jenis ‘teknologi debat’ dengan memanfaatkan data dan AI.
  3. Perkuat Sistem Big Data, Pemerintah Bakal Bangun Government Cloud
    Belanja kebutuhan IT pemerintah, khususnya untuk pengadaan data center semakin meningkat. Namun sejauh ini implementasi dan pemanfaatannya masih belum menyeluruh. Oleh karena itu pemerintah berencana membangun Government Cloud untuk mendorong adopsi teknologi.
  4. Industry Predictions: Main AI, Big Data, Data Science Developments in 2017 and Trends for 2018
    Tahun 2017 hampir berakhir, waktunya merangkum yang telah terjadi selama 2017 dan melakukan prediksi untuk tahun 2018. Berikut adalah kumpulan analisis dan prediksi menarik dari perusahaan terkemuka di bidang AI, Big Data, Data Science, dan Machine Learning: apa yang terjadi pada tahun 2017 dan apa yang mungkin terjadi di tahun 2018.
  5. Understanding the Network Monitoring Needs of Real-Time Data Streaming
    Real time data streaming saat ini semakin menjadi suatu kebutuhan, terutama untuk pemantauan jaringan. Artikel ini memberikan argumen mengenai kebutuhan tersebut, beserta contoh-contoh kasus nyata.
  6. The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers
    Data scientists, data engineers, software engineers, and statisticians adalah beberapa profesi yang populer saat ini. Namun kita terkadang sulit membedakan perbedaan diantara mereka. Artikel ini mencoba mengupas kesamaan dan perbedaan di antara profesi-profesi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Getting Started with TensorFlow: A Machine Learning Tutorial
    Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.
  2. How to Perform Hierarchical Clustering using R
    Salah satu metode clustering yang cukup banyak digunakan saat ini adalah hierarchical clustering. Dalam teknik ini pengelompokan dilakukan secara berjenjang atau hirarkis. Artikel ini membahas secara detail mengenai konsep tersebut serta penerapannya dalam R.
  3. Introducing Heron Streamlets
    Heron kini memiliki Sebuah streamlet API yang yang mensupport model pemrograman tingkat tinggi, yang melengkapi low level API yang sudah dimiliki sebelumnya, yaitu Topology API. Streamletss API ini akan cukup familiar untuk anda yang terbiasa menggunakan sekuens Skala atau Java Stream. Artikel ini memberikan overview mengenai Streamlets lengkap dengan contoh code-nya.
  4. The Plight of the Data Consumer
    Apache Arrow merupakan salah satu project Apache yang populer namun tidak banyak diketahui secara detail, karena digunakan sebagai library internal. Artikel ini menjelaskan mengenai bagaimana Pandas dan library lainnya menggunakan Arrow untuk meningkatkan translasi data dan storage footprint.
  5. Using Hue to interact with Apache Kylin in your cluster or on AWS
    Apache Kylin adalan sistem database OLAP untuk big data, yang mensupport JDBC drivers dan dapat digunakan untuk menjalankan query dari Hue. Artikel ini menjelaskan mengenai langkah-langkah dasar penggunaan Hue dan Apache Kylin di atas AWS cluster.
  6. The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
    Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.
  7. [DATASET] MIT-Adobe FiveK Dataset
    Dataset ini berisi 6 x 5000 image, yang terdiri dari 5000 foto yang diambil dengan kamera SLR oleh beberapa fotografer. Disimpan dalam format RAW, yang berarti lengkap dengan semua informasi yang direkam oleh sensor kamera. Selanjutnya 5 orang mahasiswa seni melakukan retouch menggunakan Adobe Lightroom untuk menghasilkan foto yang lebih artistik, seperti yang biasa dipakai dalam kartu pos.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Apache HBase 1.1.13 is now available for download
    Apache HBase 1.1.13 merupakan rilis terakhir dari stream 1.1, mencakup beberapa perbaikan bug dan peningkatan.
  3. Apache Flink 1.4.0 Release Announcement
    Apache Flink 1.4.0 mencakup perbaikan fitur exactly-once, dan beberapa peningkatan internal lain.
  4. Introducing spark-bam
    Spark-bam adalah sebuah library untuk membaca file berformat BAM, yaitu salah satu format standar untuk data genomic.
  5. Apache Knox 0.14.0 Release
    Apache Knox 0.14.0 diharapkan menjadi versi terakhir sebelum versi 1.0. Rilis kali ini mencakup dukungan proxy Nifi dan Livy, konfigurasi jarak jauh melalui ZooKeeper, peningkatan dukungan untuk Websocket, dan lain-lain.
  6. Upgrade Hadoop version & new file reader
    Kafka-connect-fs adalah library yang mendukung loading data dari file melalui Kafka Connect.
  7.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 04 / 2017
  • Comments Off on Seputar Big Data Edisi #40
Apache, Big Data, Blockchain, Forum Info, Hadoop, Implementation, Medical Analytics

Seputar Big Data Edisi #40

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan November 2017

Artikel dan Berita

  1. Nearly 40% of Data Professionals Spend Half of their Time Prepping Data Rather than Analyzing It
    Menurut survey yang dilakukan oleh TMMData bekerja sama dengan Digital Analytics Association, menemukan bahwa sekitar 40% dari para profesional yang bekerja di bidang pengolahan data, menghabiskan lebih dari 20 jam per minggu untuk mengakses, menggabungkan dan menyiapkan data daripada melakukan analisis data.
  2. Predicting Analytics: 3 Big Data Trends in Healthcare
    Perangkat wearable, sensor dan data lake menjadi suatu hal yang umum digunakan pada industri kesehatan, sehingga analisis data dapat menawarkan sistem perawatan yang lebih personal dan hemat biaya.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. Infrastructure 3.0: Building blocks for the AI revolution
    Saat ini kita telah memasuki era machine learning dan artificial intelligence. Gabungan antar data yang masif, sistem penyimpanan yang murah, sistem komputasi yang fleksibel dan perkembangan algoritma, terutama dalam bidang deep learning, telah menghasilkan aplikasi yang tadinya hanya ada dalam novel fiksi ilmiah

Tutorial dan Pengetahuan Teknis

  1. Using WebSockets With Apache NiFi
    Tutorial mengenai implementasi Websocket server dan client menggunakan Apache Nifi.
  2. Transactions in Apache Kafka
    Artikel lanjutan mengenai transaksi dalam Apache Kafka. Membahas mengenai berbagai aspek dari Kafka transaction API, yaitu use case, detail transaction API untuk Java client, dan pertimbangan yang perlu diambil dalam menggunakan API tersebut.
  3. A Framework for Approaching Textual Data Science Tasks
    Membahas secara singkat dan jelas mengenai kerangka kerja untuk proses-proses data sains tekstual, serta perbedaan antara NLP dan teks mining.
  4. An Introduction to Blockchain
    Popularitas blockchain saat ini semakin meningkat. Blockchain memberikan tingkat keamanan yang cukup tinggi, bahkan diklaim ‘hack resistance’
  5. Customer Analytics: Using Deep Learning With Keras To Predict Customer Churn
    Menyajikan dengan lengkap dan detail mengenai implementasi prediksi churn menggunakan R on Keras Deep Learning. Model yang dibuat adalah Artificial Neural Network, dengan akurasi sampai 82 % dengan menggunakan dataset IBM Watson Telco Customer Churn.
  6. Mapping “world cities” in R
    Tutorial mengenai data wrangling dan visualisation menggunakan R. Menampilkan peta “world cities”, yaitu kota-kota yang telah diidentifikasi oleh Jaringan Riset Globalisasi dan Kota Dunia (GaWC), sebagai kota yang sangat terhubung dan berpengaruh dalam ekonomi dunia.
  7. [DATASET] The MNIST Database of Handwritten Digits
    Kumpulan image untuk klasifikasi digit hasil tulisan tangan. Dataset ini dianggap bagus untuk deep learning karena cukup kompleks untuk digunakan dalam jaringan syaraf tiruan, namun tetap dapat diproses menggunakan sebuah CPU.
  8. [FREE EBOOK]
    Ebook dari Databricks, tentang pengenalan dasar dan praktis mengenai Spark, disertai contoh code.

Rilis Produk

  1. November Update of KSQL Developer Preview Available
    KSQL, streaming SQL engine untuk Kafka yang pada Agustus lalu diluncurkan versi developer preview-nya, merilis update pertama. Selanjutnya rilis update rencananya akan dilakukan sebulan sekali, dan program beta segera diluncurkan.
  2. Apache® Impala™ as a Top-Level Project
    Apache mengumumkan bahwa project Impala, database analitik untuk Apache Hadoop, naik statusnya menjadi top level project.

  3. Apache Kerby 1.1.0 released
    Apache Kerby adalah binding Java Kerberos yang menyediakan implementasi, library, KDC, dan berbagai fasilitas yang mengintegrasikan PKI, OTP dan token untuk environment cloud, Hadoop dan mobile.
    Versi 1.1.0 ini merupakan rilis major, yang mencakup implementasi dukungan cross-realm dan modul GSAPI.
  4.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Nov 23 / 2017
  • Comments Off on Seputar Big Data Edisi #39
Artificial Intelligece, Big Data, Blockchain, Hadoop

Seputar Big Data Edisi #39

Beberapa tema yang tersaji minggu ini, Rilis Hadoop 2.9.0, bagaimana AI mempercepat pengembangan obat, potensi blockchain dan big data, hingga [FREE BOOK] memahami dasar-dasar algoritma machine learning yang dapat difahami oleh siswa ataupun pembaca non-expert.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan November 2017

Artikel dan Berita

  1. Big data and machine learning algorithms could increase risk of collusion: ACCC
    Anggapan yang umum selama ini adalah, penggunaan data dan teknologi informasi dapat meningkatkan transparansi dan fairness, namun ternyata hal sebaliknya dapat juga terjadi. Komisi pengawasan persaingan usaha dan perlindungan konsumen Australia (ACCC) memberikan ikhtisar mengenai kemungkinan terjadinya kasus di mana algoritma machine learning dapat digunakan sebagai alat untuk melakukan pelanggaran hukum dalam persaingan usaha.
  2. The Big Idea Behind Big Data
    Salah satu teori yang sangat powerful dan banyak digunakan, terutama dalam big data, adalah network theory. Mulai dari bagaimana ‘memotong’ penyebaran penyakit menular, memahami dan memprediksi perekonomian, mendeteksi jaringan teroris, sampai dengan meningkatkan penjualan. Artikel ini mengupas dengan menarik mengenai teori ini.
  3. Belong partners with American Cancer Society to help beat cancer with AI
    Hari ini, Belong: Beating Cancer Together – aplikasi chat yang menghubungkan antara pasien dengan dokter dan profesional – telah mengumumkan kemitraan dengan American Cancer Society. Belong bukan hanya aplikasi chat dan komunikasi, tetapi juga mengkombinasikan AI, Machine Learning dan Big Data, yang membantu pasien untuk memperoleh informasi, edukasi dan bantuan pribadi.
  4. How AI Is Helping Speed Drug Development
    Pengembangan obat adalah proses yang rumit dan memakan waktu yang lama. Untuk sebuah obat sampai dapat dikonsumsi pasien rata-rata memerlukan waktu 12 tahun. Bagaimana AI dapat membantu mempercepatnya?
  5. Blockchain and Big Data: When Two Super Technologies Meet, What Happens?
    Blockchain menjadi fenomena baru yang berkembang dengan pesat. Apa itu blockchain, apa hubungannya dengan big data, bagaimana pemanfaatannya dan bagaimana peluangnya di masa depan?
  6. China: Police ‘Big Data’ Systems Violate Privacy, Target Dissent
    Big Data adalah alat yang dapat digunakan untuk kebaikan, namun juga dapat digunakan untuk mengekang hak asasi manusi. HRW menyerukan Pemerintah China untuk menghentikan pemantauan dan pengumpulan data terhadap masyarakatnya, sebelum mereka memiliki hukum yang jelas mengenai perlindungan privasi. Saat ini pemerintah China mengawasi dan mencatat berbagai detail informasi dari ratusan juta rakyat biasa, dan menggunakan data tersebut untuk mengidentifikasi mereka yang memiliki pemikiran yang tidak sejalan dengan pemerintah. Selanjutnya pemerintah melakukan pengintaian terhadap orang-orang tersebut.

Tutorial dan pengetahuan teknis

  1. Cassandra to Kafka Data Pipeline (Part 2)
    Tutorial berikut merupakan bagian kedua dari pemanfaatan Cassandra dan Kafka. Pada bagian ini akan dijelaskan mengenai Change Data Capture pada Cassandra.
  2. How to Build a Geographic Dashboard with Real-Time Data
    Dalam posting ini, diperlihatkan bagaimana membangun dashboard geografis interaktif menggunakan Displayr, Plotly dan R. Hal ini sangat menarik karena menggunakan studi kasus untuk melacak posisi real-time pesawat militer.
  3. How to Prepare a Photo Caption Dataset for Training a Deep Learning Model
    Dalam tutorial ini akan diperlihatkan bagaimana mempersiapkan foto dan deskripsi tekstual yang siap dalam mengembangkan model deep learning untuk membuat foto caption otomatis.
  4. [DATASET] YouTube-8M Dataset
    Open dataset kali ini adalah YouTube-8M, yaitu kumpulan video yang sudah ditandai, terdiri dari jutaan ID video YouTube dan label terkait dari beragam kosa kata dari 4700+ entitas visual. Google menyatakan bahwa data ini dirancang untuk dapat digunakan untuk melakukan training model dasar dalam waktu satu hari dengan satu mesin, maupun untuk melakukan berbagai eksplorasi mendalam dengan model yang lebih kompleks, yang dapat memakan waktu berhari-hari bahkan berminggu-minggu.
  5. [FREE EBOOK] Understanding Machine Learning: From Theory to Algorithms
    Machine learning adalah salah satu bidang ilmu yang paling cepat berkembang, dengan aplikasi yang luas. Buku ini memberikan penjelasan teoritis tentang gagasan yang mendasari machine learning dan derivasi matematis yang mengubahnya menjadi algoritma praktis. Buku ini menyajikan dasar-dasar dan algoritma machine learning dengan cara yang dapat difahami oleh siswa maupun pembaca non-expert dalam bidang statistik, ilmu komputer, matematika, dan teknik.

Rilis produk

  1. Apache Hadoop 2.9.0 released
    Apache Hadoop 2.9.0 dirilis baru-baru ini. Ini merupakan rilis pertama dari Hadoop 2.9.x, dan mencakup fitur-fitur baru yang bersifat major seperti misalnya Timeline Service, YARN Federation, YARN Web UI, HDFS, dan CapacityScheduler API
  2. Apache Kafka 0.11.0.2 Released
    Apache Kafka versi 0.11.0.2 telah dirilis. Di dalamnya meliputi beberapa perbaikan penting termasuk satu bug fixing yang berkaitan dengan data loss.
  3. Apache ZooKeeper 3.4.11
    Rilis 3.4.11 Apache Zookeper mencakup beberapa bug fixes dan perbaikan.
  4. Apache Phoenix 4.13 released
    Apache Phoenix memungkinkan OLTP berbasis SQL dan analytics operasional untuk Apache Hadoop menggunakan Apache HBase sebagai penyimpanan, dan menyediakan integrasi dengan ekosistem Apache lain seperti Spark, Hive, Pig, Flume, dan MapReduce.
    Phoenix versi 4.x kompatibel dengan HBase 0,98 dan 1,3. Rilis 4.13.0 ini mencakup perbaikan pencatatan statistik, perbaikan bug kritikal untuk pembuatan snapshot, dan perbaikan bug lainnya.
  5. Apache Hive 2.3.2 Released
    Apache Hive 2.3.2 dirilis minggu ini. Rilis ini mencakup bug fix di beberapa sub komponen, termasuk klien metastore Hive dan Kerberos.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 16 / 2017
  • Comments Off on Seputar Big Data Edisi #38
Apache, Big Data, Forum Info, Hadoop, Storm

Seputar Big Data Edisi #38

Beberapa tema yang tersaji minggu ini adalah mencegah diminishing return big data, Bill Gates yang mendonasikan USD 50 juta untuk riset Alzheimer, bagaimana menghitung nilai ekonomi informasi sebagai aset, dan meledaknya nilai investasi big data di bidang energi. Pada bagian teknis ditampilkan tutorial TensorFlow Core API, membangun ekosistem mikroservis menggunakan Kafka dan KSQL, tutorial setting dan aktivasi Kerberos di cluster HDFS dengan Ambari, dan Free Ebook mengenai data sains. Rilis minggu ini Apache Phoenix 4.13 dan Apache CouchDB 2.1.1 serta 1.7.1.

Seputar Big Data edisi #38 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan November 2017

Artikel dan Berita

  1. What to do when big data gets too big
    Produksi data yang begitu besar pada suatu ketika mungkin mencapai titik jenuh, di mana manfaat yang didapat dari data akan mulai menurun. Ada dua pemicu utama permasalahan ini, yaitu data diproduksi tanpa tujuan atau business case yang jelas, atau data disajikan dengan kompleksitas yang sangat tinggi sehingga user kesulitan dalam penggunaannya. Artikel ini membahas langkah-langkah yang dapat diambil untuk tetap memaksimalkan manfaat data.
  2. Gates Bets on Big Data in Alzheimer’s Fight
    Bill Gates mengumumkan donasi sebesar USD 50 juta untuk mempelajari dan mengembangkan pengobatan Alzheimer, dengan menekankan pada peran big data dalam pencegahan dan pengendalian penyakit tersebut. Dana tersebut akan disalurkan ke Dementia Discovery Fund (DDF), sebuah kerja sama antara pemerintah, badan amal dan industri kesehatan.
  3. Turn Your Big Data into a Valued Corporate Asset
    Meskipun dunia telah memasuki era informasi dan banyak eksekutif dan pengambil keputusan menyadari bahwa informasi adalah salah satu aset terpenting dalam menjalankan bisnis, namun dari sisi akunting informasi masih belum dianggap sebagai aset. Hal ini berpengaruh terhadap cara pandang dan kedisiplinan dalam mengumpulkan, mengolah dan memanfaatkan informasi. Untuk itu saat ini terdapat sebuah bidang yang disebut infonomics, yaitu sebuah teori dan bidang ilmu yang menekankan dan menentukan pentingnya nilai ekonomi dari informasi. Artikel ini menjelaskan secara singkat mengenai 6 model valuasi informasi yang baru-baru ini dirumuskan Gartner bersama dengan para ahli valuasi, akuntan, dan ekonom.
  4. Big Data and Artificial Intelligence Deals in the Energy Sector Are Up Tenfold in 2017
    Investasi sektor energi di bidang big data dan AI meningkat sampai 10 kali lipat tahun ini. Laporan yang dirilis oleh BDO, sebuah perusahaan akuntansi global, menunjukkan bahwa merger dan akuisisi yang melibatkan perusahaan energi dan startup AI meningkat dari USD 500 juta di kuartal pertama 2017, ke USD 3.5 milyar pada kuartal kedua.

Tutorial dan Pengetahuan Teknis

  1. TensorFlow: What Parameters to Optimize?
    Mempelajari TensorFlow Core API, yang merupakan API level paling rendah, adalah langkah yang tepat untuk mulai mempelajari TensorFlow, karena kita dapat memahami kernel library TensorFlow. Berikut ini contoh paling sederhana dari TensorFlow Core API, di mana kita membuat dan melatih model regresi linear.
  2. Apache Storm: The Hadoop of Real-Time
    Pada dasarnya, Hadoop dan Storm digunakan untuk menganalisis data yang besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sementara Hadoop bagus dalam segala hal kecuali dalam perhitungan real-time.
  3. Building a Microservices Ecosystem with Kafka Streams and KSQL
    Saat ini proses bisnis dijalankan sebagai gabungan dari berbagai ekosistem : kumpulan aplikasi dan servis yang saling berinteraksi mencapai sebuah tujuan bisnis. Ada beberapa keuntungan membuat ekosistem tersebut menjadi event-driven.
    Artikel ini menjelaskan dengan baik motivasinya, dan bagaimana membangun sistem transaksional asynchronous di atas Kafka stream dan KSQL.
  4. Ambari Kerberos support for HBase Part 1
    Seri pertama dari serangkaian artikel yang menjelaskan mengenai langkah demi langkah aktivasi autentikasi Kerberos untuk cluster yang menggunakan Ambari. Blog ini secara khusus akan membahas bagaimana cara men-deploy cluster Hadoop (HDFS + YARN) dengan Kerberos aktif yang kemudian akan digunakan untuk men-deploy cluster HBase dengan Kerberos yang diaktifkan pada posting-posting berikutnya.
  5. [FREE EBOOK] Data Science Live: An Open-Source Book About Data Science, Analytics, and More
    Online ebook untuk membantu mempelajari data sains, machine learning dan data analytics, disertai berbagai contoh kasus nyata dalam R. Mencakup di antaranya : Exploratory data analysis, data preparation, pemilihan variabel, kinerja model, dan

Rilis Produk

  1. Apache Phoenix 4.13 released
    Apache Phoenix 4.13, yang mencakup perbaikan bug kritikal terkait penulisan SYSTEM.CATALOG pada saat connecting, beberapa bug fixes terkait row deletion handling, dan lain-lain.
  2. Apache CouchDB 2.1.1 and 1.7.1 released
    Apache CouchDB mengumumkan rilis 2.1.1 dan 1.7.1, yang merupakan security release yang memperbaiki beberapa isu kritikal. Update ke versi ini bersifat mandatory.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 02 / 2017
  • Comments Off on Seputar Big Data Edisi #36
Apache, Big Data, Blockchain, Hadoop, Implementation, Spark

Seputar Big Data Edisi #36

Beberapa artikel teknis menarik mengenai Keras – sebuah Python Deep Learning library, pemanfaatan Apache Flink untuk risk engine, perbandingan antara Apache Arrow, Parquet dan ORC, serta tutorial mengenai penggunaan Spark dan SparkSQL untuk memproses file csv. Dari segmen news ditampilkan penerapan big data analytics oleh PT Pos Indonesia, MIT yang membangun FeatureHub untuk crowdsourcing big data analytics, dan implikasi blockchain bagi industri asuransi. Tidak ketinggalan juga beberapa rilis open source, diantaranya yaitu Apache Spark 2.1.2. Hive, Pandas, dan OpenNLP.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 4 bulan Oktober 2017.

Artikel dan Berita

  1. The Amazing Ways Spotify Uses Big Data, AI And Machine Learning To Drive Business Success
    Spotify, layanan musik on-demand terbesar di dunia, dikenal sebagai pendobrak batas teknologi. Perusahaan musik digital dengan lebih dari 100 juta pengguna ini terus meningkatkan kemampuan layanan dan teknologinya melalui beberapa akuisisi serta pemanfaatan big data, kecerdasan buatan dan machine learning.
  2. Crowdsourcing big-data analysis
    Langkah pertama dalam proses analisis big data dalah identifikasi fitur, yaitu data poin yang memiliki nilai prediktif, yang berguna dalam proses analisis. Langkah ini biasanya memerlukan intuisi manusia. Peneliti MIT membangun sebuah sistem kolaborasi, yang diberi nama FeatureHub. Dengan alat ini diharapkan proses identifikasi fitur dapat dilakukan secara efisien dan efektif. Dengan FeatureHub, para data saintis dan domain expert dapat masuk ke dalam sebuah situs untuk mereview permasalahan dan mengajukan fitur yang akan digunakan. FeatureHub kemudian akan melakukan pengetesan berbagai kemungkinan kombinasi fitur tersebut terhadap target data, untuk menentukan kombinasi mana yang paling tepat untuk permasalahan tertentu.
  3. Keuangan Inklusif, PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  4. What PredictionIO does for machine learning and Spark
    Apache PredictionIO dibangun di atas Spark dan Hadoop, dan menyediakan template yang dapat dikustomisasi untuk task-task yang umum.
    Aplikasi mengirimkan data ke server event untuk melakukan training model, kemudian meng-query engine untuk mendapatkan prediksi berdasarkan model tersebut. Kemudahan apa yang ditawarkan oleh Apache PredictionIO?
  5. Blockchain Implications Every Insurance Company Needs To Consider Now
    Teknologi blockchain sangat berpotensi mengguncang industri asuransi dan mengubah cara berbagi data, memproses klaim dan mencegah fraud. Namun implementasinya di industri asuransi saat ini masih dalam tahap eksplorasi awal. Untuk dapat merealisasikan potensi blockchain yang sangat besar implikasinya tersebut, Industri asuransi perlu secara aktif bekerja sama dengan para pionir, regulator, dan pakar-pakar industri. Perusahaan-perusahaan asuransi pun harus mulai mencoba memanfaatkan blockchain dalam proses internal mereka untuk mendapatkan pembelajaran guna memanfaatkan teknologi ini.

Tutorial dan Pengetahuan Teknis

  1. 7 Steps to Mastering Deep Learning with Keras
    Apakah anda tertarik untuk mempelajari Keras? Apakah Anda sudah memiliki pemahaman tentang bagaimana neural network bekerja? Artikel berikut ini menyajikan tujuh langkah praktis untuk menguasai dasar-dasar Keras dengan mudah dan cepat.
  2. StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
    Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.
  3. Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
    Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.
  4. ETL Pipeline to Transform, Store and Explore Healthcare Dataset With Spark SQL, JSON and MapR-DB
    Tutorial ini menjelaskan cara menggunakan Spark untuk membaca data dari file CSV, mengubahnya menjadi skema yang terdefinisi dengan baik (dalam hal ini Scala Case Class), dan melakukan query menggunakan SparkSQL. Ada juga contoh kode untuk menyimpan data di MapR-DB dan membacanya kembali.

Rilis Produk

  1. Spark Release 2.1.2
    Spark 2.1.2 baru saja dirilis. Ada lebih dari 100 perbaikan bug dan berbagai penyempurnaan pada versi ini.
  2. Pandas v0.21.0
    Ini adalah major rilis dari 0,20,3 mencakup sejumlah perubahan, deprecation, fitur baru, penyempurnaan, dan peningkatan kinerja API serta sejumlah besar perbaikan bug. User sangat disarankan melakukan upgrade ke versi ini.
  3. Hive – Version 2.3.1
    Hive versi 2.3.1 dirilis minggu lalu dengan beberapa bug fixing dan penyempurnaan.
  4. Apache OpenNLP 1.8.3
    Rilis ini memperkenalkan beberapa fitur baru, perbaikan bug, dan penyempurnaan. Versi ini memerlukan Java 1.8 dan Maven 3.3.9.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 13 / 2017
  • Comments Off on Seputar Big Data Edisi #33
Apache, Big Data, Hadoop

Seputar Big Data Edisi #33

Tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G., 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik., hingga Rilis HUE 4.1, semua tersaji khusus dalam Seputar Big Data Edisi #33. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2017

Artikel dan Berita

  1. Top 10 Big Data Jobs
    Big Data, tentu saja, menciptakan banyak pekerjaan. Robert Half baru saja merilis dokumen berjudul “2018 Salary Guide for Technology Professionals” yang memprediksi bahwa pekerjaan yang berhubungan dengan Big Dataseperti analis bisnis intelijen (BI), data science dan database developer akan menjadi salah satu pekerjaan paling banyak dibutuhkan di tahun yang akan datang.
  2. 3 Essential Technologies for the Next 10 Years
    Dalam artikel ini dibahas mengenai tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G.
  3. How Quantum Computers Will Revolutionize Artificial Intelligence and Big Data
    Pada awalnya, menyelesaikan masalah big data dapat menggunakan komputer desktop. Dengan semakin besarnya data, komputasi Quantum yang dilengkapi dengan algoritma lanjutan tidak memadai lagi jika menggunakan memori pada komputer tradisional.

Tutorial dan Pengetahuan Teknis

  1. The 5 Common Mistakes That Lead to Bad Data Visualization
    Berikut adalah 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik. Hindari ini untuk mendapatkan hasil maksimal dari visualisasi data Anda.
  2. Using Kafka Streams API for predictive budgeting
    Blog Pinterest Engineering telah memposting bagaimana Pinterest menggunakan Kafka Stream untuk melakukan prediksi realtime menggunakan pemrosesan stream
  3. [DATASET] New York city TLC Trip Record Data
    The New York City Taxi & Limousine Commission merilis kumpulan data historis yang sangat detail, mencakup lebih dari 1,1 miliar perjalanan taksi di kota tersebut mulai Januari 2009 sampai Juni 2015.
  4. [FREE EBOOK] Python Data Science Handbook
    Menjelaskan dengan sistematis mengenai data science dan penerapannya dengan Python. Disajikan dalam bentuk Jupyter Notebook, sehingga pembacanya dapat langsung mencoba langkah demi langkah.

Rilis Produk

  1. Bitwise Launches Hadoop Adaptor for Mainframe Data
    Bitwise, sebuah perusahaan konsultan manajemen data berbasis di Chicago, hari ini, 10 Oktober, mengumumkan peluncuran Adaptor Hadoop untuk Data Mainframe untuk mengubah data mainframe dalam format EBCDIC menjadi format yang dikenal Hadoop seperti ASCII, Avro dan Parket.
  2. Announcing dplyrXdf 1.0
    Paket dplyrXdf versi 1.0 diumumkan peluncurannya. Semula dplyrXdf merupakan backend sederhana ke dplyr untuk format file XFS Microsoft Machine Learning Server / Microsoft R Server, namun kini telah menjadi perangkat yang lebih luas untuk mempermudah bekerja dengan file format Xdf.
  3. Hue 4.1 is out!
    HUE versi 4.1 dirilis dengan sekitar 250 perbaikan bugs
  4. Apache Flume 1.8.0 released
    Apache Flume 1.8.0 dirilis dengan 3 fitur minor baru dan 8 peningkatan kinerja, serta berbagai perbaikan bugs.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Pages:1234
Tertarik dengan Big Data beserta ekosistemnya? Gabung