:::: MENU ::::

Posts Categorized / Implementation

  • Jan 09 / 2018
  • Comments Off on Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017
Apache, Big Data, Hadoop, Implementation

Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017

Berikut ini kami sajikan kembali artikel-artikel pilihan selama 2017 dari segmen tutorial dan teknis, yang kami rangkum dalam 8 topik utama.

1. Data Wrangling and Cleaning

Pemrosesan data merupakan tulang punggung big data. Semakin besar dan kompleks data yang diproses, prinsip garbage in-garbage out menjadi semakin penting. Berikut ini beberapa tutorial dan tips data cleansing dan data wrangling.

Pandas Cheat Sheet: Data Science and Data Wrangling in Python
Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

DZone Big Data – Parsing and Querying CSVs With Apache Spark
Bagaimana memecah dan melakukan query data berformat CSV menggunakan Apache Spark dengan menggunakan SQLContext.

Python Pandas Tutorial: DataFrame Basics
DataFrame adalah struktur data yang paling banyak digunakan dalam Python Pandas. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.

Data Cleaning and Wrangling With R
10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

2. Analytics dan Data Science

Data acquisition in R (1/4)
Serangkaian artikel mengenai proses data akuisisi, analisis sampai visualisasi dalam R

Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.

3. Data Visualization

Langkah terakhir dan merupakan suatu hal yang sangat penting dalam data science dan machine learning adalah bagaimana menyajikannya sehingga data tersebut dapat ‘bercerita’. Oleh karena itu visualisasi data menjadi bagian yang penting. Berikut ini beberapa artikel pilihan mengenai tutorial dan contoh kasus yang menarik.

Creating Data Visualization in Matplotlib
Menampulkan beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat ‘bercerita’.

Visualizing Tennis Grand Slam Winners Performances
Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.

Facets: An Open Source Visualization Tool for Machine Learning Training Data
Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.

4. Realtime and Stream Processing

Pemrosesan waktu nyata dan pemrosesan stream merupakan topik yang penting dalam big data, karena semakin banyak sistem yang menghasilkan data dan memerlukan monitoring serta feedback secara realtime. Berikut ini

An Introduction to Kafka Streams
Kafka, secara singkat, adalah sistem fault tolerant distributed publish-subscribe messaging system, yang dirancang untuk pemrosesan data dengan cepat dan memiliki kemampuan untuk menangani ratusan ribu pesan. Kafka Streams adalah library untuk membangun aplikasi streaming yang dapat melakukan transformasi pada aliran data yang masuk.

Streaming in Spark, Flink, and Kafka
Banyak hal yang digaungkan mengenai penggunaan Spark, Flink dan Kafka. Tulisan berikut akan membahas mengenai kelebihan dan perbandingan antara ketiganya.

Performance Tuning of an Apache Kafka/Spark Streaming System
Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.

Self-Learning Kafka Streams With Scala: Part 1
Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala

Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.

5. Benchmark & Comparison

Dengan begitu banyaknya platform, tools, framework dan berbagai komponen yang mendukung big data, salah satu hal yang penting untuk dilakukan untuk menentukan mana yang paling tepat untuk kita adalah dengan melakukan benchmark dan perbandingan. Berikut ini beberapa benchmark dan komparasi, serta sebuah artikel menarik mengenai bagaimana hasil benchmark yang dilakukan Databrick ternyata kurang tepat karena adanya bug dalam data generator yang digunakan.

Performance comparison of different file formats and storage engines in the Hadoop ecosystem
Perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu untuk mengevaluasi efisiensi, ingestion performance, analytic scans and pencarian data secara random pada data layanan CERN Hadoop.

Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.

PyTorch vs TensorFlow — spotting the difference
Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.

Benchmark: Sub-Second Analytics with Apache Hive and Druid
Bagian ke 2 dari artikel ultra fast analytics dengan Apache Druid. Pada bagian ini ditampilkan hasil benchmarking OLAP dengan skala 1TB, dan response time yang benar-benar interaktif.

The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.

6. Machine Learning

Machine learning menjadi salah satu teknologi yang paling banyak berkembang dan diterapkan dalam big data, dan menjadi salah satu keahlian yang akan banyak dibutuhkan dalam tahun-tahun mendatang. Berikut ini beberapa tutorial pengenalan machine learning yang menarik untuk disimak kembali.

A Visual Introduction to Machine Learning
Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.

Top 10 Machine Learning Algorithms for Beginners
Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.

Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.

Machine Learning Exercises in Python: An Introductory Tutorial Series
Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.

Getting Started with TensorFlow: A Machine Learning Tutorial
Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.

7. Deep Learning

Data berukuran sangat besar dengan atribut yang banyak memberi tantangan tersendiri dalam penerapan machine learning. Deep learning kerap kali dipilih karena teknik ini dianggap paling sesuai untuk data dengan karakteristik tersebut. Berikut ini beberapa artikel pilihan mengenai deep learning yang telah disajikan selama 2017.

Deep Learning in Minutes with this Pre-configured Python VM Image
Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.

Deep Learning Zero to One: 5 Awe-Inspiring Demos with Code for Beginners, part 2
Beberapa contoh dan demo aplikasi deep learning yang menarik yang langsung dapat diunduh dan dijalankan. Tanpa matematika. Tanpa teori. Tanpa buku.
Termasuk di dalamnya adalah : Pencarian artis menggunakan perintah suara di Spotify Artist, Symbolic AI Speech Recognition, dan Algorithmia API Photo Colorizer yang dapat mewarnai gambar hitam putih secara otomatis.

Medical Image Analysis with Deep Learning
Sebuah tutorial singkat mengenai dasar image processing, pengenalan dasar format gambar dalam bidang medis dan visualisasi data-data medis. Merupakan artikel pertama dari beberapa seri artikel.

When not to use deep learning
Meskipun telah banyak keberhasilan dalam penerapan Deep Learning, namun ternyata tidak selamanya deep learning menjadi solusi yang tepat. Dalam artikel ini dibahas 4 situasi ketika deep learning justru menjadi penghalang.

8. Case Implementation example

Beberapa contoh implementasi menarik, mulai dari twitter bot, churn modelling sampai GBoard, yang dapat menjadi inspirasi dan motivasi bagi anda yang ingin mengetahui berbagai penerapan big data.

How to set up a Twitter bot using R
Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.

Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.

Feature Engineering for Churn Modeling
Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.

The Machine Intelligence Behind Gboard
Bagaimana Gboard mendeteksi kesalahan ketik dan melakukan autocorrect? Tools yang digunakan sama dengan yang dipakai untuk melakukan speech recognition, yaitu machine learning. Artikel ini mengupas secara teknis bagaimana penerapan machine learning dalam meningkatkan kinerja Gboard.

Log Analytics With Deep Learning And Machine Learning
Paparan yang cukup lengkap dan menarik mengenai deep learning dan machine learning.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 20 / 2017
  • Comments Off on [Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn
Artificial Intelligece, Big Data, Implementation, machine learning, Uncategorized

[Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Cara paling cepat untuk menguasai sebuah tool atau platform adalah dengan membuat sebuah end-to-end project yang mencakup langkah-langkah utama dalam implementasi machine learning. Langkah tersebut antara lain adalah : loading data, summary data, evaluasi algoritma dan membuat beberapa prediksi.

Membuat end-to-end project berarti membiasakan diri dengan proses machine learning, dan kasus yang telah dikerjakan dapat menjadi semacam template yang bisa digunakan untuk mengolah berbagai dataset lainnya.

Untuk memulainya tidak perlu menggunakan dataset atau kasus yang terlalu rumit. Anda bisa memilih data yang tersedia di dalam library scikit-learn. Daftar lengkap datasetnya dapat dilihat di sini.

Dalam artikel ini akan digunakan dataset iris sebagai contoh kasusnya.

Dataset iris ini sangat sesuai untuk latihan karena :

  • Ukurannya tidak terlalu besar, yaitu 4 atribut dan 150 row, sehingga tidak akan membebani memori
  • Atributnya sederhana. Seluruh atribut numerik dalam unit dan skala yang sama, sehingga tidak memerlukan transformasi khusus

Meskipun teknik dan prosedur dalam penerapan machine learning sangat bervariasi, namun secara garis besar sebuah project machine learning memiliki tahapan sebagai berikut:

  • Definisi masalah
  • Menyiapkan data
  • Memilih/mengevaluasi algoritma
  • Melakukan tuning untuk memperbaiki hasil
  • enyajikan hasil

Salah satu hal yang paling penting dalam langkah-langkah awal project adalah memahami data. Dalam artikel ini akan disajikan mengenai loading dan beberapa fungsi eksplorasi data untuk melihat bagaimana dataset yang akan kita proses nantinya.

1. Cek Instalasi

Jalankan perintah-perintah berikut untuk mengecek versi package yang terinstall.
Versi yang package yang akan gunakan mestinya lebih baru atau setidaknya sama dengan yang terdapat pada output di bawah ini. Jika versi package anda sedikit tertinggal, mestinya tidak masalah, karena biasanya API-nya tidak terlalu banyak berubah. Anda masih dapat menjalankan code yang ada dalam latihan di bawah ini. Tapi jika ingin memperbaharui package yang ada, langkah update package dapat dilihat di posting sebelumnya.

Belajar_ML_2

Output yang didapatkan kurang lebih sbb (versi bisa berbeda):

Belajar_ML_2

Berikutnya adalah loading package yang akan digunakan. Lakukan import untuk mengecek apakah instalasi sudah ok. Jika terdapat error, stop dan resolve. Package di bawah ini perlu untuk menjalankan latihan dalam artikel ini.

Petunjuk setting environment bisa dilihat di posting sebelumnya. Jika terdapat pesan error yang spesifik, anda bisa mencari cara resolve-nya di forum-forum seperti Stack Exchange (http://stackoverflow.com/questions/tagged/python).

Belajar_ML_2

2. Loading Data

Jika langkah di atas berjalan dengan baik, load dataset iris dari package sklearn dengan menjalankan fungsi berikut:

Belajar_ML_2

Tips : Untuk mengetahui jenis sebuah object atau fungsi dalam python, kita bisa mengetikkan nama object atau fungsi yang ingin kita ketahui, diikuti tanda tanya, seperti pada contoh berikut :

Belajar_ML_2

Outputnya adalah informasi dari object tersebut, seperti berikut:

Belajar_ML_2

Untuk mengetahui apa saja yang terdapat di dalam dataset iris, tampilkan seluruh keys dalam dataset tersebut dengan perintah berikut ini:

Belajar_ML_2

Outputnya berupa daftar dari keys atau kata kunci yang terdapat dalam dictionary:

Belajar_ML_2

Dari outputnya kita dapat mengetahui bahwa dalam dataset iris terdapat key berikut : data, target, target_name, DESCR dan feature_names. Kita dapat mengakses dan menampilkan value-nya dengan key tersebut. Misalnya untuk menampilkan deskripsi dataset, lakukan sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Seperti tampak pada deskripsi di atas, dataset iris memiliki 4 atribut numerik : sepal length, sepal width, petal length, dan petal width.

Terdapat 3 jenis spesies (class), yaitu

  • Iris-Setosa
  • Iris-Versicolour
  • Iris-Virginica

Terdapat 150 entry (150 rows data), yang terbagi rata ke dalam 3 kelas tersebut.

Atribut disimpan di elemen “data”, dan kelas/species di elemen “target”. Keduanya bertipe numerik.

Kita lihat bentuk datanya, dengan ‘mengintip’ beberapa baris data dan target, dengan command berikut:

Belajar_ML_2

Dari output di bawah terlihat bahwa format data adalah numerik, dan nilai target menunjukkan indeks dari array target_names.

Belajar_ML_2

3. Convert dataset ke dalam Pandas DataFrame

Untuk memudahkan pemrosesan dan eksplorasi data, kita akan mengubah dataset tersebut ke dalam format pandas DataFrame.

Pandas adalah package yang dibangun di atas library numPy. Pandas menyediakan data struktur yang efisien dan fleksibel, yang dirancang untuk melakukan analisis data dalam Python.
Keterangan lebih lanjut mengenai pandas dan berbagai object di dalamnya dapat dilihat di sini (https://pandas.pydata.org/pandas-docs/stable/)

Berikut ini command untuk mengubah dataset iris menjadi Pandas Dataframe:

Belajar_ML_2

4. Eksplorasi Dataset

Beberapa hal yang akan kita lakukan adalah :

  • Melihat dimensi dataset
  • Contoh datanya
  • Ringkasan statistik semua atribut
  • Mengelompokkan data berdasar variabel target

Yang pertama kita lihat dimensi datanya (jumlah row dan kolom) dengan menggunakan atribut shape

Belajar_ML_2

Output:
Belajar_ML_2

Selanjutnya kita ‘intip’ contoh data dengan menggunakan fungsi head. Dari sini terlihat dataset kita memiliki 4 atribut numerik dan 1 atribut string.

Belajar_ML_2

Output:

Belajar_ML_2

Statistical Summary

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean, nilai minimum dan maksimum, serta nilai2 persentilnya.

Belajar_ML_2

Dari summary tersebut terlihat bahwa seluruh nilai numerik memiliki skala yang sama (yaitu dalam cm), dan memiliki range yang serupa juga, yaitu antara 0 sampai 8 cm.

Belajar_ML_2

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya berdasarkan kelas sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Terlihat bahwa data terbagi menjadi 3 kelas dengan jumlah yang sama, yaitu masing-masing 50 row.

Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya. Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam bentuk boxplot.

Belajar_ML_2

Belajar_ML_2

Kita juga bisa melihat sebaran datanya dengan bentuk histogram.

Belajar_ML_2

Belajar_ML_2

Dari histogram di atas tampak bahwa setidaknya ada 2 variabel yang kemungkinan memiliki sebaran normal. Asumsi ini dapat kita jadikan pertimbangan ketika memilih algoritma nantinya.

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal.

Belajar_ML_2

Belajar_ML_2

Setelah kita mendapat gambaran mengenai dataset yang akan kita proses, kita siap melakukan testing dan tuning algoritma.

Versi Jupyter notebook dari latihan ini dapat di unduh di :
https://github.com/urfie/belajar-python/blob/master/Belajar%20Machine%20Learning%20-%20Load%20and%20Explore%20Dataset.ipynb

Sumber : https://machinelearningmastery.com/machine-learning-in-python-step-by-step/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Dec 15 / 2017
  • Comments Off on Seputar Big Data Edisi #42
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, Uncategorized

Seputar Big Data Edisi #42

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 2 bulan Desember 2017.

Artikel dan Berita

  1. How To Think About Artificial Intelligence In The Music Industry
    Ulasan mengenai penerapan AI di dalam industri musik. Jenis data apa saja yang penting, serta apa tantangan dan peluangnya, dengan berbagai contoh menarik dari Youtube, Spotify, dan lain sebagainya.
  2. Machine learning at Spotify: You are what you stream
    Wawancara dengan head of data solution Spotify. Beberapa hal yang dibahas adalah bagaimana membentuk, memanage dan mengembangkan sebuah data team, dan bagaimana Spotify membangun sistem rekomendasi mereka.
  3. Australian genome researchers solving big data problems
    Genomics merupakan sebuah bidang yang menghasilkan data luar biasa besarnya. Untuk mengatasi permasalahan tersebut para peneliti di bidang ini membangun sebuah tool berbasis cloud.
  4. Using Big Data to transform business processes
    Menurut survey IDC, investasi di bidang big data dan teknologi analytics akan mencapai 187 miliar US$ pada 2019, meningkat 50% dari tahun 2015. Dengan jumlah yang fantastis tersebut, bagaimana big data dapat bermanfaat dalam proses bisnis?
  5. Six ways (and counting) that big data systems are harming society
    Sebuah teknologi yang disruptive seperti big data tentu tidak hanya membawa manfaat bagi manusia, namun juga membawa dampak negatif. Data Justice Lab, sebuah pusat penelitian Jurnalistik, Media dan Budaya Universitas Cardiff, mencatat berbagai kasus kerugian akibat penggunaan big data, seperti misalnya penyalahgunaan informasi pribadi, diskriminasi, dan lain sebagainya.
  6. New big data trend tracks ‘digital footprints’
    ‘Process mining’ adalah salah satu teknik yang mulai banyak digunakan oleh perusahaan, termasuk diantaranya GM, Airbus, KPMG dan UBS untuk mengotomasi berbagai proses dan beradaptasi dengan digitalisasi industri. Teknik ini dimungkinkan dengan adanya pencatatan dan pengumpulan data-data digital yang didukung oleh teknologi big data.
  7. 10 Great Reads for Small Biz Owners Afraid to Conquer Big Data
    Banyak perusahaan kecil dan menengah yang menganggap bahwa big data hanya sesuai untuk perusahaan besar saja, sehingga mereka enggan untuk memanfaatkannya. Berikut ini 10 buku yang dapat memotivasi para pengusaha kecil dan menengah untuk mempelajari dan menerapkan big data bagi keunggulan kompetitif mereka.

Tutorial dan Pengetahuan Teknis

  1. Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction
    Pengenalan singkat dan mudah tentang bagaimana menggunakan Scikit-learn Pipelines untuk membuat dan mengatur alur kerja machine learning. Merupakan bagian 1 dari sebuah artikel serial.
  2. Problems With Kafka Streams
    Kafka Stream adalah platform pemrosesan stream yang mudah dan handal. Aplikasi yang menggunakan Kafka Streams pun dapat dijalankan di hampir semua environment. Namun demikian, seperti halnya segala hal di muka bumi ini, library Kafka tidaklah sempurna. Apa saja permasalahan yang biasa dihadapi dalam penggunaan library Kafka?
  3. Difference Between Classification and Regression in Machine Learning
    Penjelasan yang sangat baik dan mudah difahami mengenai perbedaan antara klasifikasi dan regresi dalam machine learning.
  4. Connecting R to Keras and TensorFlow
    Tutorial mengenai bagaimana menghubungkan R ke Keras dan TensorFlow, lengkap dengan contoh dan dokumentasi.
  5. Big Data and Container Orchestration with Kubernetes (K8s)
    Artikel ini menjelaskan beberapa tantangan dalam mengadopsi Kubernetes (k8) untuk Hadoop stack. k8s pada dasarnya ditujukan untuk aplikasi stateless, sehingga cocok untuk HDFS dan aplikasi penyimpan data lain. Dijelaskan pula mengenai sebuah prototipe yang dibuat BlueData untuk mendeploy Hadoop dengan k8 melalui EPIC.
  6. Processing HL7 Records
    Tutorial mengenai proses ingestion dan transformasi data dari format HL7 (standar internasional untuk data kesehatan) ke dalam Apache Hive untuk dimanfaatkan dalam machine learning dan analisis pada data lake Hadoop.
  7. [FREE EBOOK] Think Stats – Probability and Statistics for Programmers
    Pengantar probabilitas dan statistik untuk programmer Python. Menekankan pada teknik-teknik sederhana yang dapat Anda gunakan untuk mengeksplorasi dataset dan menjawab berbagai pertanyaan menarik. Buku ini menyajikan studi kasus menggunakan data dari National Institutes of Health. Pembaca didorong untuk mengerjakan sebuah proyek dengan dataset yang sebenarnya.
  8. [DATASET] Default of Credit Card Clients Data Set
    Saat ini prediksi default kartu kredit dengan machine learning sudah mulai banyak dilakukan. Dataset berikut ini mencakup data demografi, riwayat pembayaran, kredit, dan data default.

Rilis Produk

  1. Druid 0.11.0
    Druid 0.11.0 mencakup beberapa fitur baru yang major, termasuk support TLS, ekstensi cache Redis, dan berbagai peningkatan untuk Druid SQL dan kinerja GroupBY.
  2. Apache MiNiFi C++ 0.3.0
    Apache MiNiFi C++ versi 0.3.0 dirilis, namun belum dianggap siap untuk production. Versi ini memiliki beberapa fitur termasuk dukungan untuk menulis langsung ke Kafka.
  3. DeepVariant: Highly Accurate Genomes With Deep Neural Networks
    Google merilis DeepVariant ke komunitas open source. DeepVariant adalah variant caller berbasis deep learning yang memanfaatkan framework Inception dari TensorFlow, yang pada mulanya digunakan untuk melakukan klasifikasi image.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 04 / 2017
  • Comments Off on Seputar Big Data Edisi #40
Apache, Big Data, Blockchain, Forum Info, Hadoop, Implementation, Medical Analytics

Seputar Big Data Edisi #40

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan November 2017

Artikel dan Berita

  1. Nearly 40% of Data Professionals Spend Half of their Time Prepping Data Rather than Analyzing It
    Menurut survey yang dilakukan oleh TMMData bekerja sama dengan Digital Analytics Association, menemukan bahwa sekitar 40% dari para profesional yang bekerja di bidang pengolahan data, menghabiskan lebih dari 20 jam per minggu untuk mengakses, menggabungkan dan menyiapkan data daripada melakukan analisis data.
  2. Predicting Analytics: 3 Big Data Trends in Healthcare
    Perangkat wearable, sensor dan data lake menjadi suatu hal yang umum digunakan pada industri kesehatan, sehingga analisis data dapat menawarkan sistem perawatan yang lebih personal dan hemat biaya.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. Infrastructure 3.0: Building blocks for the AI revolution
    Saat ini kita telah memasuki era machine learning dan artificial intelligence. Gabungan antar data yang masif, sistem penyimpanan yang murah, sistem komputasi yang fleksibel dan perkembangan algoritma, terutama dalam bidang deep learning, telah menghasilkan aplikasi yang tadinya hanya ada dalam novel fiksi ilmiah

Tutorial dan Pengetahuan Teknis

  1. Using WebSockets With Apache NiFi
    Tutorial mengenai implementasi Websocket server dan client menggunakan Apache Nifi.
  2. Transactions in Apache Kafka
    Artikel lanjutan mengenai transaksi dalam Apache Kafka. Membahas mengenai berbagai aspek dari Kafka transaction API, yaitu use case, detail transaction API untuk Java client, dan pertimbangan yang perlu diambil dalam menggunakan API tersebut.
  3. A Framework for Approaching Textual Data Science Tasks
    Membahas secara singkat dan jelas mengenai kerangka kerja untuk proses-proses data sains tekstual, serta perbedaan antara NLP dan teks mining.
  4. An Introduction to Blockchain
    Popularitas blockchain saat ini semakin meningkat. Blockchain memberikan tingkat keamanan yang cukup tinggi, bahkan diklaim ‘hack resistance’
  5. Customer Analytics: Using Deep Learning With Keras To Predict Customer Churn
    Menyajikan dengan lengkap dan detail mengenai implementasi prediksi churn menggunakan R on Keras Deep Learning. Model yang dibuat adalah Artificial Neural Network, dengan akurasi sampai 82 % dengan menggunakan dataset IBM Watson Telco Customer Churn.
  6. Mapping “world cities” in R
    Tutorial mengenai data wrangling dan visualisation menggunakan R. Menampilkan peta “world cities”, yaitu kota-kota yang telah diidentifikasi oleh Jaringan Riset Globalisasi dan Kota Dunia (GaWC), sebagai kota yang sangat terhubung dan berpengaruh dalam ekonomi dunia.
  7. [DATASET] The MNIST Database of Handwritten Digits
    Kumpulan image untuk klasifikasi digit hasil tulisan tangan. Dataset ini dianggap bagus untuk deep learning karena cukup kompleks untuk digunakan dalam jaringan syaraf tiruan, namun tetap dapat diproses menggunakan sebuah CPU.
  8. [FREE EBOOK]
    Ebook dari Databricks, tentang pengenalan dasar dan praktis mengenai Spark, disertai contoh code.

Rilis Produk

  1. November Update of KSQL Developer Preview Available
    KSQL, streaming SQL engine untuk Kafka yang pada Agustus lalu diluncurkan versi developer preview-nya, merilis update pertama. Selanjutnya rilis update rencananya akan dilakukan sebulan sekali, dan program beta segera diluncurkan.
  2. Apache® Impala™ as a Top-Level Project
    Apache mengumumkan bahwa project Impala, database analitik untuk Apache Hadoop, naik statusnya menjadi top level project.

  3. Apache Kerby 1.1.0 released
    Apache Kerby adalah binding Java Kerberos yang menyediakan implementasi, library, KDC, dan berbagai fasilitas yang mengintegrasikan PKI, OTP dan token untuk environment cloud, Hadoop dan mobile.
    Versi 1.1.0 ini merupakan rilis major, yang mencakup implementasi dukungan cross-realm dan modul GSAPI.
  4.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Nov 13 / 2017
  • Comments Off on Seputar Big Data Edisi #37
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

  1. How big data won the 2017 World Series
    Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
  2. The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
    Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
  3. 5 tactics to beat big data hiring challenges
    Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
  4. Big data analysis predicts risk of radiotherapy side effects
    Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
    Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
    UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
  2. How to use Apache Kafka to transform a batch pipeline into a real-time one
    Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
  3. Gentle Introduction to Statistical Language Modeling and Neural Language Models
    Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
    Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
  4. Want to know how Deep Learning works? Here’s a quick guide for everyone.
    AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
  5. Kylo: Automatic Data Profiling and Search-Based Data Discovery
  6. [DATASET] Web data: Amazon reviews
    Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

  1. Apache Kafka Goes 1.0
    Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
  2. Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
    Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
  3. KSQL JDBC Driver
  4. Apache Kylin 2.2.0 released
    Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
  5. Apache Jena 3.5.0 Released
    Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
    RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 02 / 2017
  • Comments Off on Seputar Big Data Edisi #36
Apache, Big Data, Blockchain, Hadoop, Implementation, Spark

Seputar Big Data Edisi #36

Beberapa artikel teknis menarik mengenai Keras – sebuah Python Deep Learning library, pemanfaatan Apache Flink untuk risk engine, perbandingan antara Apache Arrow, Parquet dan ORC, serta tutorial mengenai penggunaan Spark dan SparkSQL untuk memproses file csv. Dari segmen news ditampilkan penerapan big data analytics oleh PT Pos Indonesia, MIT yang membangun FeatureHub untuk crowdsourcing big data analytics, dan implikasi blockchain bagi industri asuransi. Tidak ketinggalan juga beberapa rilis open source, diantaranya yaitu Apache Spark 2.1.2. Hive, Pandas, dan OpenNLP.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 4 bulan Oktober 2017.

Artikel dan Berita

  1. The Amazing Ways Spotify Uses Big Data, AI And Machine Learning To Drive Business Success
    Spotify, layanan musik on-demand terbesar di dunia, dikenal sebagai pendobrak batas teknologi. Perusahaan musik digital dengan lebih dari 100 juta pengguna ini terus meningkatkan kemampuan layanan dan teknologinya melalui beberapa akuisisi serta pemanfaatan big data, kecerdasan buatan dan machine learning.
  2. Crowdsourcing big-data analysis
    Langkah pertama dalam proses analisis big data dalah identifikasi fitur, yaitu data poin yang memiliki nilai prediktif, yang berguna dalam proses analisis. Langkah ini biasanya memerlukan intuisi manusia. Peneliti MIT membangun sebuah sistem kolaborasi, yang diberi nama FeatureHub. Dengan alat ini diharapkan proses identifikasi fitur dapat dilakukan secara efisien dan efektif. Dengan FeatureHub, para data saintis dan domain expert dapat masuk ke dalam sebuah situs untuk mereview permasalahan dan mengajukan fitur yang akan digunakan. FeatureHub kemudian akan melakukan pengetesan berbagai kemungkinan kombinasi fitur tersebut terhadap target data, untuk menentukan kombinasi mana yang paling tepat untuk permasalahan tertentu.
  3. Keuangan Inklusif, PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  4. What PredictionIO does for machine learning and Spark
    Apache PredictionIO dibangun di atas Spark dan Hadoop, dan menyediakan template yang dapat dikustomisasi untuk task-task yang umum.
    Aplikasi mengirimkan data ke server event untuk melakukan training model, kemudian meng-query engine untuk mendapatkan prediksi berdasarkan model tersebut. Kemudahan apa yang ditawarkan oleh Apache PredictionIO?
  5. Blockchain Implications Every Insurance Company Needs To Consider Now
    Teknologi blockchain sangat berpotensi mengguncang industri asuransi dan mengubah cara berbagi data, memproses klaim dan mencegah fraud. Namun implementasinya di industri asuransi saat ini masih dalam tahap eksplorasi awal. Untuk dapat merealisasikan potensi blockchain yang sangat besar implikasinya tersebut, Industri asuransi perlu secara aktif bekerja sama dengan para pionir, regulator, dan pakar-pakar industri. Perusahaan-perusahaan asuransi pun harus mulai mencoba memanfaatkan blockchain dalam proses internal mereka untuk mendapatkan pembelajaran guna memanfaatkan teknologi ini.

Tutorial dan Pengetahuan Teknis

  1. 7 Steps to Mastering Deep Learning with Keras
    Apakah anda tertarik untuk mempelajari Keras? Apakah Anda sudah memiliki pemahaman tentang bagaimana neural network bekerja? Artikel berikut ini menyajikan tujuh langkah praktis untuk menguasai dasar-dasar Keras dengan mudah dan cepat.
  2. StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
    Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.
  3. Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
    Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.
  4. ETL Pipeline to Transform, Store and Explore Healthcare Dataset With Spark SQL, JSON and MapR-DB
    Tutorial ini menjelaskan cara menggunakan Spark untuk membaca data dari file CSV, mengubahnya menjadi skema yang terdefinisi dengan baik (dalam hal ini Scala Case Class), dan melakukan query menggunakan SparkSQL. Ada juga contoh kode untuk menyimpan data di MapR-DB dan membacanya kembali.

Rilis Produk

  1. Spark Release 2.1.2
    Spark 2.1.2 baru saja dirilis. Ada lebih dari 100 perbaikan bug dan berbagai penyempurnaan pada versi ini.
  2. Pandas v0.21.0
    Ini adalah major rilis dari 0,20,3 mencakup sejumlah perubahan, deprecation, fitur baru, penyempurnaan, dan peningkatan kinerja API serta sejumlah besar perbaikan bug. User sangat disarankan melakukan upgrade ke versi ini.
  3. Hive – Version 2.3.1
    Hive versi 2.3.1 dirilis minggu lalu dengan beberapa bug fixing dan penyempurnaan.
  4. Apache OpenNLP 1.8.3
    Rilis ini memperkenalkan beberapa fitur baru, perbaikan bug, dan penyempurnaan. Versi ini memerlukan Java 1.8 dan Maven 3.3.9.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 31 / 2017
  • Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri
Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.


Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 10 / 2017
  • Comments Off on Seputar Big Data Edisi #32
Apache, Big Data, Implementation, Medical Analytics

Seputar Big Data Edisi #32

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan September 2017

Artikel dan berita

  1. Using Big Data Medical Analytics To Address The Opioid Crisis
    Overdosis obat di tahun 2016, terutama yang berkaitan dengan opioid, menewaskan lebih dari 64 ribu orang di Amerika. Menurut CDC, jumlah tersebut merupakan kenaikan 21% dari tahun 2015. Krisis opioid merupakan problem yang dilematis, karena permasalahannya tidak hanya pada peredaran obat ilegal, namun juga peredaran resmi (obat yang diresepkan). Salah satu sarana yang dianggap dapat menjadi pendukung untuk mengatasi krisis ini adalah penggunaan big data medical analytics. Apa saja peluang dan tantangannya?
  2. Hadoop Was Hard to Find at Strata This Week
    Tidak hanya menghilang dari judul konferensi, dalam acara Strata Data (yang sebelumnya bernama Strata Hadoop), Hadoop pun terkesan menghilang dari peredaran. Banyak yang mengatakan bahwa hal ini terjadi karena “Spark membunuh Hadoop”. Apakah benar demikian? Bagaimana trend ke depannya?
  3. How to Select a Big Data Application
    Memilih software big data bisa menjadi sebuah proses yang rumit dan memerlukan pertimbangan yang matang, berdasar tujuan dan solusi yang tersedia. Artikel ini mencoba mengupas jenis-jenis solusi big data dan karakteristik apa yang perlu dipertimbangkan dalam memilihnya.

Tutorial dan Pengetahuan Teknis

  1. XGBoost, a Top Machine Learning Method on Kaggle, Explained
    XBoost atau eXtreme Gradient Boosting, adalah salah satu tools yang paling populer di kalangan kompetitor Kaggle dan data saintist, dan telah diujicoba dalam implementasi skala besar. XBoost bersifat fleksibel dan versatile, dan dapat digunakan untuk menangani hampir semua kasus regresi, klasifikasi dan ranking, serta fungsi buatan user. Sebagai sebuah software open source, XBost mudah diakses dan dapat digunakan di atas berbagai platform dan antarmuka. Artikel ini mencoba menjelaskan mengenai apa XBoost tersebut, dan apa saja kelebihannya.
  2. Comparison API for Apache Kafka
    Dalam artikel ini disajikan berbagai penerapan Kafka API, mulai dari consume data dari stream, menulis ke stream, sampai pendekatan yang lebih reaktif menggunakan Akka.
  3. PyTorch tutorial distilled – Migrating from TensorFlow to PyTorch
    Artikel yang mengupas dengan baik dan menarik mengenai PyTorch, dan tutorial mengenai bagaimana melakukan migrasi dari TensorFlow ke PyTorch.
  4. [FREE EBOOK] Deep Learning – By Ian Goodfellow, Yoshua Bengio and Aaron Courville
    “Deep Learning” adalah teksbook yang ditujukan untuk membantu mahasiswa dan praktisi untuk memasuki bidang machine learning, dan khususnya deep learning. Versi online dari buku ini sudah lengkap dan dapat diakses secara gratis.
  5. [DATASET] NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community
    Pusat klinis NIH menyediakan dataset berupa hasil x-ray dada, yang bisa diakses oleh publik. Dataset ini berisi lebih dari 100.000 x-ray image, dari sekitar 30.000 pasien, termasuk di antaranya dengan berbagai penyakit paru-paru yang berat.

Rilis Produk

  1. Apache NiFi 1.4.0 Released
    Versi 1.4.0 ini adalah rilis fitur dan stabilitas, menekankan pada bug fixes yang penting dan penambahan prosesor dan controller services baru. Beberapa fitur baru di antaranya adalah support untuk Apache Knox, autorisasi grup dengan Apache Ranger, dan LDAP-base user authentication.
  2. Apache Solr Reference Guide for 7.0 released
    Setelah Solr 7.0 dirilis beberapa waktu yang lalu, Reference Guide Solr 7.0 dirilis minggu lalu. Dokumen yang berupa 1.035 halaman file PDF berisi dokumentasi untuk fitur-fitur baru, dengan daftar lengkap perubahan konfigurasi dan deprecation yang penting untuk diperhatikan untuk melakukan upgrade dari Solr versi sebelumnya.
  3. Theano To Cease Development After Version 1.0
    Theano, library komputasi numerik untuk Python yang merupakan pelopor di dunia machine learning, akan segera merilis versi 1.0, namun bersamaan dengan itu diumumkan bahwa kegiatan pengembangan Theano akan berakhir setelahnya. Support minimal akan dilanjutkan selama 1 tahun, dan selanjutnya sebagai open source Theano akan tetap dapat diakses bebas, namun tanpa support dari MILA.
  4. Yahoo open-sources Vespa, its most important software release since Hadoop
    Oath, anak perusahaan yang dibentuk ketika Verizon Communication Inc. mengakuisisi Yahoo, membuka salah satu komponen software yang berperan penting dalam melakukan web search dan men-generate rekomendasi dan iklan. Software yang di-open source-kan tersebut bernama Vespa, digunakan untuk menangani permasalahan yang ‘tricky’ dalam hal menentukan apa yang harus ditampilkan sebagai respon dari input user. Oath menggunakan Vespa untuk lebih dari 150 aplikasinya, termasuk Flickr.com, Yahoo Mail dan beberapa aspek dari Yahoo search engine.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234
Tertarik dengan Big Data beserta ekosistemnya? Gabung