Artificial Intelligece Archives - Page 5 of 5

Dec 29 / 2017
Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]

Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
Big Data Is the New Push for Bank Indonesia
Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
PT Pos Bangun Big Data Analytic
Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
Saudi Arabia grants citizenship to a robot for the first time ever
Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
The 10 Coolest Big Data Startups Of 2017 (So Far)
Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
What Amazon taught us this week: Data-centric companies will devour competitors
Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
Guizhou to become China’s ‘Big Data Valley’
Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
Firing on All Cylinders: The 2017 Big Data Landscape
Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
Gartner’s 2017 Take on Data Science Software
Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.

Contributor :

Tim idbigdata
always connect to collaborate every innovation

Dec 26 / 2017
Comments Off on Seputar Big Data Edisi #43

Apache, Artificial Intelligece, Big Data, Hadoop

Seputar Big Data Edisi #43

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan Desember 2017

Artikel dan Berita

Retail: How to Keep it Personal & Take Care of Privacy
Pemanfaatan informasi pelanggan untuk meningkatkan penjualan adalah hal yang sudah biasa dalam sektor retail. Yang perlu dicermati adalah, dengan semakin canggihnya teknologi pengumpulan, penyimpanan dan pengolahan informasi, bagaimana para pengusaha di sektor ini dapat meningkatkan personalisasi layanan mereka, dengan tetap menjaga privasi para pelanggannya.
How AI can make us better at arguing
Kemampuan untuk berdebat dan menyampaikan pemikiran adalah salah satu ciri khas manusia. Perdebatan merupakan bagian yang penting dalam berbagai aspek kehidupan, termasuk penentuan kebijakan dalam berbagai bidang. Salah satu yang perlu diwaspadai dalam era teknologi informasi saat ini adalah terbentuknya ‘filter bubbles’ di mana informasi yang kita dapatkan sudah dipersonalisasi atau disesuaikan dengan profil kita oleh penyedia informasi, termasuk Google, Facebook, bahkan media-media online seperti Fox News dan BBC. ARG-Tech, sebuah pusat penelitian di Universitas Dundee bekerja sama dengan BBC Radio melakukan percobaan dengan mendeploy dua jenis ‘teknologi debat’ dengan memanfaatkan data dan AI.
Perkuat Sistem Big Data, Pemerintah Bakal Bangun Government Cloud
Belanja kebutuhan IT pemerintah, khususnya untuk pengadaan data center semakin meningkat. Namun sejauh ini implementasi dan pemanfaatannya masih belum menyeluruh. Oleh karena itu pemerintah berencana membangun Government Cloud untuk mendorong adopsi teknologi.
Industry Predictions: Main AI, Big Data, Data Science Developments in 2017 and Trends for 2018
Tahun 2017 hampir berakhir, waktunya merangkum yang telah terjadi selama 2017 dan melakukan prediksi untuk tahun 2018. Berikut adalah kumpulan analisis dan prediksi menarik dari perusahaan terkemuka di bidang AI, Big Data, Data Science, dan Machine Learning: apa yang terjadi pada tahun 2017 dan apa yang mungkin terjadi di tahun 2018.
Understanding the Network Monitoring Needs of Real-Time Data Streaming
Real time data streaming saat ini semakin menjadi suatu kebutuhan, terutama untuk pemantauan jaringan. Artikel ini memberikan argumen mengenai kebutuhan tersebut, beserta contoh-contoh kasus nyata.
The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers
Data scientists, data engineers, software engineers, and statisticians adalah beberapa profesi yang populer saat ini. Namun kita terkadang sulit membedakan perbedaan diantara mereka. Artikel ini mencoba mengupas kesamaan dan perbedaan di antara profesi-profesi tersebut.

Tutorial dan Pengetahuan Teknis

Getting Started with TensorFlow: A Machine Learning Tutorial
Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.
How to Perform Hierarchical Clustering using R
Salah satu metode clustering yang cukup banyak digunakan saat ini adalah hierarchical clustering. Dalam teknik ini pengelompokan dilakukan secara berjenjang atau hirarkis. Artikel ini membahas secara detail mengenai konsep tersebut serta penerapannya dalam R.
Introducing Heron Streamlets
Heron kini memiliki Sebuah streamlet API yang yang mensupport model pemrograman tingkat tinggi, yang melengkapi low level API yang sudah dimiliki sebelumnya, yaitu Topology API. Streamletss API ini akan cukup familiar untuk anda yang terbiasa menggunakan sekuens Skala atau Java Stream. Artikel ini memberikan overview mengenai Streamlets lengkap dengan contoh code-nya.
The Plight of the Data Consumer
Apache Arrow merupakan salah satu project Apache yang populer namun tidak banyak diketahui secara detail, karena digunakan sebagai library internal. Artikel ini menjelaskan mengenai bagaimana Pandas dan library lainnya menggunakan Arrow untuk meningkatkan translasi data dan storage footprint.
Using Hue to interact with Apache Kylin in your cluster or on AWS
Apache Kylin adalan sistem database OLAP untuk big data, yang mensupport JDBC drivers dan dapat digunakan untuk menjalankan query dari Hue. Artikel ini menjelaskan mengenai langkah-langkah dasar penggunaan Hue dan Apache Kylin di atas AWS cluster.
The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.
[DATASET] MIT-Adobe FiveK Dataset
Dataset ini berisi 6 x 5000 image, yang terdiri dari 5000 foto yang diambil dengan kamera SLR oleh beberapa fotografer. Disimpan dalam format RAW, yang berarti lengkap dengan semua informasi yang direkam oleh sensor kamera. Selanjutnya 5 orang mahasiswa seni melakukan retouch menggunakan Adobe Lightroom untuk menghasilkan foto yang lebih artistik, seperti yang biasa dipakai dalam kartu pos.

Rilis Produk

The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
Apache HBase 1.1.13 is now available for download
Apache HBase 1.1.13 merupakan rilis terakhir dari stream 1.1, mencakup beberapa perbaikan bug dan peningkatan.
Apache Flink 1.4.0 Release Announcement
Apache Flink 1.4.0 mencakup perbaikan fitur exactly-once, dan beberapa peningkatan internal lain.
Introducing spark-bam
Spark-bam adalah sebuah library untuk membaca file berformat BAM, yaitu salah satu format standar untuk data genomic.
Apache Knox 0.14.0 Release
Apache Knox 0.14.0 diharapkan menjadi versi terakhir sebelum versi 1.0. Rilis kali ini mencakup dukungan proxy Nifi dan Livy, konfigurasi jarak jauh melalui ZooKeeper, peningkatan dukungan untuk Websocket, dan lain-lain.
Upgrade Hadoop version & new file reader
Kafka-connect-fs adalah library yang mendukung loading data dari file melalui Kafka Connect.

Contributor :

Tim idbigdata
always connect to collaborate every innovation

Dec 20 / 2017
Comments Off on [Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Artificial Intelligece, Big Data, Implementation, machine learning, Uncategorized

[Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Cara paling cepat untuk menguasai sebuah tool atau platform adalah dengan membuat sebuah end-to-end project yang mencakup langkah-langkah utama dalam implementasi machine learning. Langkah tersebut antara lain adalah : loading data, summary data, evaluasi algoritma dan membuat beberapa prediksi.

Membuat end-to-end project berarti membiasakan diri dengan proses machine learning, dan kasus yang telah dikerjakan dapat menjadi semacam template yang bisa digunakan untuk mengolah berbagai dataset lainnya.

Untuk memulainya tidak perlu menggunakan dataset atau kasus yang terlalu rumit. Anda bisa memilih data yang tersedia di dalam library scikit-learn. Daftar lengkap datasetnya dapat dilihat di sini.

Dalam artikel ini akan digunakan dataset iris sebagai contoh kasusnya.

Dataset iris ini sangat sesuai untuk latihan karena :

Ukurannya tidak terlalu besar, yaitu 4 atribut dan 150 row, sehingga tidak akan membebani memori
Atributnya sederhana. Seluruh atribut numerik dalam unit dan skala yang sama, sehingga tidak memerlukan transformasi khusus

Meskipun teknik dan prosedur dalam penerapan machine learning sangat bervariasi, namun secara garis besar sebuah project machine learning memiliki tahapan sebagai berikut:

Definisi masalah
Menyiapkan data
Memilih/mengevaluasi algoritma
Melakukan tuning untuk memperbaiki hasil
enyajikan hasil

Salah satu hal yang paling penting dalam langkah-langkah awal project adalah memahami data. Dalam artikel ini akan disajikan mengenai loading dan beberapa fungsi eksplorasi data untuk melihat bagaimana dataset yang akan kita proses nantinya.

1. Cek Instalasi

Jalankan perintah-perintah berikut untuk mengecek versi package yang terinstall.
Versi yang package yang akan gunakan mestinya lebih baru atau setidaknya sama dengan yang terdapat pada output di bawah ini. Jika versi package anda sedikit tertinggal, mestinya tidak masalah, karena biasanya API-nya tidak terlalu banyak berubah. Anda masih dapat menjalankan code yang ada dalam latihan di bawah ini. Tapi jika ingin memperbaharui package yang ada, langkah update package dapat dilihat di posting sebelumnya.

Output yang didapatkan kurang lebih sbb (versi bisa berbeda):

Berikutnya adalah loading package yang akan digunakan. Lakukan import untuk mengecek apakah instalasi sudah ok. Jika terdapat error, stop dan resolve. Package di bawah ini perlu untuk menjalankan latihan dalam artikel ini.

Petunjuk setting environment bisa dilihat di posting sebelumnya. Jika terdapat pesan error yang spesifik, anda bisa mencari cara resolve-nya di forum-forum seperti Stack Exchange (http://stackoverflow.com/questions/tagged/python).

2. Loading Data

Jika langkah di atas berjalan dengan baik, load dataset iris dari package sklearn dengan menjalankan fungsi berikut:

Tips : Untuk mengetahui jenis sebuah object atau fungsi dalam python, kita bisa mengetikkan nama object atau fungsi yang ingin kita ketahui, diikuti tanda tanya, seperti pada contoh berikut :

Outputnya adalah informasi dari object tersebut, seperti berikut:

Untuk mengetahui apa saja yang terdapat di dalam dataset iris, tampilkan seluruh keys dalam dataset tersebut dengan perintah berikut ini:

Outputnya berupa daftar dari keys atau kata kunci yang terdapat dalam dictionary:

Dari outputnya kita dapat mengetahui bahwa dalam dataset iris terdapat key berikut : data, target, target_name, DESCR dan feature_names. Kita dapat mengakses dan menampilkan value-nya dengan key tersebut. Misalnya untuk menampilkan deskripsi dataset, lakukan sbb:

Output:

Seperti tampak pada deskripsi di atas, dataset iris memiliki 4 atribut numerik : sepal length, sepal width, petal length, dan petal width.

Terdapat 3 jenis spesies (class), yaitu

Iris-Setosa
Iris-Versicolour
Iris-Virginica

Terdapat 150 entry (150 rows data), yang terbagi rata ke dalam 3 kelas tersebut.

Atribut disimpan di elemen “data”, dan kelas/species di elemen “target”. Keduanya bertipe numerik.

Kita lihat bentuk datanya, dengan ‘mengintip’ beberapa baris data dan target, dengan command berikut:

Dari output di bawah terlihat bahwa format data adalah numerik, dan nilai target menunjukkan indeks dari array target_names.

3. Convert dataset ke dalam Pandas DataFrame

Untuk memudahkan pemrosesan dan eksplorasi data, kita akan mengubah dataset tersebut ke dalam format pandas DataFrame.

Pandas adalah package yang dibangun di atas library numPy. Pandas menyediakan data struktur yang efisien dan fleksibel, yang dirancang untuk melakukan analisis data dalam Python.
Keterangan lebih lanjut mengenai pandas dan berbagai object di dalamnya dapat dilihat di sini (https://pandas.pydata.org/pandas-docs/stable/)

Berikut ini command untuk mengubah dataset iris menjadi Pandas Dataframe:

4. Eksplorasi Dataset

Beberapa hal yang akan kita lakukan adalah :

Melihat dimensi dataset
Contoh datanya
Ringkasan statistik semua atribut
Mengelompokkan data berdasar variabel target

Yang pertama kita lihat dimensi datanya (jumlah row dan kolom) dengan menggunakan atribut shape

Output:

Selanjutnya kita ‘intip’ contoh data dengan menggunakan fungsi head. Dari sini terlihat dataset kita memiliki 4 atribut numerik dan 1 atribut string.

Output:

Statistical Summary

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean, nilai minimum dan maksimum, serta nilai2 persentilnya.

Dari summary tersebut terlihat bahwa seluruh nilai numerik memiliki skala yang sama (yaitu dalam cm), dan memiliki range yang serupa juga, yaitu antara 0 sampai 8 cm.

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya berdasarkan kelas sbb:

Output:

Terlihat bahwa data terbagi menjadi 3 kelas dengan jumlah yang sama, yaitu masing-masing 50 row.

Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya. Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam bentuk boxplot.

Kita juga bisa melihat sebaran datanya dengan bentuk histogram.

Dari histogram di atas tampak bahwa setidaknya ada 2 variabel yang kemungkinan memiliki sebaran normal. Asumsi ini dapat kita jadikan pertimbangan ketika memilih algoritma nantinya.

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal.

Setelah kita mendapat gambaran mengenai dataset yang akan kita proses, kita siap melakukan testing dan tuning algoritma.

Versi Jupyter notebook dari latihan ini dapat di unduh di :
https://github.com/urfie/belajar-python/blob/master/Belajar%20Machine%20Learning%20-%20Load%20and%20Explore%20Dataset.ipynb

Sumber : https://machinelearningmastery.com/machine-learning-in-python-step-by-step/

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Dec 15 / 2017
Comments Off on Seputar Big Data Edisi #42

Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, Uncategorized

Seputar Big Data Edisi #42

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 2 bulan Desember 2017.

Artikel dan Berita

How To Think About Artificial Intelligence In The Music Industry
Ulasan mengenai penerapan AI di dalam industri musik. Jenis data apa saja yang penting, serta apa tantangan dan peluangnya, dengan berbagai contoh menarik dari Youtube, Spotify, dan lain sebagainya.
Machine learning at Spotify: You are what you stream
Wawancara dengan head of data solution Spotify. Beberapa hal yang dibahas adalah bagaimana membentuk, memanage dan mengembangkan sebuah data team, dan bagaimana Spotify membangun sistem rekomendasi mereka.
Australian genome researchers solving big data problems
Genomics merupakan sebuah bidang yang menghasilkan data luar biasa besarnya. Untuk mengatasi permasalahan tersebut para peneliti di bidang ini membangun sebuah tool berbasis cloud.
Using Big Data to transform business processes
Menurut survey IDC, investasi di bidang big data dan teknologi analytics akan mencapai 187 miliar US$ pada 2019, meningkat 50% dari tahun 2015. Dengan jumlah yang fantastis tersebut, bagaimana big data dapat bermanfaat dalam proses bisnis?
Six ways (and counting) that big data systems are harming society
Sebuah teknologi yang disruptive seperti big data tentu tidak hanya membawa manfaat bagi manusia, namun juga membawa dampak negatif. Data Justice Lab, sebuah pusat penelitian Jurnalistik, Media dan Budaya Universitas Cardiff, mencatat berbagai kasus kerugian akibat penggunaan big data, seperti misalnya penyalahgunaan informasi pribadi, diskriminasi, dan lain sebagainya.
New big data trend tracks ‘digital footprints’
‘Process mining’ adalah salah satu teknik yang mulai banyak digunakan oleh perusahaan, termasuk diantaranya GM, Airbus, KPMG dan UBS untuk mengotomasi berbagai proses dan beradaptasi dengan digitalisasi industri. Teknik ini dimungkinkan dengan adanya pencatatan dan pengumpulan data-data digital yang didukung oleh teknologi big data.
10 Great Reads for Small Biz Owners Afraid to Conquer Big Data
Banyak perusahaan kecil dan menengah yang menganggap bahwa big data hanya sesuai untuk perusahaan besar saja, sehingga mereka enggan untuk memanfaatkannya. Berikut ini 10 buku yang dapat memotivasi para pengusaha kecil dan menengah untuk mempelajari dan menerapkan big data bagi keunggulan kompetitif mereka.

Tutorial dan Pengetahuan Teknis

Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction
Pengenalan singkat dan mudah tentang bagaimana menggunakan Scikit-learn Pipelines untuk membuat dan mengatur alur kerja machine learning. Merupakan bagian 1 dari sebuah artikel serial.
Problems With Kafka Streams
Kafka Stream adalah platform pemrosesan stream yang mudah dan handal. Aplikasi yang menggunakan Kafka Streams pun dapat dijalankan di hampir semua environment. Namun demikian, seperti halnya segala hal di muka bumi ini, library Kafka tidaklah sempurna. Apa saja permasalahan yang biasa dihadapi dalam penggunaan library Kafka?
Difference Between Classification and Regression in Machine Learning
Penjelasan yang sangat baik dan mudah difahami mengenai perbedaan antara klasifikasi dan regresi dalam machine learning.
Connecting R to Keras and TensorFlow
Tutorial mengenai bagaimana menghubungkan R ke Keras dan TensorFlow, lengkap dengan contoh dan dokumentasi.
Big Data and Container Orchestration with Kubernetes (K8s)
Artikel ini menjelaskan beberapa tantangan dalam mengadopsi Kubernetes (k8) untuk Hadoop stack. k8s pada dasarnya ditujukan untuk aplikasi stateless, sehingga cocok untuk HDFS dan aplikasi penyimpan data lain. Dijelaskan pula mengenai sebuah prototipe yang dibuat BlueData untuk mendeploy Hadoop dengan k8 melalui EPIC.
Processing HL7 Records
Tutorial mengenai proses ingestion dan transformasi data dari format HL7 (standar internasional untuk data kesehatan) ke dalam Apache Hive untuk dimanfaatkan dalam machine learning dan analisis pada data lake Hadoop.
[FREE EBOOK] Think Stats – Probability and Statistics for Programmers
Pengantar probabilitas dan statistik untuk programmer Python. Menekankan pada teknik-teknik sederhana yang dapat Anda gunakan untuk mengeksplorasi dataset dan menjawab berbagai pertanyaan menarik. Buku ini menyajikan studi kasus menggunakan data dari National Institutes of Health. Pembaca didorong untuk mengerjakan sebuah proyek dengan dataset yang sebenarnya.
[DATASET] Default of Credit Card Clients Data Set
Saat ini prediksi default kartu kredit dengan machine learning sudah mulai banyak dilakukan. Dataset berikut ini mencakup data demografi, riwayat pembayaran, kredit, dan data default.

Rilis Produk

Druid 0.11.0
Druid 0.11.0 mencakup beberapa fitur baru yang major, termasuk support TLS, ekstensi cache Redis, dan berbagai peningkatan untuk Druid SQL dan kinerja GroupBY.
Apache MiNiFi C++ 0.3.0
Apache MiNiFi C++ versi 0.3.0 dirilis, namun belum dianggap siap untuk production. Versi ini memiliki beberapa fitur termasuk dukungan untuk menulis langsung ke Kafka.
DeepVariant: Highly Accurate Genomes With Deep Neural Networks
Google merilis DeepVariant ke komunitas open source. DeepVariant adalah variant caller berbasis deep learning yang memanfaatkan framework Inception dari TensorFlow, yang pada mulanya digunakan untuk melakukan klasifikasi image.

Contributor :

Tim idbigdata
always connect to collaborate every innovation

Nov 23 / 2017
Comments Off on Seputar Big Data Edisi #39

Artificial Intelligece, Big Data, Blockchain, Hadoop

Seputar Big Data Edisi #39

Beberapa tema yang tersaji minggu ini, Rilis Hadoop 2.9.0, bagaimana AI mempercepat pengembangan obat, potensi blockchain dan big data, hingga [FREE BOOK] memahami dasar-dasar algoritma machine learning yang dapat difahami oleh siswa ataupun pembaca non-expert.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan November 2017

Artikel dan Berita

Big data and machine learning algorithms could increase risk of collusion: ACCC
Anggapan yang umum selama ini adalah, penggunaan data dan teknologi informasi dapat meningkatkan transparansi dan fairness, namun ternyata hal sebaliknya dapat juga terjadi. Komisi pengawasan persaingan usaha dan perlindungan konsumen Australia (ACCC) memberikan ikhtisar mengenai kemungkinan terjadinya kasus di mana algoritma machine learning dapat digunakan sebagai alat untuk melakukan pelanggaran hukum dalam persaingan usaha.
The Big Idea Behind Big Data
Salah satu teori yang sangat powerful dan banyak digunakan, terutama dalam big data, adalah network theory. Mulai dari bagaimana ‘memotong’ penyebaran penyakit menular, memahami dan memprediksi perekonomian, mendeteksi jaringan teroris, sampai dengan meningkatkan penjualan. Artikel ini mengupas dengan menarik mengenai teori ini.
Belong partners with American Cancer Society to help beat cancer with AI
Hari ini, Belong: Beating Cancer Together – aplikasi chat yang menghubungkan antara pasien dengan dokter dan profesional – telah mengumumkan kemitraan dengan American Cancer Society. Belong bukan hanya aplikasi chat dan komunikasi, tetapi juga mengkombinasikan AI, Machine Learning dan Big Data, yang membantu pasien untuk memperoleh informasi, edukasi dan bantuan pribadi.
How AI Is Helping Speed Drug Development
Pengembangan obat adalah proses yang rumit dan memakan waktu yang lama. Untuk sebuah obat sampai dapat dikonsumsi pasien rata-rata memerlukan waktu 12 tahun. Bagaimana AI dapat membantu mempercepatnya?
Blockchain and Big Data: When Two Super Technologies Meet, What Happens?
Blockchain menjadi fenomena baru yang berkembang dengan pesat. Apa itu blockchain, apa hubungannya dengan big data, bagaimana pemanfaatannya dan bagaimana peluangnya di masa depan?
China: Police ‘Big Data’ Systems Violate Privacy, Target Dissent
Big Data adalah alat yang dapat digunakan untuk kebaikan, namun juga dapat digunakan untuk mengekang hak asasi manusi. HRW menyerukan Pemerintah China untuk menghentikan pemantauan dan pengumpulan data terhadap masyarakatnya, sebelum mereka memiliki hukum yang jelas mengenai perlindungan privasi. Saat ini pemerintah China mengawasi dan mencatat berbagai detail informasi dari ratusan juta rakyat biasa, dan menggunakan data tersebut untuk mengidentifikasi mereka yang memiliki pemikiran yang tidak sejalan dengan pemerintah. Selanjutnya pemerintah melakukan pengintaian terhadap orang-orang tersebut.

Tutorial dan pengetahuan teknis

Cassandra to Kafka Data Pipeline (Part 2)
Tutorial berikut merupakan bagian kedua dari pemanfaatan Cassandra dan Kafka. Pada bagian ini akan dijelaskan mengenai Change Data Capture pada Cassandra.
How to Build a Geographic Dashboard with Real-Time Data
Dalam posting ini, diperlihatkan bagaimana membangun dashboard geografis interaktif menggunakan Displayr, Plotly dan R. Hal ini sangat menarik karena menggunakan studi kasus untuk melacak posisi real-time pesawat militer.
How to Prepare a Photo Caption Dataset for Training a Deep Learning Model
Dalam tutorial ini akan diperlihatkan bagaimana mempersiapkan foto dan deskripsi tekstual yang siap dalam mengembangkan model deep learning untuk membuat foto caption otomatis.
[DATASET] YouTube-8M Dataset
Open dataset kali ini adalah YouTube-8M, yaitu kumpulan video yang sudah ditandai, terdiri dari jutaan ID video YouTube dan label terkait dari beragam kosa kata dari 4700+ entitas visual. Google menyatakan bahwa data ini dirancang untuk dapat digunakan untuk melakukan training model dasar dalam waktu satu hari dengan satu mesin, maupun untuk melakukan berbagai eksplorasi mendalam dengan model yang lebih kompleks, yang dapat memakan waktu berhari-hari bahkan berminggu-minggu.
[FREE EBOOK] Understanding Machine Learning: From Theory to Algorithms
Machine learning adalah salah satu bidang ilmu yang paling cepat berkembang, dengan aplikasi yang luas. Buku ini memberikan penjelasan teoritis tentang gagasan yang mendasari machine learning dan derivasi matematis yang mengubahnya menjadi algoritma praktis. Buku ini menyajikan dasar-dasar dan algoritma machine learning dengan cara yang dapat difahami oleh siswa maupun pembaca non-expert dalam bidang statistik, ilmu komputer, matematika, dan teknik.

Rilis produk

Apache Hadoop 2.9.0 released
Apache Hadoop 2.9.0 dirilis baru-baru ini. Ini merupakan rilis pertama dari Hadoop 2.9.x, dan mencakup fitur-fitur baru yang bersifat major seperti misalnya Timeline Service, YARN Federation, YARN Web UI, HDFS, dan CapacityScheduler API
Apache Kafka 0.11.0.2 Released
Apache Kafka versi 0.11.0.2 telah dirilis. Di dalamnya meliputi beberapa perbaikan penting termasuk satu bug fixing yang berkaitan dengan data loss.
Apache ZooKeeper 3.4.11
Rilis 3.4.11 Apache Zookeper mencakup beberapa bug fixes dan perbaikan.
Apache Phoenix 4.13 released
Apache Phoenix memungkinkan OLTP berbasis SQL dan analytics operasional untuk Apache Hadoop menggunakan Apache HBase sebagai penyimpanan, dan menyediakan integrasi dengan ekosistem Apache lain seperti Spark, Hive, Pig, Flume, dan MapReduce.
Phoenix versi 4.x kompatibel dengan HBase 0,98 dan 1,3. Rilis 4.13.0 ini mencakup perbaikan pencatatan statistik, perbaikan bug kritikal untuk pembuatan snapshot, dan perbaikan bug lainnya.
Apache Hive 2.3.2 Released
Apache Hive 2.3.2 dirilis minggu ini. Rilis ini mencakup bug fix di beberapa sub komponen, termasuk klien metastore Hive dan Kerberos.

Contributor :

Tim idbigdata
always connect to collaborate every innovation

Nov 21 / 2017
Comments Off on [Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Artificial Intelligece, Big Data, machine learning, Uncategorized

[Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Dalam beberapa seri artikel ke depan akan disajikan panduan praktis untuk memulai machine learning (dan deep learning) menggunakan Python.

Banyak di antara kita yang ingin belajar namun bingung dari mana harus memulainya. Mempelajari Machine learning, seperti dibahas pada artikel sebelumnya, paling cepat dilakukan dengan cara mengerjakan sebuah project. Rangkaian artikel ini akan memberikan beberapa arahan atau ide untuk anda.

Mengapa menggunakan python? Saat ini Python termasuk bahasa pemrograman yang paling banyak digunakan dalam data science dan machine learning.

Pada seri pertama ini akan dibahas mengenai bagaimana mempersiapkan environment Python untuk membuat program machine learning, dengan menggunakan Anaconda. Langkahnya adalah sbb:

Download Anaconda
Install Anaconda
Start dan Update Anaconda
Menggunakan dan me-manage conda environment untuk versi python yang berbeda-beda

Download Anaconda

Bagian ini mengenai bagaimana mendownload package Anaconda Python untuk platform anda.

Kunjungi download page Anaconda
Pilih installer yang sesuai dengan platform anda (Windows, OSX, atau Linux)
Pilih Python 3.x (dalam hal ini 3.6), proses download installer akan langsung berjalan
Catatan : Saat ini terdapat dua major version Python yang masih bayak digunakan, yaitu 2.x dan 3.x, namun mengingat trend dewasa ini lebih mayoritas implementasi dan pengembangan dilakukan dengan dan untuk python 3.x, dan support untuk versi 2.x sudah akan berakhir pada 2020, maka disarankan menggunakan versi ini. Python 2.x hanya digunakan untuk kebutuhan khusus yang tidak/belum disupport python 3.x.
Untuk windows 64 bit, installer python 3.6 berukuran kurang lebih 515 MB dengan nama file Anaconda3-5.0.1-Windows-x86_64.exe

Install Anaconda

Untuk menginstall Anaconda, double-click file installer yang sudah diunduh pada langkah 1 di atas. Sebelumnya, pastikan anda memiliki priviledge yang cukup untuk menginstall software baru di sistem anda.

Setelah doubleclick, akan muncul aplikasi installer, ikuti langkah-langkah yang muncul. Waktu instalasi biasanya di bawah 10 menit dan memerlukan disk space antara 1 atau 2 GB.

Anaconda Navigator dan environment grafis Anaconda akan sangat berguna nanti, namun untuk saat ini kita akan memulai dengan environment command line Anaconda yang disebut conda.

Anaconda Navigator

Conda cukup cepat dan simple, serta menampilkan hampir semua eror message, sehingga akan lebih mudah untuk mengetahui apakah environment yang anda install sudah dapat bekerja dengan baik dan benar.

Cek instalasi dan versi python

Untuk mengecek apakah conda terinstall dengan baik, lakukan langkah ini:

Buka terminal (command line window)
Cek instalasi dengan mengetikkan : conda -V
Cek versi Python dengan : python -V

Outputnya kurang lebih sebagaimana berikut:

Untuk memastikan environment conda sudah up-to-date, lakukan update dengan cara:

conda update conda

conda update anaconda

Cek environment SciPy

Langkah berikutnya adalah memeriksa versi library-library yang umumnya digunakan untuk pemrograman machine learning, yaitu: scipy, numpy, matplotlib, pandas, statsmodels, dan scikit-learn.

Untuk melakukannya, masuk ke python prompt, dan jalankan perintah-perintah berikut ini:

# scipy
import scipy
print(‘scipy: %s’ % scipy.__version__)
# numpy
import numpy
print(‘numpy: %s’ % numpy.__version__)
# matplotlib
import matplotlib
print(‘matplotlib: %s’ % matplotlib.__version__)
# pandas
import pandas
print(‘pandas: %s’ % pandas.__version__)
# statsmodels
import statsmodels
print(‘statsmodels: %s’ % statsmodels.__version__)
# scikit-learn
import sklearn
print(‘sklearn: %s’ % sklearn.__version__)

Outputnya kurang lebih sbb (di bawah ini adalah versi yang terakhir pada saat artikel ini dibuat) :

Untuk memutakhirkan versi library yang digunakan, bisa dilakukan secara individual dari command prompt, misalnya untuk scikit-learn, lakukan:

conda update scikit-learn

Sekarang anda sudah siap untuk mulai membuat project machine learning dalam Python.

Menggunakan Environment Anaconda

Dalam Anaconda, anda dapat menggunakan beberapa versi python dan library pendukung yang berbeda-beda dalam Anaconda. Caranya adalah dengan menggunakan conda environment.

Untuk melihat environment yang ada, gunakan:

conda env list

Untuk membuat environment baru, misalnya dengan nama myenv, lakukan langkah berikut:

conda create –name myenv

Anda bisa membuat environment dengan memilih versi python yang diperlukan, misalnya python 2.7 untuk environment dengan nama myenv27, dengan cara

conda create -n myenv27 python=2.7

Versi lengkapnya dapat dilihat di anaconda user guide bagian Managing Environment.

Sumber :
https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/

Contributor :

Nov 13 / 2017
Comments Off on Seputar Big Data Edisi #37

Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

How big data won the 2017 World Series
Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
5 tactics to beat big data hiring challenges
Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
Big data analysis predicts risk of radiotherapy side effects
Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
How to use Apache Kafka to transform a batch pipeline into a real-time one
Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
Gentle Introduction to Statistical Language Modeling and Neural Language Models
Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
Want to know how Deep Learning works? Here’s a quick guide for everyone.
AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
Kylo: Automatic Data Profiling and Search-Based Data Discovery
[DATASET] Web data: Amazon reviews
Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

Apache Kafka Goes 1.0
Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
KSQL JDBC Driver
Apache Kylin 2.2.0 released
Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
Apache Jena 3.5.0 Released
Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

Contributor :

Tim idbigdata
always connect to collaborate every innovation

Oct 31 / 2017
Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri

Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.

Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :

Vinka
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

Oct 06 / 2017
Comments Off on 8 Tips Praktis Mempelajari dan Mendalami Machine Learning

Artificial Intelligece, Big Data, Implementation, machine learning

8 Tips Praktis Mempelajari dan Mendalami Machine Learning

AI, khususnya Machine learning adalah salah satu bidang yang paling ‘sexy’ akhir-akhir ini. Raksasa teknologi seperti Google dan Baidu menginvestasikan antara 20 sampai 30 milyar US$ untuk riset, deployment dan akuisisi di bidang AI pada tahun 2016. Dan di tahun mendatang masih akan semakin banyak bidang yang memanfaatkan AI, dan semakin luas pula kesempatan kerja di bidang ini.

Saat ini sebenarnya adalah waktu yang sangat tepat untuk terjun ke dunia machine learning, karena seiring dengan pesatnya perkembangan bidang ini, banyak sekali tools dan platform yang sifatnya open-source yang dapat digunakan oleh siapapun. Di samping itu banyak pula informasi yang berupa tutorial, kuliah online, maupun berbagai tips yang bisa diakses secara gratis di internet.

Namun berlimpahnya sumber ilmu maupun alat kadang justru membuat kita merasa kewalahan dan bahkan bingung, dari mana harus memulai.

Jadi bagaimana cara memulai belajar machine learning?

Berikut ini beberapa tips yang diberikan oleh Ben Hamner, CTO dan Co-Founder Kaggle.

Pilih permasalahan yang diminati
Cara yang cepat untuk menguasai sebuah teknik, tools ataupun bahasa pemrograman adalah dengan menggunakannya untuk memecahkan permasalahan. Pilih problem yang menarik dan familiar, agar membuat kita lebih fokus dan termotivasi untuk menyelesaikannya.Mengerjakan suatu permasalahan secara langsung juga membuat kita lebih mudah memahami dan menyelami machine learning dibandingkan jika kita hanya membacanya secara pasif.
Buat solusi singkat dan cepat, tidak perlu sempurna
Solusi yang dibuat di sini tidak perlu sempurna, karena tujuan langkah ini adalah untuk menghasilkan proses dasar dan end-to-end secara cepat, mulai dari membaca dan mengunggah data, kemudian memprosesnya menjadi format yang sesuai untuk machine learning, menentukan model dan melakukan training, serta menguji model dan mengevaluasi kinerjanya.Intinya adalah memberikan pengalaman hands-on sehingga kita mendapat gambaran dasar tentang proses implementasi machine learning.
Kembangkan dan perbaiki solusi tersebut
Setelah mendapatkan gambaran dasar, mulailah menggali kreatifitas.Perbaiki tiap komponen dari solusi awal, dan lihat pengaruh dari tiap perubahan terhadap solusi yang dihasilkan, untuk menentukan bagian mana yang akan kita utamakan.
Sering kali kita bisa mendapatkan hasil yang lebih baik dengan memperbaiki preprocessing dan data cleansing, dibandingkan dengan memperbaiki model machine learningnya sendiri.
Tulis dan share solusi yang sudah dibuat
Feedback adalah sebuah hal yang penting dalam proses belajar, dan cara terbaik untuk mendapatkan masukan adalah dengan menuliskan dan men-share-nya. Menuliskan proses dan solusi yang dibuat berarti mendalami kembali dengan perspektif lain, dan membuat kita lebih memahaminya. Dengan membagikan tulisan, kita memberi kesempatan bagi orang lain untuk memahami apa yang sudah kita kerjakan dan memberi feedback yang berguna bagi proses belajar kita.Keuntungan lain dengan rajin menulis adalah kita membangun portfolio machine learning dan menunjukkan keahlian kita, yang dapat sangat bermanfaat bagi karir di masa datang.
Ulangi langkah 1-4 untuk problem yang lain
Ulangi proses di atas dengan permasalahan dari bidang dan jenis data yang lain. Jika sebelumnya menggunakan data tabular, cobalah mengerjakan problem dengan teks yang tidak terstruktur, dan problem lain dengan image. Apakah permasalahan yang dikerjakan sebelumnya memang dirancang untuk machine learning? Cobalah mengerjakan problem dari permasalahan bisnis atau riset yang umum.Kesulitan mencari sumber data? Banyak data set yang open di internet. Salah satunya adalah Kaggle Dataset. Untuk problem yang telah terdefinisi dengan baik, bisa ditemukan di Kaggle Competition. Atau 33 sumber data yang disebutkan dalam artikel ini.
Mengikuti komunitas/forum atau kompetisi secara serius
Untuk lebih menggali pengalaman dan pengetahuan, carilah komunitas atau forum, atau ikuti kompetisi seperti Kaggle competition. Dalam kompetisi yang dibuat Kaggle, kita juga dapat membentuk team dengan orang lain. Dalam forum dan komunitas kita bisa melihat bagaimana orang menyelesaikan permasalahan dengan cara yang berbeda-beda, dan mendapatkan masukan untuk pekerjaan kita sendiri.
Terapkan machine learning dalam pekerjaan
Menerapkan machine learning dalam pekerjaan membuat kita lebih fokus dan all-out dalam menekuninya, dan membantu kita untuk lebih menguasainya.
Tentukan role apa yang ingin diambil, dan bangunlah portfolio project yang berkaitan dengannya.
Tidak perlu sampai mencari pekerjaan baru (ahem), namun bisa dilakukan dengan mencari project baru di posisi yang sama, mengikuti berbagai hackathon dan kegiatan-kegiatan komunitas lainnya.
Mengajarkan machine learning
Ilmu akan semakin dalam jika dibagikan, dan saat ini ada berbagai cara untuk mengajar. Pilihlah cara yang sesuai dengan karakteristik dan kemampuan kita, seperti misalnya :
- Menulis blog dan tutorial
- Aktif menjawab pertanyaan di forum-forum
- Mentoring dan tutoring privat
- Mengisi seminar, workshop atau yang sejenisnya
- Mengajar kelas
- Menulis buku
- Menulis research papers
- Dan lain sebagainya

Tentu tidak ada formula anti gagal yang bisa diterapkan kepada semua orang, karena gaya dan cara belajar masing-masing orang bisa berbeda-beda. Apa lagi tidak semua yang ingin terjun ke bidang ini punya latar belakang ilmu maupun keahlian yang sama. Yang penting adalah memulainya, karena “The journey of a thousand miles begins with one step”.

Contributor :

Pages:‹1 2 3 45

Posts Categorized / Artificial Intelligece

1. Cek Instalasi

2. Loading Data

3. Convert dataset ke dalam Pandas DataFrame

4. Eksplorasi Dataset

Statistical Summary

Distribusi Data

Visualisasi Data

Interaksi Antar Variabel

Download Anaconda

Install Anaconda

Menggunakan Environment Anaconda