:::: MENU ::::

Posts Categorized / Uncategorized

  • Feb 21 / 2018
  • Comments Off on Seputar Big Data Edisi #49
Uncategorized

Seputar Big Data Edisi #49

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Februari 2017

Artikel dan Berita

    1. AirAsia Teams Up with GE for Big Data Analytics in the Sky
      AirAsia telah mengumumkan perjanjian empat tahun dengan GE. GE Aviation akan menyediakan Electronic Flight Operations Quality Assurance (eFOQA) dan aplikasi pilot FlightPulse untuk armada AirAsia yang terdiri dari sekitar 355 pesawat A320 dan A330 serta 4.000 orang pilot.
    2. How to Use Blockchain and Big Data for Better Small Business Profits
      Dengan teknologi blockchain, usaha kecil dan menengah bisa memanfaatkan analisis big data tanpa harus khawatir dengan biaya atau kompleksitas. Bagaimana cara pemanfaatan blockchain dan big data untuk industri kecil dan menengah?
    3. Big Companies Are Embracing Analytics, But Most Still Don’t Have a Data-Driven Culture
      Selama 6 tahun NewVantage Partners melakukan survey terhadap 57 perusahaan besar dari berbagai bidang. Enam tahun lalu fokus survey adalah big data, namun tahun ini fokus survey beralih ke Artificial Intelligence. Meskipun demikian, inti permasalahan tetap sama : ledakan data dan bagaimana memanfaatkannya. Bagaimana hasil survey tersebut?
    4. Deep learning neural network used to detect earthquakes
      Sebuah tim peneliti dari Harvard University dan MIT menggunakan teknologi jaringan syaraf tiruan untuk mendeteksi gempa bumi, dan menemukan metode ini lebih akurat daripada metode saat ini. Dalam penelitian ini para peneliti melatih sebuah deep learning neural network untuk membaca seismogram dan bagaimana membedakan antara gerakan rutin “noise” dan gempa bumi. Jaringan saraf yang dinamai ConvNetQuake ini mengidentifikasi 17 kali lebih banyak gempa daripada yang tercatat dalam katalog gempa Survei Geologi Oklahoma.

Tutorial dan Pengetahuan Teknis

  1. 5 Things Dealers Need to Understand About Big Data
    Wawancara dengan beberapa eksekutif di bidang dealership mengenai big data, apa nilai strategisnya bagi para dealer, dan bagaimana penerapan big data yang tepat serta kesalahan apa yang sering dilakukan perusahaan dealer dalam penerapan big data ini.
  2. Introduction to Python Ensembles
    Ensemble menjadi salah satu metode paling populer dalam pembelajaran mesin terapan. Hampir setiap solusi pemenang Kaggle menggunakannya, dan banyak pipeline data sains memiliki ansambel di dalamnya. Artikel ini menampilkan dasar-dasar ensamble -apa dan mengapa mereka dapat bekerja dengan sangat baik- dan memberikan tutorial langsung untuk membangun ensemble dasar.
  3. Apache Ignite: Setup Guide
    Artikel singkat mengenai setup Apache Ignite.
  4. 5 Fantastic Practical Machine Learning Resources
    Artikel ini menyajikan 5 sumber praktis mengenai machine learning, yang mencakup pembelajaran mesin dari dasar, pengkodean algoritma dari nol maupun menggunakan framework machine learning tertentu.
  5. Managing Large State in Apache Flink: An Intro to Incremental Checkpointing
    Artikel ini memberikan overview mengenai arsitektur di balik fitur incremental checkpoint Apache Flink. Flink memanfaatkan RocksDB untuk status lokal, dan mencatat sstables (file format yang digunakan untuk menyimpan data) mana yang perlu dibackup untuk membuat snapshot.
  6. Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid and Pinot
    Perbandingan antara ClickHouse, Druid, dan Pinot. Ketiganya adalah engine OLAP storage terdistribusi yang open-source. Dalam artikel ini dibahas secara cukup mendalam mulai dari persamaan, kinerja, dan beberapa perbedaan penting dalam hal data ingestion, replikasi dan eksekusi query.
  7. Dynamometer: Scale Testing HDFS on Minimal Hardware with Maximum Fidelity
    LinkedIn menguji kinerja Apache Hadoop DFS sebelum meng-upgrade versinya, dengan menggunakan alat load-testing yang disebut Dynamometer. Tool ini mensimulasikan beban produksi dengan bootstrap dari image FS NameNode, menjalankan sejumlah besar simulasi DataNode, dan menjalankan kembali operasi nyata berdasar log audit HDFS. Dynamometer ini sekarang tersedia di github.
  8. Machine Learning Algorithms for Business Applications – Complete Guide
    Artikel yang cukup komprehensif mengenai berbagai aalgoritma machine learning, lengkap dengan kekurangan dan kelebihannya dalam penerapan untuk dunia bisnis.
  9. A Gentle Introduction to Matrix Operations for Machine Learning
    Banyak algoritma machine learning menggunakan operasi matriks dalam deskripsinya. Beberapa operasi digunakan secara langsung untuk memecahkan persamaan, sementara yang lain memberikan stuktur atau landasan yang berguna dalam deskripsi dan penggunaan operasi matriks yang lebih kompleks. Tutorial ini menjelaskan operasi matriks aljabar linear yang penting, yang digunakan dalam deskripsi metode machine learning.

Rilis Produk

    1. Apache Lens 2.7.1
      Apache Lens versi 2.7.1 mencakup support Java 8, perbaikan pada konfigurasi per user dalam job scheduler, cube segmentation, retry untuk recover dari erroe transient, dan support UNION anntar tabel fact, serta beberapa perbaikan bug.
    2. Apache Oozie 4.3.1 released
      Apache Oozie 4.3.1 mencakup beberapa bug fixes dan peningkatan minor.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 14 / 2018
  • Comments Off on Seputar Big Data Edisi #48
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, IoT, machine learning, Uncategorized

Seputar Big Data Edisi #48

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu xx bulan xx 2017

Artikel dan Berita

  1. Xiaomi partners with Naver in AI for IoT devices
    Clova, platform AI dari Naver akan memperkuat device IoT Xiaomi. Kerja sama ini menunjukkan keseriusan Naver dalam bidang AI, setelah November lalu mereka menjalin kerja sama dengan LG, setelah sebelumnya Naver juga membeli pusat AI Xerox di Eropa.
  2. New big data project to enhance safety at sea
    Grahaeme Henderson, wakil presiden pelayaran dan maritim Shell, mengumumkan sebuah inisiatif baru yang disebut HiLo, yang menggunakan data besar dan analisis prediktif untuk mencegah kecelakaan dalam pelayaran.
  3. Understanding What Consumers Want Without Ever Asking Them
    Menurut Harvard Business School, setiap tahun ada lebih dari 30.000 produk baru yang diluncurkan dan sekitar 80% di antaranya gagal. Awal bulan ini Coca-Cola meluncurkan empat rasa baru dan makeover kemasan untuk Coke Diet andalan mereka. Menurut statistik Harvard Business School di atas, tiga dari rasa baru itu akan gagal. Namun dalam era yang sarat informasi yang kita jalani saat ini, apakah hal tersebut masih menjadi masalah?
  4. Innovation in mining with IoT and AI monitoring technology
    Kemampuan untuk mengumpulkan dan menganalisis data lingkungan dan peralatan, dan melakukan penilaian risiko dan wilayah secara real time memberi manfaat yang signifikan bagi operasi skala besar. Terutama industri seperti pertambangan, yang beroperasi di lingkungan yang sempit, selalu berubah dan berpotensi bahaya. Tapi apakah teknologi IoT dan AI benar-benar menguntungkan? Dan apa sebenarnya manfaat teknologi tersebut untuk operasi penambangan?
  5. Top IoT Projects: 8 Case Studies
    Hampir semua orang setuju bahwa IoT akan menjadi sangat penting, tapi tidak semua memahami bagaimana mereka bisa mendapatkan keuntungan dari teknologi ini. IDC memperkirakan bahwa pengeluaran IO di seluruh dunia akan mencapai $772,5 miliar tahun ini, 14,6 persen lebih banyak dari tahun lalu, dan diyakini akan berlanjut hingga 2021, ketika total pendapatan akan mencapai $1,1 triliun.
    Tapi apa sebenarnya yang dibeli? Berikut ini 8 contoh kasus penggunaan IoT yang cukup menarik dan mewakili berbagai bidang.
  6. What 2018 holds for AI and deep learning
    Tahun 2018 ini diprediksikan menjadi tahun di mana banyak industri berusaha menggali manfaat dari deep learning dan berusaha menjadi intelligence enterprise. Berikut ini beberapa pandangan dari PwC Analytics Group mengenai prospek serta peluang deep learning dan AI di tahun 2018.

Tutorial dan Pengetahuan Teknis

  1. GeoBike, Part 2: Querying the Data
    Pada posting sebelumnya, telah dibahas mengenai pembuatan back-end dengan Redis, dan loading data dari General Bikeshare Feed Specification (GBFS) data feed menggunakan Python. Dalam seri ini dibahas mengenai bagaimana menentukan lokasi user, dan bagaimana melakukan query data.
  2. Introduction to Matrices and Matrix Arithmetic for Machine Learning
    Matriks merupakan elemen dasar yang penting dalam penerapan machine learning. Matriks banyak digunakan terutama dalam menjelaskan proses dan algoritma, misalnya representasi variabel data masukan (X) yang digunakan untuk men-train sebuah algoritma. Tutorial ini menjelaskan mengenai konsep dasar matriks dalam aljabar linier, dan bagaimana memanipulasinya menggunakan Python.
  3. A comparison between spaCy and UDPipe for Natural Language Processing for R users
    Dalam beberapa tahun terakhir ini NLP (Natural Language Processing) berkembang ke arah task yang multibahasa, tidak lagi terikat oleh satu bahasa, negara atau batasan legal tertentu. Dengan semakin berkembangnya open data berkaitan dengan task NLP, seperti http://universaldependencies.org/ , kita dapat dengan mudah membandingkan berbagai toolkit NLP. Dalam artikel ini dibandingkan dua package NLP dalam R, yaitu udpipe dan spacyr.
  4. Consider to Introduce Docker to Your Data Science Workflow
    Salah satu permasalahan yang banyak dihadapi oleh data saintis adalah konfigurasi environment. Setting environment seringlai berarti menginstal banyak package, menunggu compile package, dan berbagai proses trial and error lainnya. Penggunaan docker dalam data science workflow akan sangat membantu mengatasi permasalahan tersebut. Artikel ini membahas bagaimana mempersiapkan docker untuk menjalankan notebook Jupyter sederhana.
  5. A Simple Starter Guide to Build a Neural Network
    Artikel ini menjelaskan dasar-dasar membangun neural network dari nol, dengan meminimalisir berbagai konsep matematis dan saintifik di belakangnya.

Rilis Produk

  1. Apache Knox 1.0.0
    Apache Knox akhirnya mengumumkan rilis versi 1.0.0.
    Dalam rilis ini dilakukan repackaging class-class ke dalam package dengan nama yang lebih sesuai. Hal ini mungkin dapat menimbulkan permasalahan bagi user yang meng-ekstend class-class dengan package name yang lama. Oleh karena itu, dirilis versi 0.14.0 dengan fitur set yang kurang lebih sama dengan 1.0.0. Versi 1 ini juga mencakup beberapa perbaikan bug dari versi 0.14.0 serta penyempurnaan fitur Service Discovery dan Topology Generation.
  2. Apache Atlas 0.8.2 released
    Rilis ini mencakup perbaikan dan penambahan fitur di antaranya metadata types & instances, classification, lineage, search/discovery, serta security & data masking.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2018
  • Comments Off on Seputar Big Data Edisi #47
Apache, Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #47

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu Pertama bulan Februari 2017

Artikel dan Berita

  1. Top 7 Ways How Banks Could Benefit from Smart Bots
    Pemanfaatan AI dalam industri semakin meningkat, termasuk di dalamnya bidang perbankan. Salah satu yang paling banyak diadopsi adalah penggunaan smart bot untuk smart assistant maupun customer service. Berikut ini 7 poin mengenai bagaimana penerapan smart bot dapat memberikan keuntungan bagi perbankan.
  2. Using AI to uncover the mystery of Voynich manuscript
    Ilmuwan komputasi di University of Alberta menggunakan kecerdasan buatan untuk menguraikan manuskrip kuno. Teks misterius dalam manuskrip Voynich abad ke-15 telah menggugah keingintahuan para sejarawan dan kriptografer sejak ditemukannya pada abad ke-19. Baru-baru ini, seorang profesor ilmu komputer yang ahli dalam pemrosesan bahasa alami menggunakan kecerdasan buatan untuk memecahkan ambiguitas dalam bahasa manusia menggunakan manuskrip Voynich sebagai studi kasus.
  3. Top Skills Data Scientists Need To Learn in 2018
    Data saintis adalah profesi yang sangat diminati, dan menempati posisi nomor 1 di daftar Glassdoor’s Best Jobs in America pada 2016 dan 2017. Hal ini mendorong permintaan serta gaji lebih tinggi untuk para profesional dengan kualifikasi ini. Artikel berikut ini menampilkan daftar singkat keterampilan teknologi paling penting yang perlu dikuasai oleh data saintis di tahun ini.
  4. How big data is helping states kick poor people off welfare
    Teknologi adalah senjata yang sangat ampuh, dan sebagaimana senjata pada umumnya, tergantung pada manusia yang memanfaatkannya, apakah akan digunakan untuk kebaikan atau justru membawa keburukan. Salah satu kontroversi pemanfaatan big data adalah bagaimana data justru digunakan untuk merugikan pihak-pihak lemah, misalnya seperti yang dikatakan Virginia Eubank, profesol ilmu politik universitas Albany, bahwa “data digunakan untuk membidik dan menghukum masyarakat miskin di Amerika“.

Tutorial dan Pengetahuan Teknis

  1. Apache Hive vs. Apache HBase
    Banyak orang yang bertanya apakah sebaiknya mereka menggunakan Apache Hive, Apache HBase, Apache SparkSQL, atau yang lainnya. Tentunya tidak ada tools yang sesuai untuk semua orang. Semua harus dikembalikan kepada kebutuhan dan jenis permasalahan yang akan diselesaikan. Artikel ini mengupas secara singkat perbandingan antara Hive dan HBase, serta beberapa pertanyaan yang perlu anda ajukan sebelum memilih data engine tools.
  2. Web Scraping Tutorial with Python: Tips and Tricks
    Web scraping atau mengekstraksi data secara otomatis dari sebuah halaman web merupakan langkah penting dalam berbagai aplikasi yang melibatkan analisis web. Artikel ini menyajikan beberapa aturan, pola umum desain, dan kesalahan yang umum terjadi yang berhubungan dengan web scraping.
  3. Understanding Learning Rates and How It Improves Performance in Deep Learning
    Artikel ini menjelaskan mengenai apa itu learning rate dan bagaimana penggunaannya untuk meningkatkan kinerja dalam deep learning.
  4. Apache Kafka is not for Event Sourcing
    Apache Kafka merupakan platform open source untuk data stream terdistribusi yang paling terkemuka saat ini. Namun ada beberapa kelemahan, khususnya dalam penggunaannya sebagai event sourcing pattern, dalam hal loading status terkini dan konsistensi writes.
  5. Apache Beam: A Look Back at 2017
    Apache Beam menyajikan kilas balik 2017 yang meliputi perkembangan komunitas dan inovasi dalam kemampuan seperti portabilitas antarbahasa dan dukungan machine learning, serta rencana pengembangan ke depan.

Rilis Produk

  1. Apache NiFi MiNiFi 0.4.0
    Versi 0.4.0 Apache NiFi MiNiFi mencakup beberapa peningkatan dan penambahan support untuk Apache NiFi 1.5.0.
  2. Apache Phoenix 4.13.2
    Apache Phoenix 4.13.2 mencakup beberapa perbaikan dan kompatibilitas dengan CDH.
  3. Jepsen versi 0.1.7
    Jepsen adalah tools untuk menguji correctness sistem data terdistribusi dalam menghadapi failure. Rilis 0.1.7 mencakup beberapa perbaikan bugs, perubahan dan penambahan fitur.
  4. Apache Scoop 1.4.7
    Riilis ini mencakup 100 tiket JIRA yang terdiri dari beberapa bug fixes, peningkatan dan penambahan fitur.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 20 / 2017
  • Comments Off on [Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn
Artificial Intelligece, Big Data, Implementation, machine learning, Uncategorized

[Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Cara paling cepat untuk menguasai sebuah tool atau platform adalah dengan membuat sebuah end-to-end project yang mencakup langkah-langkah utama dalam implementasi machine learning. Langkah tersebut antara lain adalah : loading data, summary data, evaluasi algoritma dan membuat beberapa prediksi.

Membuat end-to-end project berarti membiasakan diri dengan proses machine learning, dan kasus yang telah dikerjakan dapat menjadi semacam template yang bisa digunakan untuk mengolah berbagai dataset lainnya.

Untuk memulainya tidak perlu menggunakan dataset atau kasus yang terlalu rumit. Anda bisa memilih data yang tersedia di dalam library scikit-learn. Daftar lengkap datasetnya dapat dilihat di sini.

Dalam artikel ini akan digunakan dataset iris sebagai contoh kasusnya.

Dataset iris ini sangat sesuai untuk latihan karena :

  • Ukurannya tidak terlalu besar, yaitu 4 atribut dan 150 row, sehingga tidak akan membebani memori
  • Atributnya sederhana. Seluruh atribut numerik dalam unit dan skala yang sama, sehingga tidak memerlukan transformasi khusus

Meskipun teknik dan prosedur dalam penerapan machine learning sangat bervariasi, namun secara garis besar sebuah project machine learning memiliki tahapan sebagai berikut:

  • Definisi masalah
  • Menyiapkan data
  • Memilih/mengevaluasi algoritma
  • Melakukan tuning untuk memperbaiki hasil
  • enyajikan hasil

Salah satu hal yang paling penting dalam langkah-langkah awal project adalah memahami data. Dalam artikel ini akan disajikan mengenai loading dan beberapa fungsi eksplorasi data untuk melihat bagaimana dataset yang akan kita proses nantinya.

1. Cek Instalasi

Jalankan perintah-perintah berikut untuk mengecek versi package yang terinstall.
Versi yang package yang akan gunakan mestinya lebih baru atau setidaknya sama dengan yang terdapat pada output di bawah ini. Jika versi package anda sedikit tertinggal, mestinya tidak masalah, karena biasanya API-nya tidak terlalu banyak berubah. Anda masih dapat menjalankan code yang ada dalam latihan di bawah ini. Tapi jika ingin memperbaharui package yang ada, langkah update package dapat dilihat di posting sebelumnya.

Belajar_ML_2

Output yang didapatkan kurang lebih sbb (versi bisa berbeda):

Belajar_ML_2

Berikutnya adalah loading package yang akan digunakan. Lakukan import untuk mengecek apakah instalasi sudah ok. Jika terdapat error, stop dan resolve. Package di bawah ini perlu untuk menjalankan latihan dalam artikel ini.

Petunjuk setting environment bisa dilihat di posting sebelumnya. Jika terdapat pesan error yang spesifik, anda bisa mencari cara resolve-nya di forum-forum seperti Stack Exchange (http://stackoverflow.com/questions/tagged/python).

Belajar_ML_2

2. Loading Data

Jika langkah di atas berjalan dengan baik, load dataset iris dari package sklearn dengan menjalankan fungsi berikut:

Belajar_ML_2

Tips : Untuk mengetahui jenis sebuah object atau fungsi dalam python, kita bisa mengetikkan nama object atau fungsi yang ingin kita ketahui, diikuti tanda tanya, seperti pada contoh berikut :

Belajar_ML_2

Outputnya adalah informasi dari object tersebut, seperti berikut:

Belajar_ML_2

Untuk mengetahui apa saja yang terdapat di dalam dataset iris, tampilkan seluruh keys dalam dataset tersebut dengan perintah berikut ini:

Belajar_ML_2

Outputnya berupa daftar dari keys atau kata kunci yang terdapat dalam dictionary:

Belajar_ML_2

Dari outputnya kita dapat mengetahui bahwa dalam dataset iris terdapat key berikut : data, target, target_name, DESCR dan feature_names. Kita dapat mengakses dan menampilkan value-nya dengan key tersebut. Misalnya untuk menampilkan deskripsi dataset, lakukan sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Seperti tampak pada deskripsi di atas, dataset iris memiliki 4 atribut numerik : sepal length, sepal width, petal length, dan petal width.

Terdapat 3 jenis spesies (class), yaitu

  • Iris-Setosa
  • Iris-Versicolour
  • Iris-Virginica

Terdapat 150 entry (150 rows data), yang terbagi rata ke dalam 3 kelas tersebut.

Atribut disimpan di elemen “data”, dan kelas/species di elemen “target”. Keduanya bertipe numerik.

Kita lihat bentuk datanya, dengan ‘mengintip’ beberapa baris data dan target, dengan command berikut:

Belajar_ML_2

Dari output di bawah terlihat bahwa format data adalah numerik, dan nilai target menunjukkan indeks dari array target_names.

Belajar_ML_2

3. Convert dataset ke dalam Pandas DataFrame

Untuk memudahkan pemrosesan dan eksplorasi data, kita akan mengubah dataset tersebut ke dalam format pandas DataFrame.

Pandas adalah package yang dibangun di atas library numPy. Pandas menyediakan data struktur yang efisien dan fleksibel, yang dirancang untuk melakukan analisis data dalam Python.
Keterangan lebih lanjut mengenai pandas dan berbagai object di dalamnya dapat dilihat di sini (https://pandas.pydata.org/pandas-docs/stable/)

Berikut ini command untuk mengubah dataset iris menjadi Pandas Dataframe:

Belajar_ML_2

4. Eksplorasi Dataset

Beberapa hal yang akan kita lakukan adalah :

  • Melihat dimensi dataset
  • Contoh datanya
  • Ringkasan statistik semua atribut
  • Mengelompokkan data berdasar variabel target

Yang pertama kita lihat dimensi datanya (jumlah row dan kolom) dengan menggunakan atribut shape

Belajar_ML_2

Output:
Belajar_ML_2

Selanjutnya kita ‘intip’ contoh data dengan menggunakan fungsi head. Dari sini terlihat dataset kita memiliki 4 atribut numerik dan 1 atribut string.

Belajar_ML_2

Output:

Belajar_ML_2

Statistical Summary

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean, nilai minimum dan maksimum, serta nilai2 persentilnya.

Belajar_ML_2

Dari summary tersebut terlihat bahwa seluruh nilai numerik memiliki skala yang sama (yaitu dalam cm), dan memiliki range yang serupa juga, yaitu antara 0 sampai 8 cm.

Belajar_ML_2

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya berdasarkan kelas sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Terlihat bahwa data terbagi menjadi 3 kelas dengan jumlah yang sama, yaitu masing-masing 50 row.

Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya. Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam bentuk boxplot.

Belajar_ML_2

Belajar_ML_2

Kita juga bisa melihat sebaran datanya dengan bentuk histogram.

Belajar_ML_2

Belajar_ML_2

Dari histogram di atas tampak bahwa setidaknya ada 2 variabel yang kemungkinan memiliki sebaran normal. Asumsi ini dapat kita jadikan pertimbangan ketika memilih algoritma nantinya.

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal.

Belajar_ML_2

Belajar_ML_2

Setelah kita mendapat gambaran mengenai dataset yang akan kita proses, kita siap melakukan testing dan tuning algoritma.

Versi Jupyter notebook dari latihan ini dapat di unduh di :
https://github.com/urfie/belajar-python/blob/master/Belajar%20Machine%20Learning%20-%20Load%20and%20Explore%20Dataset.ipynb

Sumber : https://machinelearningmastery.com/machine-learning-in-python-step-by-step/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Dec 15 / 2017
  • Comments Off on Seputar Big Data Edisi #42
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, Uncategorized

Seputar Big Data Edisi #42

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 2 bulan Desember 2017.

Artikel dan Berita

  1. How To Think About Artificial Intelligence In The Music Industry
    Ulasan mengenai penerapan AI di dalam industri musik. Jenis data apa saja yang penting, serta apa tantangan dan peluangnya, dengan berbagai contoh menarik dari Youtube, Spotify, dan lain sebagainya.
  2. Machine learning at Spotify: You are what you stream
    Wawancara dengan head of data solution Spotify. Beberapa hal yang dibahas adalah bagaimana membentuk, memanage dan mengembangkan sebuah data team, dan bagaimana Spotify membangun sistem rekomendasi mereka.
  3. Australian genome researchers solving big data problems
    Genomics merupakan sebuah bidang yang menghasilkan data luar biasa besarnya. Untuk mengatasi permasalahan tersebut para peneliti di bidang ini membangun sebuah tool berbasis cloud.
  4. Using Big Data to transform business processes
    Menurut survey IDC, investasi di bidang big data dan teknologi analytics akan mencapai 187 miliar US$ pada 2019, meningkat 50% dari tahun 2015. Dengan jumlah yang fantastis tersebut, bagaimana big data dapat bermanfaat dalam proses bisnis?
  5. Six ways (and counting) that big data systems are harming society
    Sebuah teknologi yang disruptive seperti big data tentu tidak hanya membawa manfaat bagi manusia, namun juga membawa dampak negatif. Data Justice Lab, sebuah pusat penelitian Jurnalistik, Media dan Budaya Universitas Cardiff, mencatat berbagai kasus kerugian akibat penggunaan big data, seperti misalnya penyalahgunaan informasi pribadi, diskriminasi, dan lain sebagainya.
  6. New big data trend tracks ‘digital footprints’
    ‘Process mining’ adalah salah satu teknik yang mulai banyak digunakan oleh perusahaan, termasuk diantaranya GM, Airbus, KPMG dan UBS untuk mengotomasi berbagai proses dan beradaptasi dengan digitalisasi industri. Teknik ini dimungkinkan dengan adanya pencatatan dan pengumpulan data-data digital yang didukung oleh teknologi big data.
  7. 10 Great Reads for Small Biz Owners Afraid to Conquer Big Data
    Banyak perusahaan kecil dan menengah yang menganggap bahwa big data hanya sesuai untuk perusahaan besar saja, sehingga mereka enggan untuk memanfaatkannya. Berikut ini 10 buku yang dapat memotivasi para pengusaha kecil dan menengah untuk mempelajari dan menerapkan big data bagi keunggulan kompetitif mereka.

Tutorial dan Pengetahuan Teknis

  1. Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction
    Pengenalan singkat dan mudah tentang bagaimana menggunakan Scikit-learn Pipelines untuk membuat dan mengatur alur kerja machine learning. Merupakan bagian 1 dari sebuah artikel serial.
  2. Problems With Kafka Streams
    Kafka Stream adalah platform pemrosesan stream yang mudah dan handal. Aplikasi yang menggunakan Kafka Streams pun dapat dijalankan di hampir semua environment. Namun demikian, seperti halnya segala hal di muka bumi ini, library Kafka tidaklah sempurna. Apa saja permasalahan yang biasa dihadapi dalam penggunaan library Kafka?
  3. Difference Between Classification and Regression in Machine Learning
    Penjelasan yang sangat baik dan mudah difahami mengenai perbedaan antara klasifikasi dan regresi dalam machine learning.
  4. Connecting R to Keras and TensorFlow
    Tutorial mengenai bagaimana menghubungkan R ke Keras dan TensorFlow, lengkap dengan contoh dan dokumentasi.
  5. Big Data and Container Orchestration with Kubernetes (K8s)
    Artikel ini menjelaskan beberapa tantangan dalam mengadopsi Kubernetes (k8) untuk Hadoop stack. k8s pada dasarnya ditujukan untuk aplikasi stateless, sehingga cocok untuk HDFS dan aplikasi penyimpan data lain. Dijelaskan pula mengenai sebuah prototipe yang dibuat BlueData untuk mendeploy Hadoop dengan k8 melalui EPIC.
  6. Processing HL7 Records
    Tutorial mengenai proses ingestion dan transformasi data dari format HL7 (standar internasional untuk data kesehatan) ke dalam Apache Hive untuk dimanfaatkan dalam machine learning dan analisis pada data lake Hadoop.
  7. [FREE EBOOK] Think Stats – Probability and Statistics for Programmers
    Pengantar probabilitas dan statistik untuk programmer Python. Menekankan pada teknik-teknik sederhana yang dapat Anda gunakan untuk mengeksplorasi dataset dan menjawab berbagai pertanyaan menarik. Buku ini menyajikan studi kasus menggunakan data dari National Institutes of Health. Pembaca didorong untuk mengerjakan sebuah proyek dengan dataset yang sebenarnya.
  8. [DATASET] Default of Credit Card Clients Data Set
    Saat ini prediksi default kartu kredit dengan machine learning sudah mulai banyak dilakukan. Dataset berikut ini mencakup data demografi, riwayat pembayaran, kredit, dan data default.

Rilis Produk

  1. Druid 0.11.0
    Druid 0.11.0 mencakup beberapa fitur baru yang major, termasuk support TLS, ekstensi cache Redis, dan berbagai peningkatan untuk Druid SQL dan kinerja GroupBY.
  2. Apache MiNiFi C++ 0.3.0
    Apache MiNiFi C++ versi 0.3.0 dirilis, namun belum dianggap siap untuk production. Versi ini memiliki beberapa fitur termasuk dukungan untuk menulis langsung ke Kafka.
  3. DeepVariant: Highly Accurate Genomes With Deep Neural Networks
    Google merilis DeepVariant ke komunitas open source. DeepVariant adalah variant caller berbasis deep learning yang memanfaatkan framework Inception dari TensorFlow, yang pada mulanya digunakan untuk melakukan klasifikasi image.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 14 / 2017
  • Comments Off on Seputar Big Data Edisi #41
Apache, Big Data, IoT, Spark, Uncategorized

Seputar Big Data Edisi #41

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Desember 2017

Artikel dan Berita

  1. Uber’s Uber Breach: A Stunning Failure In Corporate Governance And Culture
    Ketika Uber mengetahui data mereka bocor di akhir 2016 lalu, selain tidak memperingatkan pihak-pihak yang terkena dampaknya, mereka juga berusaha berkonspirasi untuk menutupi kasus tersebut. Bahkan mereka pun bersedia membayar hacker/pemeras yang membobol data mereka dalam usaha menyembunyikannya. Dalam artikel ini Forrester mengupas mengenai kasus tersebut.
  2. The Marine Biologist Using Big Data to Protect Ocean Wildlife
    Bagaimana para ahli biologi kelautan menggunakan big data untuk menjaga keragaman dan keseimbangan hayati kelautan dengan membangun beberapa platform untuk memonitor berbagai ancaman terhadap ekosistem laut.
  3. Big Data in Marketing; 5 Use Cases – There Are a Lot More Than Just Five
    5 contoh penggunaan big data dalam bidang marketing.
  4. Big data: Three ways to turn business intelligence into a business advantage
    Besarnya informasi yang dimiliki sebuah organisasi tidak selalu sejalan dengan jumlah insight yang mereka dapatkan. Dalam artikel ini CIO perusahaan retail House of Fraser memaparkan mengenai strategi mereka dalam menempatkan BI dan AI sebagai pendukung utama dalam pengambilan keputusan dalam perusahaan.

Tutorial dan Pengetahuan Teknis

  1. Graph Analytics Using Big Data
    Sebuah overview dan tutorial singkat mengenai bagaimana melakukan analisis graph menggunakan Apache Spark, graphframe dan Java.
  2. From lambda to kappa and dataflow paradigms
    Sebuah tinjauan singkat mengenai evolusi kerangka pemrosesan data dalam beberapa tahun terakhir ini, mulai dari framework yang sudah muncul lebih dulu (misalnya Storm dan Samza) serta beberapa framework baru seperti Beam, Spark, dan Flink.
  3. Comparing Pulsar and Kafka: unified queuing and streaming
    Overview mengenai Apache Pulsar (incubating) dan perbandingannya dengan Apache Kafka.
  4. scikit-learn: Creating a Matrix of Named Entity Counts
    Artikel yang menjelaskan mengenai implementasi model menggunakan named entities dan polyglot NLP library dari scikit-learn untuk mengikuti kompetisi Kaggle Spooky Author Identification.
  5. Transfer learning from multiple pre-trained computer vision models
    Dalam deep learning, sebuah model perlu dilatih menggunakan data yang besar untuk dapat digunakan. Semakin besar data yang digunakan untuk training model, semakin baik kinerjanya untuk data baru. Salah satu metode yang paling murah dan praktis adalah dengan ‘transfer learning’. Artikel ini menjelaskan bagaimana menggunakan model computer vision yang sudah ditraining, dalam keras TensorFlow abstraction library.
  6. Data acquisition in R (3/4)
    Seri ke 3 dari 4 artikel yang menjelaskan dengan sangat baik mengenai akuisisi data (loading, preproses, analisis dan visualisasi) dalam R, terutama data-data yang berhubungan dengan demografi.
  7. [FREE EBOOK] The Ultimate Guide to Basic Data Cleaning
    Data cleansing atau data cleaning merupakan langkah yang sangat penting dalam pengolahan data, karena kualitas insight yang dihasilkan dari proses analisis tergantung dari kualitas datanya. Ebook ini menjelaskan mengenai dasar-dasar data cleaning dalam 8 bab yang singkat, dilengkapi dengan contoh kasus.
  8. [DATASET] IMDB 5000 Movie Dataset
    Dataset yang digunakan untuk mengeksplorasi kemungkinan untuk memprediksi popularitas sebuah film sebelum film tersebut dirilis.

Rilis Produk

  1. Apache ZooKeeper 3.4.11
    Rilis Apache ZooKeeper 3.4.11 mencakup beberapa bug fixes dan peningkatan kinerja.
  2. Apache BooKeeper 4.5.1 Released
    Versi 4.5.1 dari Apache BooKeeper dirilis minggu ini. Di dalamnya terdapat penyelesaian terhadap beberapa bug kritikal.
  3. Apache Bigtop 1.2.1
    Apache Bigtop 1.2.1 dibangun di atas JDK8 dan mencakup Docker provisioner serta peningkatan pada beberapa project ekosistemnya.
  4. Burrow 1.0.0 Released
    Burrow adalah tool monitoring untuk Apache Kafka. Versi 1.0.0 yang baru-baru ini dirilis mencakup beberapa fitur baru dan perbaikan bugs.
  5. StreamSets Data Collector 3.0
    StreamSet merilis versi 3.0 dari SDC (StreamSet Data Collector), dan Data Collector Edge yang baru. Data Collector Edge adalah versi lightweight binary dari SDC. SDC versi 3.0 mencakup beberapa fitur baru yang berhubungan dengan Kafka, Google Cloud, Oracle CDC, MapR, dan lain sebagainya.
  • Nov 21 / 2017
  • Comments Off on [Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning
Artificial Intelligece, Big Data, machine learning, Uncategorized

[Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Dalam beberapa seri artikel ke depan akan disajikan panduan praktis untuk memulai machine learning (dan deep learning) menggunakan Python.

Banyak di antara kita yang ingin belajar namun bingung dari mana harus memulainya. Mempelajari Machine learning, seperti dibahas pada artikel sebelumnya, paling cepat dilakukan dengan cara mengerjakan sebuah project. Rangkaian artikel ini akan memberikan beberapa arahan atau ide untuk anda.

Mengapa menggunakan python? Saat ini Python termasuk bahasa pemrograman yang paling banyak digunakan dalam data science dan machine learning.

Pada seri pertama ini akan dibahas mengenai bagaimana mempersiapkan environment Python untuk membuat program machine learning, dengan menggunakan Anaconda. Langkahnya adalah sbb:

  1. Download Anaconda
  2. Install Anaconda
  3. Start dan Update Anaconda
  4. Menggunakan dan me-manage conda environment untuk versi python yang berbeda-beda

  1. Download Anaconda
  2. Bagian ini mengenai bagaimana mendownload package Anaconda Python untuk platform anda.

    • Kunjungi download page Anaconda
    • Pilih installer yang sesuai dengan platform anda (Windows, OSX, atau Linux)
    • Pilih Python 3.x (dalam hal ini 3.6), proses download installer akan langsung berjalan
      Catatan : Saat ini terdapat dua major version Python yang masih bayak digunakan, yaitu 2.x dan 3.x, namun mengingat trend dewasa ini lebih mayoritas implementasi dan pengembangan dilakukan dengan dan untuk python 3.x, dan support untuk versi 2.x sudah akan berakhir pada 2020, maka disarankan menggunakan versi ini. Python 2.x hanya digunakan untuk kebutuhan khusus yang tidak/belum disupport python 3.x.
    • Untuk windows 64 bit, installer python 3.6 berukuran kurang lebih 515 MB dengan nama file Anaconda3-5.0.1-Windows-x86_64.exe

  3. Install Anaconda
  4. Untuk menginstall Anaconda, double-click file installer yang sudah diunduh pada langkah 1 di atas. Sebelumnya, pastikan anda memiliki priviledge yang cukup untuk menginstall software baru di sistem anda.

    Setelah doubleclick, akan muncul aplikasi installer, ikuti langkah-langkah yang muncul. Waktu instalasi biasanya di bawah 10 menit dan memerlukan disk space antara 1 atau 2 GB.

    gambar_01

    Anaconda Navigator dan environment grafis Anaconda akan sangat berguna nanti, namun untuk saat ini kita akan memulai dengan environment command line Anaconda yang disebut conda.

    gambar_02
    Anaconda Navigator

    Conda cukup cepat dan simple, serta menampilkan hampir semua eror message, sehingga akan lebih mudah untuk mengetahui apakah environment yang anda install sudah dapat bekerja dengan baik dan benar.

    1. Cek instalasi dan versi python
    2. Untuk mengecek apakah conda terinstall dengan baik, lakukan langkah ini:

      • Buka terminal (command line window)
      • Cek instalasi dengan mengetikkan : conda -V
      • Cek versi Python dengan : python -V

      Outputnya kurang lebih sebagaimana berikut:

      gambar_03

      Untuk memastikan environment conda sudah up-to-date, lakukan update dengan cara:

      conda update conda

      conda update anaconda

    3. Cek environment SciPy
    4. Langkah berikutnya adalah memeriksa versi library-library yang umumnya digunakan untuk pemrograman machine learning, yaitu: scipy, numpy, matplotlib, pandas, statsmodels, dan scikit-learn.

      Untuk melakukannya, masuk ke python prompt, dan jalankan perintah-perintah berikut ini:

      # scipy
      import scipy
      print(‘scipy: %s’ % scipy.__version__)
      # numpy
      import numpy
      print(‘numpy: %s’ % numpy.__version__)
      # matplotlib
      import matplotlib
      print(‘matplotlib: %s’ % matplotlib.__version__)
      # pandas
      import pandas
      print(‘pandas: %s’ % pandas.__version__)
      # statsmodels
      import statsmodels
      print(‘statsmodels: %s’ % statsmodels.__version__)
      # scikit-learn
      import sklearn
      print(‘sklearn: %s’ % sklearn.__version__)

      Outputnya kurang lebih sbb (di bawah ini adalah versi yang terakhir pada saat artikel ini dibuat) :

      gambar_04

      Untuk memutakhirkan versi library yang digunakan, bisa dilakukan secara individual dari command prompt, misalnya untuk scikit-learn, lakukan:

      conda update scikit-learn

      Sekarang anda sudah siap untuk mulai membuat project machine learning dalam Python.

  5. Menggunakan Environment Anaconda

  6. Dalam Anaconda, anda dapat menggunakan beberapa versi python dan library pendukung yang berbeda-beda dalam Anaconda. Caranya adalah dengan menggunakan conda environment.

    Untuk melihat environment yang ada, gunakan:

    conda env list

    Untuk membuat environment baru, misalnya dengan nama myenv, lakukan langkah berikut:

    conda create –name myenv

    Anda bisa membuat environment dengan memilih versi python yang diperlukan, misalnya python 2.7 untuk environment dengan nama myenv27, dengan cara

    conda create -n myenv27 python=2.7

Versi lengkapnya dapat dilihat di anaconda user guide bagian Managing Environment.

Sumber :
https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 31 / 2017
  • Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri
Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.


Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 27 / 2017
  • Comments Off on Seputar Big Data Edisi #35
Uncategorized

Seputar Big Data Edisi #35

Berita minggu ini adalah mengenai CDLA, yaitu lisensi open source untuk data yang digagas Linux Foundation, penggunaan big data oleh kepolisian, beberapa artikel teknis mengenai Kafka dan KSQL, streaming SQL engine untuk Apache Kafka, tips kombinasi PySpark dengan Pandas dan library lainnya, serta beberapa rilis open source.

Seputar Big Data edisi #35 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Oktober 2017

Artikel dan Berita

  1. Open-sourcing data will make big data bigger than ever
    Software open source telah menjadi penggerak kemajuan teknologi informasi masa kini. Pesatnya perkembangan big data pun tidak bisa dilepaskan dari pengaruh open source. Setelah software open source, kini Linux Foundation menciptakan sebuah framework lisensi terbuka serupa untuk data, yaitu CDLA (Community Data License Agreement). Dengan adanya CDLA ini diprediksikan akan semakin mendorong big data dan artificial intelligence untuk tumbuh semakin pesat. Artikel ini menjelaskan latar belakang dan isi dari lisensi CDLA tersebut.
  2. The rise of big data policing
    Di tengah kontroversi seputar privacy dan bias dalam penggunaan data dalam pencegahan dan penanggulangan kejahatan, tidak bisa dipungkiri lagi bahwa big data telah mulai digunakan secara luas oleh kepolisian di berbagai negara. Salah satunya adalah dibentuknya divisi RACR (Real-Time Analysis Critical Response) di Kepolisian Los Angeles. Bekerja sama dengan Palantir, mereka menggabungkan dan menganalisis berbagai petunjuk yang tersembunyi dari berbagai data source dari berbagai organisasi penegak hukum.
  3. Why Space Data Is The New Big Data
    Dengan semakin terjangkaunya biaya layanan satelit, muncul pula kebutuhan penggunaan 'data angkasa' dalam berbagai bidang industri. Misalnya dalam bidang pertanian, data satelit digunakan untuk memonitor faktor-faktor yang mempengaruhi hasil panen, dalam bidang real estat, digunakan untuk mengenali area yang rawan banjir. Dalam bidang retail, lalu lintas pejalan kaki di sekitar pusat perbelanjaan dapat dimonitor secara real time, untuk mendapatkan gambaran perilaku konsumen secara nyata.
  4. How AI Will Affect the Travel Industry
    Artificial Intelligence (AI) sepertinya akan merubah wajah industri perjalanan dan pariwisata. AI dapat membantu konsumen dan perusahaan penyedia jasa untuk dapat menyederhanakan pembuatan pengaturan perjalanan dan memperlancar proses bisnis.

Tutorial dan Pengetahuan Teknis

  1. Efficient UD(A)Fs with PySpark
    Menggabungkan PySpark dengan Pandas atau python library lainnya bisa menjadi tantangan tersendiri. Artikel berikut ini menjelaskan mengapa, dan menyediakan beberapa code untuk mengonversi data dari tipe numpy ke tipe yang kompatibel dengan PySpark, dan sebaliknya, untuk implementasi custom function. Artikel ini juga mengupas PySpark dengan cukup mendalam.
  2. Predicting Flight Arrivals with the Apache Kafka Streams API
    Membangun machine learning model yang dapat beradaptasi secara real time kini dapat dilakukan dengan lebih mudah. Kafka Streams memungkinkan kita untuk menggunakan code yang sama untuk training online dan offline. Artikel ini menunjukkan langkah-langkah membangun evaluasi dan training pipeline real time.
  3. KSQL: Streaming SQL for Apache Kafka
    Intro yang komprehensif dan menarik mengenai KSQL untuk Apache Kafka. Artikel ini menyajikan sebuah contoh agregasi data Twitter dengan SQL dan melakukan penggabungan stream. Terdapat pula beberapa diagram yang menjelaskan mengenai semantik KSQL.
  4. Top 10 Machine Learning Algorithms for Beginners
    Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.
  5. Getting Started with Cloudera’s Cybersecurity Solution
    Cloudera telah bermitra dengan Arcadia Data dan StreamSets agar lebih mudah bagi Chief Information Security Officers (CISOs) untuk mengambil langkah awal dalam penerapan studi kasus dengan memanfaatkan sumber data yang umum di berbagai sumber.

Rilis Produk

  1. Apache Pulsar 1.20.0-incubating Released
    Apache Pulsar versi 1.20.0-incubating dirilis, mencakup enkripsi end-to-end, support untuk event time, deduplikasi pesan, dan lain sebagainya.
  2. Introducing the Natural Language Processing Library for Apache Spark
    The John Snow Labs NLP library adalah framework open source untuk pemrosesan bahasa alami di atas Apache Spark. Artikel ini menjelaskannya dengan detail, termasuk bagaimana library tersebut melengkapi library-library ML Spark dan memberikan performance yang lebih baik.
  3. The Apache Software Foundation Announces Apache® PredictionIO™ as a Top-Level Project
    Apache PredictionIO, server Machine Learning open source yang memungkinkan developer memanage dan mendeploy servis-servis prediktif untuk berbagai macam pekerjaan Machine Learning. Project ini menyediakan koleksi template engine, di mana developer dapat memilih template dan mempersiapkan solusi machine learning untuk use case mereka secara cepat. Tiap template didesain untuk skenario machine learning tertentu.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:123456
Tertarik dengan Big Data beserta ekosistemnya? Gabung