:::: MENU ::::

Posts By / admin

  • Feb 13 / 2018
  • Comments Off on Seputar Big Data Edisi #47
Apache, Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #47

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu Pertama bulan Februari 2017

Artikel dan Berita

  1. Top 7 Ways How Banks Could Benefit from Smart Bots
    Pemanfaatan AI dalam industri semakin meningkat, termasuk di dalamnya bidang perbankan. Salah satu yang paling banyak diadopsi adalah penggunaan smart bot untuk smart assistant maupun customer service. Berikut ini 7 poin mengenai bagaimana penerapan smart bot dapat memberikan keuntungan bagi perbankan.
  2. Using AI to uncover the mystery of Voynich manuscript
    Ilmuwan komputasi di University of Alberta menggunakan kecerdasan buatan untuk menguraikan manuskrip kuno. Teks misterius dalam manuskrip Voynich abad ke-15 telah menggugah keingintahuan para sejarawan dan kriptografer sejak ditemukannya pada abad ke-19. Baru-baru ini, seorang profesor ilmu komputer yang ahli dalam pemrosesan bahasa alami menggunakan kecerdasan buatan untuk memecahkan ambiguitas dalam bahasa manusia menggunakan manuskrip Voynich sebagai studi kasus.
  3. Top Skills Data Scientists Need To Learn in 2018
    Data saintis adalah profesi yang sangat diminati, dan menempati posisi nomor 1 di daftar Glassdoor’s Best Jobs in America pada 2016 dan 2017. Hal ini mendorong permintaan serta gaji lebih tinggi untuk para profesional dengan kualifikasi ini. Artikel berikut ini menampilkan daftar singkat keterampilan teknologi paling penting yang perlu dikuasai oleh data saintis di tahun ini.
  4. How big data is helping states kick poor people off welfare
    Teknologi adalah senjata yang sangat ampuh, dan sebagaimana senjata pada umumnya, tergantung pada manusia yang memanfaatkannya, apakah akan digunakan untuk kebaikan atau justru membawa keburukan. Salah satu kontroversi pemanfaatan big data adalah bagaimana data justru digunakan untuk merugikan pihak-pihak lemah, misalnya seperti yang dikatakan Virginia Eubank, profesol ilmu politik universitas Albany, bahwa “data digunakan untuk membidik dan menghukum masyarakat miskin di Amerika“.

Tutorial dan Pengetahuan Teknis

  1. Apache Hive vs. Apache HBase
    Banyak orang yang bertanya apakah sebaiknya mereka menggunakan Apache Hive, Apache HBase, Apache SparkSQL, atau yang lainnya. Tentunya tidak ada tools yang sesuai untuk semua orang. Semua harus dikembalikan kepada kebutuhan dan jenis permasalahan yang akan diselesaikan. Artikel ini mengupas secara singkat perbandingan antara Hive dan HBase, serta beberapa pertanyaan yang perlu anda ajukan sebelum memilih data engine tools.
  2. Web Scraping Tutorial with Python: Tips and Tricks
    Web scraping atau mengekstraksi data secara otomatis dari sebuah halaman web merupakan langkah penting dalam berbagai aplikasi yang melibatkan analisis web. Artikel ini menyajikan beberapa aturan, pola umum desain, dan kesalahan yang umum terjadi yang berhubungan dengan web scraping.
  3. Understanding Learning Rates and How It Improves Performance in Deep Learning
    Artikel ini menjelaskan mengenai apa itu learning rate dan bagaimana penggunaannya untuk meningkatkan kinerja dalam deep learning.
  4. Apache Kafka is not for Event Sourcing
    Apache Kafka merupakan platform open source untuk data stream terdistribusi yang paling terkemuka saat ini. Namun ada beberapa kelemahan, khususnya dalam penggunaannya sebagai event sourcing pattern, dalam hal loading status terkini dan konsistensi writes.
  5. Apache Beam: A Look Back at 2017
    Apache Beam menyajikan kilas balik 2017 yang meliputi perkembangan komunitas dan inovasi dalam kemampuan seperti portabilitas antarbahasa dan dukungan machine learning, serta rencana pengembangan ke depan.

Rilis Produk

  1. Apache NiFi MiNiFi 0.4.0
    Versi 0.4.0 Apache NiFi MiNiFi mencakup beberapa peningkatan dan penambahan support untuk Apache NiFi 1.5.0.
  2. Apache Phoenix 4.13.2
    Apache Phoenix 4.13.2 mencakup beberapa perbaikan dan kompatibilitas dengan CDH.
  3. Jepsen versi 0.1.7
    Jepsen adalah tools untuk menguji correctness sistem data terdistribusi dalam menghadapi failure. Rilis 0.1.7 mencakup beberapa perbaikan bugs, perubahan dan penambahan fitur.
  4. Apache Scoop 1.4.7
    Riilis ini mencakup 100 tiket JIRA yang terdiri dari beberapa bug fixes, peningkatan dan penambahan fitur.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 06 / 2018
  • Comments Off on Hadoop 3.0 : Menjawab Tantangan Big Data Masa Depan
Apache, Big Data, Forum Info, Hadoop

Hadoop 3.0 : Menjawab Tantangan Big Data Masa Depan

Akhir tahun 2017 lalu Apache Foundation mengumumkan rilis Hadoop 3.0. Versi pertama dari Hadoop generasi ke 3 ini membawa banyak peningkatan dan penambahan fitur baru yang bukan hanya penting, namun juga sangat menarik.

Andrew Wang, rilis manager Apache Hadoop 3.0 menyebutkan bahwa Hadoop 3 “Merupakan hasil kerja sama dari ratusan kontributor dalam kurun lima tahun sejak Hadoop 2.” dan mencakup lebih dari 6000 perubahan sejak dimulainya pengembangan Hadoop 3 ini satu tahun yang lalu.

Berikut ini beberapa diantara berbagai fitur utama yang menjadi kekuatan Hadoop 3 :

  1. Erasure-Coding
    Apache Hadoop 3.0 menambahkan erasure-coding ke dalam pilihan mekanisme penyimpanannya. Fitur ini memberikan penghematan overhead storage sampai 50% dibandingkan dengan mekanisme replikasi standard HDFS. Namun penghematan ini tidaklah bebas biaya, karena sistem erasure-coding ini memiliki kompleksitas tambahan pada saat failure recovery. Oleh karena itu mekanisme EC ini sangat sesuai diterapkan pada data yang sudah lebih jarang diakses (colder data), misalnya untuk keperluan data archive. Pemanfaatan data tiering dan mekanisme erasure coding ini dapat menjawab kebutuhan untuk mengatasi permasalahan data sprawl.
  2. YARN-Federation
    Saat ini mulai banyak organisasi atau perusahaan yang memiliki lebih dari 1 cluster Hadoop untuk keperluan-keperluan yang berbeda, namun masing-masing cluster masih berdiri sendiri. Fitur Yarn federation memungkinkan kita untuk mengatur banyak cluster dalam satu layer. Cluster-cluster tersebut akan menjadi sub-cluster di bawah Yarn-federation. Hal ini selain memudahkan dalam hal pengaturan juga memungkinkan untuk memanfaatkan cluster-cluster ini dengan jauh lebih optimal. Dengan fitur ini skalabilitas Hadoop juga meningkat tajam, dari semula 10 ribu nodes menjadi ratusan ribu.

    yarn federation
  3. Extensible Resource Type
    Kebutuhan terhadap tenaga komputasi semakin meningkat seiring dengan berkembangnya penerapan AI, khususnya deep learning dalam berbagai bidang. Sebuah sistem big data dituntut untuk dapat memanfaatkan berbagai sumber daya untuk mendukung kebutuhan komputasi yang semakin tinggi. Saat ini telah banyak banyak framework deep learning memanfaatkan GPU dan FPGA untuk keperluan komputasi yang intensif. Hadoop 3 memperluas kemampuan YARN untuk dapat memanfaatkan resource GPU dan FPGA, serta mengatur penggunaannya secara elastis untuk berbagai unit bisnis yang memerlukannya.
    Versi 3.0 sudah mengimplementasi framework ini, namun implementasi untuk GPU baru akan dilakukan untuk versi 3.1 dan dukungan untuk FPGA pada versi 3.2. Kedua versi tersebut dijadwalkan akan dirilis pada tahun 2018 ini.
  4. Namenode High Availability
    Hadoop 2.0 mendukung deployment 2 NameNode dalam 1 cluster (1 aktif, 1 standby), Hadoop 3.0 memungkinkan untuk memiliki lebih dari 1 standby namenode, sehingga kita bisa mendapatkan availability dan failover yang jauh lebih baik.

Tampaknya komunitas Hadoop berencana untuk mempercepat pengembangan Hadoop 3.x. Hal ini tampak dari rencana dua dot rilis pada tahun 2018 ini. Beberapa fitur menarik yang perlu kita nantikan di antaranya adalah support GPU dan FPGA, serta Yarn service framework, yang salah satunya akan mensupport service-service yang berjalan dalam waktu yang relatif lama seperti service HBase, Hive/LLAP dan service berbasis container (misalnya Docker).

Berbagai fitur maupun roadmap tersebut dapat dilihat sebagai jawaban atas berbagai tantangan yang muncul akhir-akhir ini, terutama dua tahun terakhir ini. Salah satunya adalah banyak pihak yang menyebut era big data saat ini sebagai ‘era paska Hadoop’, yang menunjukkan bahwa banyak pihak mulai menganggap bahwa Hadoop sudah tidak terlalu sesuai lagi dengan kebutuhan dan trend big data saat ini.

Seperti yang diungkapkan oleh Vinod Vavilapali, Hadoop YARN & MapReduce Development Lead di Hortonwork : “Dengan Hadoop 3, kita bergerak ke skala yang lebih besar, efisiensi penyimpanan yang lebih baik, dukungan deep learning/AI dan juga interoperabilitas dengan cloud. Dalam waktu dekat ini terdapat item roadmap untuk menjalankan containerized-workload pada cluster yang sama, dan juga berbagai API untuk penyimpanan objek.
Dengan semua ini, kita akan melihat Hadoop menjadi lebih kuat, yang memungkinkan berbagai use-case mutakhir, dan dengan demikian Hadoop mungkin juga akan menjadi mudah dan membosankan.
Terlepas dari itu, berbagai penemuan dan pengembangan baru ini menunjukkan bahwa Hadoop akan selalu relevan dan menjadi latar belakang bagi berbagai infrastruktur penting yang di dunia yang semakin data-driven ini.”

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Jan 29 / 2018
  • Comments Off on Seputar Big Data #46
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data #46

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu empat bulan Januari 2017

Artikel dan Berita

  1. Kominfo Dorong DPR Tetapkan UU Perlindungan Data Pribadi Tahun Ini
    Penetapan Undang-Undang (UU) Perlindungan Data Pribadi dinilai semakin krusial, mengingat tren big data telah meluas ke berbagai lini. Masyarakat sadar atau tanpa sadar telah menyerahkan informasi personal ke berbagai layanan internet. Kendati begitu, UU Perlindungan Data Pribadi ini masih mengambang, dan bahkan belum menjadi prioritas dalam Program Legislasi Nasional (Prolegnas) 2018. Namun Kominfo akan mendorong DPR untuk mengesahkan UU tersebut tahun ini.
  2. Google Suntik Dana Segar Rp16 Triliun untuk Gojek
    Gojek mendapatkan suntikan dana segar Alphabet, induk perusahaan Google dan beberapa rekan senilai US$1,2 miliar atau sekitar Rp16 triliun. Selain Google, investor asal Singapura, Temasek Holdings, KKR & Co, Warburg Pincus LLC dan platform online China Meituan-Dianping pun akan berpartisipasi dalam suntikan dana tersebut. Kabarnya rencana pendanaan ini sudah dibuka sejak tahun lalu dan diproyeksikan akan rampung dalam beberapa pekan.
  3. Indonesia menjadi tempat yang ideal untuk bisnis data center
    Indonesia menjadi tempat pengembangan bisnis pusat data dan teknologi kumputasi awan yang menarik bagi investor karena tingkat pengembalian modal investasi (ROIC) yang mencapai 11,6%, atau tertinggi di Asia Pasifik. Di Singapura, tingkat ROIC hanya 9,5%, sedang di Australia, karena mahalnya fasilitas di perkotaan, angka ROIC hanya 3,8% atau terendah.
  4. How Big Data Is Revolutionizing Sports
    Dunia olahraga tidak luput dari pengaruh big data. Saat ini semakin banyak klub maupun atlet yang memanfaatkan data untuk meningkatkan performa mereka. Artikel ini mengupas bagaimana data mengubah wajah dunia olahraga.
  5. Alphabet unveils Chronicle, a security company that uses big data to detect vulnerabilities
    Alphabet Inc meluncurkan unit bisnis baru yang akan menjual perangkat lunak cyber security ke perusahaan-perusahaan besar. Unit baru yang bernama Chronicle ini memanfaatkan kemampuan machine learning untuk menyaring dan menganalisis data dalam jumlah besar secara lebih cepat dan tepat dibanding metode tradisional.
  6. 4 tips for delivering more business value with short-term big data projects
    Banyak perusahaan yang menjalankan project big data kesulitan menunjukkan value bisnis yang didapat dari project yang mereka jalankan, terutama karena project big data biasanya berskala besar dan berjangka panjang. Berikut ini beberapa tips menjalankan project berjangka pendek untuk dapat memperoleh hasil yang nyata.

Tutorial dan Pengetahuan Teknis

  1. Introduction to distributed TensorFlow on Kubernetes
    Contoh implementasi TensorFlow dii atas kubernetes di Amazon cloud.
  2. Time Series Visualisations: Kibana or Grafana?
    Review mengenai Kibana dan Grafana, tools untuk data visualisasi, terutama untuk data time series. Bagaimana kedua tools tersebut dapat saling melengkapi dan apakah dirilisnya Kibana Timelion membuat Grafana menjadi redundan dalam penggunaan Kibana.
  3. An introduction to unified queuing and streaming
    Perbedaan antara queuing dan streaming kadang tidak terlalu jelas, dan kebingungan dalam hal ini seringkali dapat menyebabkan kesalahan desain. Artikel ini menjelaskan dengan baik untuk perbedaan antara keduanya, dilengkapi dengan beberapa keterangan tambahan tentang bagaimana Apache Pulsar mendukung kedua use case.
  4. Machine Learning with R Caret – Part 1
    Serial ini adalah mengenai pembelajaran mesin dengan R. Artikel ini menggunakan paket Caret di R. Pada bagian ini, pertama-tama akan dilakukan Exploratory Data Analysis (EDA) pada dataset nyata, dan kemudian menerapkan regresi linier non-reguler. Contoh kasusnya adalah melakukan prediksi output daya berdasarkan seperangkat pembacaan dari berbagai sensor dalam sebuah pembangkit listrik berbahan bakar gas alam.
  5. implyr: R Interface for Apache Impala
    Package dplyr menyediakan grammar untuk pemrosesan data di R. Package implyr membantu dplyr untuk menerjemahkan grammar tersebut ke dalam Impala-compatible SQL commands. Artikel ini menjelaskan mengenai instalasi dan contoh penggunaan implyr.
  6. Step by Step Tutorial: Deep Learning with TensorFlow in R
    Tutorial langkah demi langkah penerapan deep learning menggunakan TensorFlow di R.

Rilis Produk

  1. Apache Impala 2.11.0
    Apache Impala 2.11.0 mencakup peningkatan dalam integrasi S3 (support IAM role), code gen, dan support Kudu. Secara keseluruhan terdapat 200 ticket yang tercakup dalam rilis ini.
  2. Apache HBase 2.0.0 beta is Available
    Apache HBase 2.0.0 telah tersedia dalam versi beta. Terdapat 2000 perubahan yang tercakup dalam rilis ini.
  3. Apache Solr 7.2.1 released
    Rilis 7.2.1 mencakup 3 bug fixes dari versi 7.2.0, dan meliputi juga Apache Lucene 7.2.1 yang mengandung 1 bug fix dari versi 7.2.0-nya.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 22 / 2018
  • Comments Off on Seputar Big Data Edisi #45
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, pertanian, Storage

Seputar Big Data Edisi #45

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Januari 2018

Artikel dan Berita

  1. Alibaba neural network defeats human in global reading test
    Satu lagi bidang di mana AI dapat mengungguli manusia. Kali ini Alibaba neural network (dan Microsoft Research Asia) berhasil meraih skor lebih tinggi dari yang dicapai manusia dalam tes pemahaman bacaan (reading comprehension) kategori Exact Match. Tes yang bernama SQuAD ini berisi lebih dari 100 ribu soal-jawab berdasarkan lebih dari 500 artikel wikipedia. Dalam ranking nilai EM mereka tercatat skor tertinggi manusia sebesar 82.304, Alibaba 82.440 dan Microsoft 82.650.
  2. How Mining Companies manage Big Data Analytics to Benefit the Business
    Berbagai teknologi baru dalam industri pertambangan memberi kesempatan kepada perusahaan untuk menganalisis peralatan dan proses yang tidak pernah mereka lakukan sebelumnya. Namun demikian, dengan teknologi baru ini muncul tantangan baru: bagaimana mengelola data yang dihasilkan oleh teknologi tersebut untuk mendorong bisnis. Berikut ini beberapa keuntungan dan use case dari big data untuk industri pertambangan.
  3. Big Data, Small Target: The Smart Approach To Artificial Intelligence
    Tidak semua inisiatif big data berjalan baik, bahkan menurut Gartner, hanya 15% bisnis yang berhasil melewati tahap percontohan atau pilot project big data.
    Dengan semakin besarnya tekanan di dunia bisnis untuk melakukan penerapan AI, dikhawatirkan semakin banyak perusahaan yang mengadopsi teknologi ini tanpa memahaminya terlebih dahulu. Berikut ini beberapa tips untuk memulai proyek big data dan AI maupun ML di perusahaan anda.
  4. Big Data, Analytics, and Machine Learning: Changing Insurance
    Kesuksesan, kegagalan, dan perubahan dalam bisnis asuransi selama ini sebagian besar selalu ditentukan oleh data. Akan tetapi kemunculan big data dan machine learning mengubah peta permainan di dunia asuransi. Pemenangnya adalah yang dapat mengakses data yang paling relevan, menganalisisnya dengan cara baru dan unik, dan menerapkannya pada waktu dan tempat yang tepat, semuanya dengan kecepatan luar biasa.
  5. Big data could soon improve decision making for farmers and fishermen
    Sebuah proyek yang didanai bersama oleh program Horizon 2020 Uni Eropa, melihat bagaimana arus informasi yang dikumpulkan dari tanah, udara dan satelit dapat mendorong pertanian dan perikanan. Proyek Bioekonomi Berbasis Data (DataBio) ini meneliti berbagai aplikasi big data dalam pertanian, kehutanan dan akuakultur, dan bagaimana informasi dapat memberdayakan mereka yang bekerja di sektor-sektor tersebut.
  6. Big data analytics in supply chain: Tackling the tidal wave
    Jumlah data supply-chain tumbuh secara eksponensial, dan perusahaan-perusahaan mulai kewalahan dalam memanfaatkan secara efektif informasi yang tersedia. Penelitian baru mengungkapkan strategi yang dapat mereka adopsi untuk membantu memanfaatkan kekuatan big data.
  7. Georgia researchers are studying the ways AI can reduce traffic accidents in Atlanta
    Kemacetan parah yang terjadi di Atlanta kebanyakan adalah akibat dari kecelakan di persimpangan-persimpangan besar. Untuk mengatasinya, peneliti di Georgia University melakukan studi untuk mengembangkan sistem berbasis citra untuk memantau dan mempelajari keamanan persimpangan besar menggunakan AI dan database real-time berbasis cloud.

Tutorial dan Pengetahuan Teknis

  1. Building a Distributed Log From Scratch, Part 1: Storage Mechanics
    Artikel ini adalah bagian pertama dari serangkaian artikel mengenai message log, membahas mengenai mengapa log penting dalam big data, dan bagaimana mekanisme penyimpanannya.
  2. A Gentle Introduction to Neural Machine Translation
    Penerjemah otomatis merupakan salah satu tugas yang paling menantang dalam bidang AI. Pada awalnya sistem berbasis aturan (rule-based) digunakan untuk menangani permasalahan ini, yang kemudian digantikan oleh metode statistik pada tahun 90an. Saat ini metode yang banyak digunakan adalah model deep neural network. Artikel ini menjelaskan mengenai tantangan yang dihadapi dalam pengembangan penerjemah otomatis dan efektifitas model neural machine translation.
  3. Parsing in Python: Tools and Libraries (Part 8)
    Bagian terakhir dari 8 artikel mengenai parsing dalam python. Mengupas dengan detail berbagai tools dan library dalam python yang dapat digunakan untuk melakukan data parsing, dan apa kelebihan dari masing-masing tool dan library tersebut. Pastikan anda membaca seri-seri sebelumnya.
  4. Elasticsearch for Dummies
    Blog post ini menjelaskan mengenai dasar-dasar Elasticsearch, kelebihannya, cara menginstalnya dan bagaimana mengindeks dokumen menggunakan Elasticsearch.
  5. Apache Mesos, Apache Kafka and Kafka Streams for Highly Scalable Microservices
    Artikel ini menjelaskan mengenai bagaimana membangun infrastuktur mikroservis yang skalabel dan mission-critical menggunakan Apache Kafka, Kafka Streams API, dan Apache Mesos di dalam platform Confluent dan Mesosphere.
  6. A Primer on Web Scraping in R
    Mengakses informasi dari halaman web seringkali membutuhkan usaha ekstra. Sebenarnya banyak package yang telah tersedia dalam R untuk mempermudah data saintis yang ingin mengakses data tersebut. Artikel ini membahas beberapa di antaranya, lengkap dengan contoh langkah demi langkah penggunaannya.

Rilis Produk

  1. Apache BookKeeper 4.6.0
    Apache BookKeeper 4.6.0 mencakup peningkatan kinerja, sebuah API baru yang menggunakan Builder pattern, sebuah admin API baru, dan masih banyak lagi.
  2. Apache NiFi 1.5.0
    Rilis Apache NiFi 1.5.0 mencakup perbaikan support untuk Apache Kafka, integrasi dengan apache Atlas untuk lineage, perbaikan untuk KErberos handling, integrasi dengan NiFi registry untuk versi dan manajemen definisi flow, dan lain sebagainya.
  3. Apache MADlib 1.13
    Apache MADlib memungkinkan big data machine learning dari SQL. Rilis 1.13 mencakup perbaikan bugs dan fitur-fitur baru, termasuk implementasi HITS dan peningkatan untuk KNN.
  4. Apache Sentry 1.7.1
    Versi 1.7.1 of Apache Sentry dirilis dengan perbaikan security untuk CVE.
  5. Apache Samza 0.14.0
    Rilis 0.14.0 mencakup perbaikan kinerja (dengan RocksDB untuk status lokal, incremental checkpoint dan permintaan asinkronus ke servis eksternal), sebuah API baru untuk complex stream processing, sistem input/output yang pluggable, dan berbagai perbaikan yang memudahkan deployment cluster berskala besar.
  6. Apache HBase 1.4.0
    Apache HBase 1.4.0 mencakup lebih dari 660 issue. Fitur utama termasuk shaded client yang diharap dapat meningkatkan kompatibiltas, peningkatan terhadap autorestart, peningkatan metric RegionServer, dan lain-lain.
  7. Strimzi 0.1.0
    Rilis perdana dari Strimzi, yaitu sekumpulan image dan template konfigurasi untuk mendeploy Apache Kafka di atas Kubernetes/OpenShift.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2018
  • Comments Off on Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017
Apache, Big Data, Hadoop, Implementation

Seputar Big Data – 8 Topik Tutorial dan Artikel Teknis Pilihan 2017

Berikut ini kami sajikan kembali artikel-artikel pilihan selama 2017 dari segmen tutorial dan teknis, yang kami rangkum dalam 8 topik utama.

1. Data Wrangling and Cleaning

Pemrosesan data merupakan tulang punggung big data. Semakin besar dan kompleks data yang diproses, prinsip garbage in-garbage out menjadi semakin penting. Berikut ini beberapa tutorial dan tips data cleansing dan data wrangling.

Pandas Cheat Sheet: Data Science and Data Wrangling in Python
Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

DZone Big Data – Parsing and Querying CSVs With Apache Spark
Bagaimana memecah dan melakukan query data berformat CSV menggunakan Apache Spark dengan menggunakan SQLContext.

Python Pandas Tutorial: DataFrame Basics
DataFrame adalah struktur data yang paling banyak digunakan dalam Python Pandas. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.

Data Cleaning and Wrangling With R
10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

2. Analytics dan Data Science

Data acquisition in R (1/4)
Serangkaian artikel mengenai proses data akuisisi, analisis sampai visualisasi dalam R

Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.

3. Data Visualization

Langkah terakhir dan merupakan suatu hal yang sangat penting dalam data science dan machine learning adalah bagaimana menyajikannya sehingga data tersebut dapat ‘bercerita’. Oleh karena itu visualisasi data menjadi bagian yang penting. Berikut ini beberapa artikel pilihan mengenai tutorial dan contoh kasus yang menarik.

Creating Data Visualization in Matplotlib
Menampulkan beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat ‘bercerita’.

Visualizing Tennis Grand Slam Winners Performances
Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.

Facets: An Open Source Visualization Tool for Machine Learning Training Data
Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.

4. Realtime and Stream Processing

Pemrosesan waktu nyata dan pemrosesan stream merupakan topik yang penting dalam big data, karena semakin banyak sistem yang menghasilkan data dan memerlukan monitoring serta feedback secara realtime. Berikut ini

An Introduction to Kafka Streams
Kafka, secara singkat, adalah sistem fault tolerant distributed publish-subscribe messaging system, yang dirancang untuk pemrosesan data dengan cepat dan memiliki kemampuan untuk menangani ratusan ribu pesan. Kafka Streams adalah library untuk membangun aplikasi streaming yang dapat melakukan transformasi pada aliran data yang masuk.

Streaming in Spark, Flink, and Kafka
Banyak hal yang digaungkan mengenai penggunaan Spark, Flink dan Kafka. Tulisan berikut akan membahas mengenai kelebihan dan perbandingan antara ketiganya.

Performance Tuning of an Apache Kafka/Spark Streaming System
Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.

Self-Learning Kafka Streams With Scala: Part 1
Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala

Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.

5. Benchmark & Comparison

Dengan begitu banyaknya platform, tools, framework dan berbagai komponen yang mendukung big data, salah satu hal yang penting untuk dilakukan untuk menentukan mana yang paling tepat untuk kita adalah dengan melakukan benchmark dan perbandingan. Berikut ini beberapa benchmark dan komparasi, serta sebuah artikel menarik mengenai bagaimana hasil benchmark yang dilakukan Databrick ternyata kurang tepat karena adanya bug dalam data generator yang digunakan.

Performance comparison of different file formats and storage engines in the Hadoop ecosystem
Perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu untuk mengevaluasi efisiensi, ingestion performance, analytic scans and pencarian data secara random pada data layanan CERN Hadoop.

Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.

PyTorch vs TensorFlow — spotting the difference
Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.

Benchmark: Sub-Second Analytics with Apache Hive and Druid
Bagian ke 2 dari artikel ultra fast analytics dengan Apache Druid. Pada bagian ini ditampilkan hasil benchmarking OLAP dengan skala 1TB, dan response time yang benar-benar interaktif.

The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.

6. Machine Learning

Machine learning menjadi salah satu teknologi yang paling banyak berkembang dan diterapkan dalam big data, dan menjadi salah satu keahlian yang akan banyak dibutuhkan dalam tahun-tahun mendatang. Berikut ini beberapa tutorial pengenalan machine learning yang menarik untuk disimak kembali.

A Visual Introduction to Machine Learning
Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.

Top 10 Machine Learning Algorithms for Beginners
Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.

Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.

Machine Learning Exercises in Python: An Introductory Tutorial Series
Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.

Getting Started with TensorFlow: A Machine Learning Tutorial
Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.

7. Deep Learning

Data berukuran sangat besar dengan atribut yang banyak memberi tantangan tersendiri dalam penerapan machine learning. Deep learning kerap kali dipilih karena teknik ini dianggap paling sesuai untuk data dengan karakteristik tersebut. Berikut ini beberapa artikel pilihan mengenai deep learning yang telah disajikan selama 2017.

Deep Learning in Minutes with this Pre-configured Python VM Image
Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.

Deep Learning Zero to One: 5 Awe-Inspiring Demos with Code for Beginners, part 2
Beberapa contoh dan demo aplikasi deep learning yang menarik yang langsung dapat diunduh dan dijalankan. Tanpa matematika. Tanpa teori. Tanpa buku.
Termasuk di dalamnya adalah : Pencarian artis menggunakan perintah suara di Spotify Artist, Symbolic AI Speech Recognition, dan Algorithmia API Photo Colorizer yang dapat mewarnai gambar hitam putih secara otomatis.

Medical Image Analysis with Deep Learning
Sebuah tutorial singkat mengenai dasar image processing, pengenalan dasar format gambar dalam bidang medis dan visualisasi data-data medis. Merupakan artikel pertama dari beberapa seri artikel.

When not to use deep learning
Meskipun telah banyak keberhasilan dalam penerapan Deep Learning, namun ternyata tidak selamanya deep learning menjadi solusi yang tepat. Dalam artikel ini dibahas 4 situasi ketika deep learning justru menjadi penghalang.

8. Case Implementation example

Beberapa contoh implementasi menarik, mulai dari twitter bot, churn modelling sampai GBoard, yang dapat menjadi inspirasi dan motivasi bagi anda yang ingin mengetahui berbagai penerapan big data.

How to set up a Twitter bot using R
Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.

Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.

Feature Engineering for Churn Modeling
Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.

The Machine Intelligence Behind Gboard
Bagaimana Gboard mendeteksi kesalahan ketik dan melakukan autocorrect? Tools yang digunakan sama dengan yang dipakai untuk melakukan speech recognition, yaitu machine learning. Artikel ini mengupas secara teknis bagaimana penerapan machine learning dalam meningkatkan kinerja Gboard.

Log Analytics With Deep Learning And Machine Learning
Paparan yang cukup lengkap dan menarik mengenai deep learning dan machine learning.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 26 / 2017
  • Comments Off on Seputar Big Data Edisi #43
Apache, Artificial Intelligece, Big Data, Hadoop

Seputar Big Data Edisi #43

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan Desember 2017

Artikel dan Berita

  1. Retail: How to Keep it Personal & Take Care of Privacy
    Pemanfaatan informasi pelanggan untuk meningkatkan penjualan adalah hal yang sudah biasa dalam sektor retail. Yang perlu dicermati adalah, dengan semakin canggihnya teknologi pengumpulan, penyimpanan dan pengolahan informasi, bagaimana para pengusaha di sektor ini dapat meningkatkan personalisasi layanan mereka, dengan tetap menjaga privasi para pelanggannya.
  2. How AI can make us better at arguing
    Kemampuan untuk berdebat dan menyampaikan pemikiran adalah salah satu ciri khas manusia. Perdebatan merupakan bagian yang penting dalam berbagai aspek kehidupan, termasuk penentuan kebijakan dalam berbagai bidang. Salah satu yang perlu diwaspadai dalam era teknologi informasi saat ini adalah terbentuknya ‘filter bubbles’ di mana informasi yang kita dapatkan sudah dipersonalisasi atau disesuaikan dengan profil kita oleh penyedia informasi, termasuk Google, Facebook, bahkan media-media online seperti Fox News dan BBC. ARG-Tech, sebuah pusat penelitian di Universitas Dundee bekerja sama dengan BBC Radio melakukan percobaan dengan mendeploy dua jenis ‘teknologi debat’ dengan memanfaatkan data dan AI.
  3. Perkuat Sistem Big Data, Pemerintah Bakal Bangun Government Cloud
    Belanja kebutuhan IT pemerintah, khususnya untuk pengadaan data center semakin meningkat. Namun sejauh ini implementasi dan pemanfaatannya masih belum menyeluruh. Oleh karena itu pemerintah berencana membangun Government Cloud untuk mendorong adopsi teknologi.
  4. Industry Predictions: Main AI, Big Data, Data Science Developments in 2017 and Trends for 2018
    Tahun 2017 hampir berakhir, waktunya merangkum yang telah terjadi selama 2017 dan melakukan prediksi untuk tahun 2018. Berikut adalah kumpulan analisis dan prediksi menarik dari perusahaan terkemuka di bidang AI, Big Data, Data Science, dan Machine Learning: apa yang terjadi pada tahun 2017 dan apa yang mungkin terjadi di tahun 2018.
  5. Understanding the Network Monitoring Needs of Real-Time Data Streaming
    Real time data streaming saat ini semakin menjadi suatu kebutuhan, terutama untuk pemantauan jaringan. Artikel ini memberikan argumen mengenai kebutuhan tersebut, beserta contoh-contoh kasus nyata.
  6. The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers
    Data scientists, data engineers, software engineers, and statisticians adalah beberapa profesi yang populer saat ini. Namun kita terkadang sulit membedakan perbedaan diantara mereka. Artikel ini mencoba mengupas kesamaan dan perbedaan di antara profesi-profesi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Getting Started with TensorFlow: A Machine Learning Tutorial
    Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.
  2. How to Perform Hierarchical Clustering using R
    Salah satu metode clustering yang cukup banyak digunakan saat ini adalah hierarchical clustering. Dalam teknik ini pengelompokan dilakukan secara berjenjang atau hirarkis. Artikel ini membahas secara detail mengenai konsep tersebut serta penerapannya dalam R.
  3. Introducing Heron Streamlets
    Heron kini memiliki Sebuah streamlet API yang yang mensupport model pemrograman tingkat tinggi, yang melengkapi low level API yang sudah dimiliki sebelumnya, yaitu Topology API. Streamletss API ini akan cukup familiar untuk anda yang terbiasa menggunakan sekuens Skala atau Java Stream. Artikel ini memberikan overview mengenai Streamlets lengkap dengan contoh code-nya.
  4. The Plight of the Data Consumer
    Apache Arrow merupakan salah satu project Apache yang populer namun tidak banyak diketahui secara detail, karena digunakan sebagai library internal. Artikel ini menjelaskan mengenai bagaimana Pandas dan library lainnya menggunakan Arrow untuk meningkatkan translasi data dan storage footprint.
  5. Using Hue to interact with Apache Kylin in your cluster or on AWS
    Apache Kylin adalan sistem database OLAP untuk big data, yang mensupport JDBC drivers dan dapat digunakan untuk menjalankan query dari Hue. Artikel ini menjelaskan mengenai langkah-langkah dasar penggunaan Hue dan Apache Kylin di atas AWS cluster.
  6. The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
    Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.
  7. [DATASET] MIT-Adobe FiveK Dataset
    Dataset ini berisi 6 x 5000 image, yang terdiri dari 5000 foto yang diambil dengan kamera SLR oleh beberapa fotografer. Disimpan dalam format RAW, yang berarti lengkap dengan semua informasi yang direkam oleh sensor kamera. Selanjutnya 5 orang mahasiswa seni melakukan retouch menggunakan Adobe Lightroom untuk menghasilkan foto yang lebih artistik, seperti yang biasa dipakai dalam kartu pos.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Apache HBase 1.1.13 is now available for download
    Apache HBase 1.1.13 merupakan rilis terakhir dari stream 1.1, mencakup beberapa perbaikan bug dan peningkatan.
  3. Apache Flink 1.4.0 Release Announcement
    Apache Flink 1.4.0 mencakup perbaikan fitur exactly-once, dan beberapa peningkatan internal lain.
  4. Introducing spark-bam
    Spark-bam adalah sebuah library untuk membaca file berformat BAM, yaitu salah satu format standar untuk data genomic.
  5. Apache Knox 0.14.0 Release
    Apache Knox 0.14.0 diharapkan menjadi versi terakhir sebelum versi 1.0. Rilis kali ini mencakup dukungan proxy Nifi dan Livy, konfigurasi jarak jauh melalui ZooKeeper, peningkatan dukungan untuk Websocket, dan lain-lain.
  6. Upgrade Hadoop version & new file reader
    Kafka-connect-fs adalah library yang mendukung loading data dari file melalui Kafka Connect.
  7.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 20 / 2017
  • Comments Off on [Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn
Artificial Intelligece, Big Data, Implementation, machine learning, Uncategorized

[Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Cara paling cepat untuk menguasai sebuah tool atau platform adalah dengan membuat sebuah end-to-end project yang mencakup langkah-langkah utama dalam implementasi machine learning. Langkah tersebut antara lain adalah : loading data, summary data, evaluasi algoritma dan membuat beberapa prediksi.

Membuat end-to-end project berarti membiasakan diri dengan proses machine learning, dan kasus yang telah dikerjakan dapat menjadi semacam template yang bisa digunakan untuk mengolah berbagai dataset lainnya.

Untuk memulainya tidak perlu menggunakan dataset atau kasus yang terlalu rumit. Anda bisa memilih data yang tersedia di dalam library scikit-learn. Daftar lengkap datasetnya dapat dilihat di sini.

Dalam artikel ini akan digunakan dataset iris sebagai contoh kasusnya.

Dataset iris ini sangat sesuai untuk latihan karena :

  • Ukurannya tidak terlalu besar, yaitu 4 atribut dan 150 row, sehingga tidak akan membebani memori
  • Atributnya sederhana. Seluruh atribut numerik dalam unit dan skala yang sama, sehingga tidak memerlukan transformasi khusus

Meskipun teknik dan prosedur dalam penerapan machine learning sangat bervariasi, namun secara garis besar sebuah project machine learning memiliki tahapan sebagai berikut:

  • Definisi masalah
  • Menyiapkan data
  • Memilih/mengevaluasi algoritma
  • Melakukan tuning untuk memperbaiki hasil
  • enyajikan hasil

Salah satu hal yang paling penting dalam langkah-langkah awal project adalah memahami data. Dalam artikel ini akan disajikan mengenai loading dan beberapa fungsi eksplorasi data untuk melihat bagaimana dataset yang akan kita proses nantinya.

1. Cek Instalasi

Jalankan perintah-perintah berikut untuk mengecek versi package yang terinstall.
Versi yang package yang akan gunakan mestinya lebih baru atau setidaknya sama dengan yang terdapat pada output di bawah ini. Jika versi package anda sedikit tertinggal, mestinya tidak masalah, karena biasanya API-nya tidak terlalu banyak berubah. Anda masih dapat menjalankan code yang ada dalam latihan di bawah ini. Tapi jika ingin memperbaharui package yang ada, langkah update package dapat dilihat di posting sebelumnya.

Belajar_ML_2

Output yang didapatkan kurang lebih sbb (versi bisa berbeda):

Belajar_ML_2

Berikutnya adalah loading package yang akan digunakan. Lakukan import untuk mengecek apakah instalasi sudah ok. Jika terdapat error, stop dan resolve. Package di bawah ini perlu untuk menjalankan latihan dalam artikel ini.

Petunjuk setting environment bisa dilihat di posting sebelumnya. Jika terdapat pesan error yang spesifik, anda bisa mencari cara resolve-nya di forum-forum seperti Stack Exchange (http://stackoverflow.com/questions/tagged/python).

Belajar_ML_2

2. Loading Data

Jika langkah di atas berjalan dengan baik, load dataset iris dari package sklearn dengan menjalankan fungsi berikut:

Belajar_ML_2

Tips : Untuk mengetahui jenis sebuah object atau fungsi dalam python, kita bisa mengetikkan nama object atau fungsi yang ingin kita ketahui, diikuti tanda tanya, seperti pada contoh berikut :

Belajar_ML_2

Outputnya adalah informasi dari object tersebut, seperti berikut:

Belajar_ML_2

Untuk mengetahui apa saja yang terdapat di dalam dataset iris, tampilkan seluruh keys dalam dataset tersebut dengan perintah berikut ini:

Belajar_ML_2

Outputnya berupa daftar dari keys atau kata kunci yang terdapat dalam dictionary:

Belajar_ML_2

Dari outputnya kita dapat mengetahui bahwa dalam dataset iris terdapat key berikut : data, target, target_name, DESCR dan feature_names. Kita dapat mengakses dan menampilkan value-nya dengan key tersebut. Misalnya untuk menampilkan deskripsi dataset, lakukan sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Seperti tampak pada deskripsi di atas, dataset iris memiliki 4 atribut numerik : sepal length, sepal width, petal length, dan petal width.

Terdapat 3 jenis spesies (class), yaitu

  • Iris-Setosa
  • Iris-Versicolour
  • Iris-Virginica

Terdapat 150 entry (150 rows data), yang terbagi rata ke dalam 3 kelas tersebut.

Atribut disimpan di elemen “data”, dan kelas/species di elemen “target”. Keduanya bertipe numerik.

Kita lihat bentuk datanya, dengan ‘mengintip’ beberapa baris data dan target, dengan command berikut:

Belajar_ML_2

Dari output di bawah terlihat bahwa format data adalah numerik, dan nilai target menunjukkan indeks dari array target_names.

Belajar_ML_2

3. Convert dataset ke dalam Pandas DataFrame

Untuk memudahkan pemrosesan dan eksplorasi data, kita akan mengubah dataset tersebut ke dalam format pandas DataFrame.

Pandas adalah package yang dibangun di atas library numPy. Pandas menyediakan data struktur yang efisien dan fleksibel, yang dirancang untuk melakukan analisis data dalam Python.
Keterangan lebih lanjut mengenai pandas dan berbagai object di dalamnya dapat dilihat di sini (https://pandas.pydata.org/pandas-docs/stable/)

Berikut ini command untuk mengubah dataset iris menjadi Pandas Dataframe:

Belajar_ML_2

4. Eksplorasi Dataset

Beberapa hal yang akan kita lakukan adalah :

  • Melihat dimensi dataset
  • Contoh datanya
  • Ringkasan statistik semua atribut
  • Mengelompokkan data berdasar variabel target

Yang pertama kita lihat dimensi datanya (jumlah row dan kolom) dengan menggunakan atribut shape

Belajar_ML_2

Output:
Belajar_ML_2

Selanjutnya kita ‘intip’ contoh data dengan menggunakan fungsi head. Dari sini terlihat dataset kita memiliki 4 atribut numerik dan 1 atribut string.

Belajar_ML_2

Output:

Belajar_ML_2

Statistical Summary

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean, nilai minimum dan maksimum, serta nilai2 persentilnya.

Belajar_ML_2

Dari summary tersebut terlihat bahwa seluruh nilai numerik memiliki skala yang sama (yaitu dalam cm), dan memiliki range yang serupa juga, yaitu antara 0 sampai 8 cm.

Belajar_ML_2

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya berdasarkan kelas sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Terlihat bahwa data terbagi menjadi 3 kelas dengan jumlah yang sama, yaitu masing-masing 50 row.

Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya. Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam bentuk boxplot.

Belajar_ML_2

Belajar_ML_2

Kita juga bisa melihat sebaran datanya dengan bentuk histogram.

Belajar_ML_2

Belajar_ML_2

Dari histogram di atas tampak bahwa setidaknya ada 2 variabel yang kemungkinan memiliki sebaran normal. Asumsi ini dapat kita jadikan pertimbangan ketika memilih algoritma nantinya.

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal.

Belajar_ML_2

Belajar_ML_2

Setelah kita mendapat gambaran mengenai dataset yang akan kita proses, kita siap melakukan testing dan tuning algoritma.

Versi Jupyter notebook dari latihan ini dapat di unduh di :
https://github.com/urfie/belajar-python/blob/master/Belajar%20Machine%20Learning%20-%20Load%20and%20Explore%20Dataset.ipynb

Sumber : https://machinelearningmastery.com/machine-learning-in-python-step-by-step/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Dec 15 / 2017
  • Comments Off on Seputar Big Data Edisi #42
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, Uncategorized

Seputar Big Data Edisi #42

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 2 bulan Desember 2017.

Artikel dan Berita

  1. How To Think About Artificial Intelligence In The Music Industry
    Ulasan mengenai penerapan AI di dalam industri musik. Jenis data apa saja yang penting, serta apa tantangan dan peluangnya, dengan berbagai contoh menarik dari Youtube, Spotify, dan lain sebagainya.
  2. Machine learning at Spotify: You are what you stream
    Wawancara dengan head of data solution Spotify. Beberapa hal yang dibahas adalah bagaimana membentuk, memanage dan mengembangkan sebuah data team, dan bagaimana Spotify membangun sistem rekomendasi mereka.
  3. Australian genome researchers solving big data problems
    Genomics merupakan sebuah bidang yang menghasilkan data luar biasa besarnya. Untuk mengatasi permasalahan tersebut para peneliti di bidang ini membangun sebuah tool berbasis cloud.
  4. Using Big Data to transform business processes
    Menurut survey IDC, investasi di bidang big data dan teknologi analytics akan mencapai 187 miliar US$ pada 2019, meningkat 50% dari tahun 2015. Dengan jumlah yang fantastis tersebut, bagaimana big data dapat bermanfaat dalam proses bisnis?
  5. Six ways (and counting) that big data systems are harming society
    Sebuah teknologi yang disruptive seperti big data tentu tidak hanya membawa manfaat bagi manusia, namun juga membawa dampak negatif. Data Justice Lab, sebuah pusat penelitian Jurnalistik, Media dan Budaya Universitas Cardiff, mencatat berbagai kasus kerugian akibat penggunaan big data, seperti misalnya penyalahgunaan informasi pribadi, diskriminasi, dan lain sebagainya.
  6. New big data trend tracks ‘digital footprints’
    ‘Process mining’ adalah salah satu teknik yang mulai banyak digunakan oleh perusahaan, termasuk diantaranya GM, Airbus, KPMG dan UBS untuk mengotomasi berbagai proses dan beradaptasi dengan digitalisasi industri. Teknik ini dimungkinkan dengan adanya pencatatan dan pengumpulan data-data digital yang didukung oleh teknologi big data.
  7. 10 Great Reads for Small Biz Owners Afraid to Conquer Big Data
    Banyak perusahaan kecil dan menengah yang menganggap bahwa big data hanya sesuai untuk perusahaan besar saja, sehingga mereka enggan untuk memanfaatkannya. Berikut ini 10 buku yang dapat memotivasi para pengusaha kecil dan menengah untuk mempelajari dan menerapkan big data bagi keunggulan kompetitif mereka.

Tutorial dan Pengetahuan Teknis

  1. Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction
    Pengenalan singkat dan mudah tentang bagaimana menggunakan Scikit-learn Pipelines untuk membuat dan mengatur alur kerja machine learning. Merupakan bagian 1 dari sebuah artikel serial.
  2. Problems With Kafka Streams
    Kafka Stream adalah platform pemrosesan stream yang mudah dan handal. Aplikasi yang menggunakan Kafka Streams pun dapat dijalankan di hampir semua environment. Namun demikian, seperti halnya segala hal di muka bumi ini, library Kafka tidaklah sempurna. Apa saja permasalahan yang biasa dihadapi dalam penggunaan library Kafka?
  3. Difference Between Classification and Regression in Machine Learning
    Penjelasan yang sangat baik dan mudah difahami mengenai perbedaan antara klasifikasi dan regresi dalam machine learning.
  4. Connecting R to Keras and TensorFlow
    Tutorial mengenai bagaimana menghubungkan R ke Keras dan TensorFlow, lengkap dengan contoh dan dokumentasi.
  5. Big Data and Container Orchestration with Kubernetes (K8s)
    Artikel ini menjelaskan beberapa tantangan dalam mengadopsi Kubernetes (k8) untuk Hadoop stack. k8s pada dasarnya ditujukan untuk aplikasi stateless, sehingga cocok untuk HDFS dan aplikasi penyimpan data lain. Dijelaskan pula mengenai sebuah prototipe yang dibuat BlueData untuk mendeploy Hadoop dengan k8 melalui EPIC.
  6. Processing HL7 Records
    Tutorial mengenai proses ingestion dan transformasi data dari format HL7 (standar internasional untuk data kesehatan) ke dalam Apache Hive untuk dimanfaatkan dalam machine learning dan analisis pada data lake Hadoop.
  7. [FREE EBOOK] Think Stats – Probability and Statistics for Programmers
    Pengantar probabilitas dan statistik untuk programmer Python. Menekankan pada teknik-teknik sederhana yang dapat Anda gunakan untuk mengeksplorasi dataset dan menjawab berbagai pertanyaan menarik. Buku ini menyajikan studi kasus menggunakan data dari National Institutes of Health. Pembaca didorong untuk mengerjakan sebuah proyek dengan dataset yang sebenarnya.
  8. [DATASET] Default of Credit Card Clients Data Set
    Saat ini prediksi default kartu kredit dengan machine learning sudah mulai banyak dilakukan. Dataset berikut ini mencakup data demografi, riwayat pembayaran, kredit, dan data default.

Rilis Produk

  1. Druid 0.11.0
    Druid 0.11.0 mencakup beberapa fitur baru yang major, termasuk support TLS, ekstensi cache Redis, dan berbagai peningkatan untuk Druid SQL dan kinerja GroupBY.
  2. Apache MiNiFi C++ 0.3.0
    Apache MiNiFi C++ versi 0.3.0 dirilis, namun belum dianggap siap untuk production. Versi ini memiliki beberapa fitur termasuk dukungan untuk menulis langsung ke Kafka.
  3. DeepVariant: Highly Accurate Genomes With Deep Neural Networks
    Google merilis DeepVariant ke komunitas open source. DeepVariant adalah variant caller berbasis deep learning yang memanfaatkan framework Inception dari TensorFlow, yang pada mulanya digunakan untuk melakukan klasifikasi image.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 14 / 2017
  • Comments Off on Seputar Big Data Edisi #41
Apache, Big Data, IoT, Spark, Uncategorized

Seputar Big Data Edisi #41

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Desember 2017

Artikel dan Berita

  1. Uber’s Uber Breach: A Stunning Failure In Corporate Governance And Culture
    Ketika Uber mengetahui data mereka bocor di akhir 2016 lalu, selain tidak memperingatkan pihak-pihak yang terkena dampaknya, mereka juga berusaha berkonspirasi untuk menutupi kasus tersebut. Bahkan mereka pun bersedia membayar hacker/pemeras yang membobol data mereka dalam usaha menyembunyikannya. Dalam artikel ini Forrester mengupas mengenai kasus tersebut.
  2. The Marine Biologist Using Big Data to Protect Ocean Wildlife
    Bagaimana para ahli biologi kelautan menggunakan big data untuk menjaga keragaman dan keseimbangan hayati kelautan dengan membangun beberapa platform untuk memonitor berbagai ancaman terhadap ekosistem laut.
  3. Big Data in Marketing; 5 Use Cases – There Are a Lot More Than Just Five
    5 contoh penggunaan big data dalam bidang marketing.
  4. Big data: Three ways to turn business intelligence into a business advantage
    Besarnya informasi yang dimiliki sebuah organisasi tidak selalu sejalan dengan jumlah insight yang mereka dapatkan. Dalam artikel ini CIO perusahaan retail House of Fraser memaparkan mengenai strategi mereka dalam menempatkan BI dan AI sebagai pendukung utama dalam pengambilan keputusan dalam perusahaan.

Tutorial dan Pengetahuan Teknis

  1. Graph Analytics Using Big Data
    Sebuah overview dan tutorial singkat mengenai bagaimana melakukan analisis graph menggunakan Apache Spark, graphframe dan Java.
  2. From lambda to kappa and dataflow paradigms
    Sebuah tinjauan singkat mengenai evolusi kerangka pemrosesan data dalam beberapa tahun terakhir ini, mulai dari framework yang sudah muncul lebih dulu (misalnya Storm dan Samza) serta beberapa framework baru seperti Beam, Spark, dan Flink.
  3. Comparing Pulsar and Kafka: unified queuing and streaming
    Overview mengenai Apache Pulsar (incubating) dan perbandingannya dengan Apache Kafka.
  4. scikit-learn: Creating a Matrix of Named Entity Counts
    Artikel yang menjelaskan mengenai implementasi model menggunakan named entities dan polyglot NLP library dari scikit-learn untuk mengikuti kompetisi Kaggle Spooky Author Identification.
  5. Transfer learning from multiple pre-trained computer vision models
    Dalam deep learning, sebuah model perlu dilatih menggunakan data yang besar untuk dapat digunakan. Semakin besar data yang digunakan untuk training model, semakin baik kinerjanya untuk data baru. Salah satu metode yang paling murah dan praktis adalah dengan ‘transfer learning’. Artikel ini menjelaskan bagaimana menggunakan model computer vision yang sudah ditraining, dalam keras TensorFlow abstraction library.
  6. Data acquisition in R (3/4)
    Seri ke 3 dari 4 artikel yang menjelaskan dengan sangat baik mengenai akuisisi data (loading, preproses, analisis dan visualisasi) dalam R, terutama data-data yang berhubungan dengan demografi.
  7. [FREE EBOOK] The Ultimate Guide to Basic Data Cleaning
    Data cleansing atau data cleaning merupakan langkah yang sangat penting dalam pengolahan data, karena kualitas insight yang dihasilkan dari proses analisis tergantung dari kualitas datanya. Ebook ini menjelaskan mengenai dasar-dasar data cleaning dalam 8 bab yang singkat, dilengkapi dengan contoh kasus.
  8. [DATASET] IMDB 5000 Movie Dataset
    Dataset yang digunakan untuk mengeksplorasi kemungkinan untuk memprediksi popularitas sebuah film sebelum film tersebut dirilis.

Rilis Produk

  1. Apache ZooKeeper 3.4.11
    Rilis Apache ZooKeeper 3.4.11 mencakup beberapa bug fixes dan peningkatan kinerja.
  2. Apache BooKeeper 4.5.1 Released
    Versi 4.5.1 dari Apache BooKeeper dirilis minggu ini. Di dalamnya terdapat penyelesaian terhadap beberapa bug kritikal.
  3. Apache Bigtop 1.2.1
    Apache Bigtop 1.2.1 dibangun di atas JDK8 dan mencakup Docker provisioner serta peningkatan pada beberapa project ekosistemnya.
  4. Burrow 1.0.0 Released
    Burrow adalah tool monitoring untuk Apache Kafka. Versi 1.0.0 yang baru-baru ini dirilis mencakup beberapa fitur baru dan perbaikan bugs.
  5. StreamSets Data Collector 3.0
    StreamSet merilis versi 3.0 dari SDC (StreamSet Data Collector), dan Data Collector Edge yang baru. Data Collector Edge adalah versi lightweight binary dari SDC. SDC versi 3.0 mencakup beberapa fitur baru yang berhubungan dengan Kafka, Google Cloud, Oracle CDC, MapR, dan lain sebagainya.
Pages:1234567...12
Tertarik dengan Big Data beserta ekosistemnya? Gabung