:::: MENU ::::

Posts Categorized / Uncategorized

  • Mar 13 / 2017
  • Comments Off on Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 1]
Uncategorized

Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 1]

Banyak tantangan-tantangan Big Data di berbagai bidang yang dapat diselesaikan dengan Hadoop, tak terkecuali pada bidang BioInformatika. DNA Sequence aligment yang merupakan salah satu area dalam bioinformatika, adalah sebuah proses untuk membandingkan dua atau lebih DNA sequence yang berbeda dengan cara mencari kesesuaian pola karakter pada suatu urutan yang sama. Berikut ini merupakan sebuah studi kasus dalam penerapan algoritma DNA sequence menggunakan MapReduce, yang disarikan dari sebuah tugas akhir berjudul SEQUENCE ALIGNMENT SECARA PARALEL MENGGUNAKAN MAPREDUCE DI ATAS HADOOP DISTRIBUTED FILE SYSTEM (HDFS) karya Rusnah Setiani, dari Program Studi Teknik Informatika Fakultas Sains dan Teknologi, Universitas Al Azhar Indonesia.

Masalah

Salah satu kegiatan yang dilakukan dalam bidang bioinformatika adalah pembentukan phylogenetic tree, yaitu sebuah diagram yang menunjukkan hubungan evolusi antar organisme. Hubungan evolusi organisme tersebut diperoleh dengan menganalisis hubungan antara leluhur dan keturunannya dengan cara membandingkan gen yang berasal dari spesies yang akan diteliti.

Saat ini Universitas Al Azhar Indonesia melakukan penelitian mengenai pairwise sequence alignment yang merupakan tahap untuk membentuk phylogenetic tree.

Salah satu permasalahan yang dihadapi dalam penelitian tersebut ditemui dalam pemrosesan sequence alignment. Proses ini dilakukan dengan cara memilih dua sekuens yang terdapat pada genbank Universitas Al Azhar Indonesia, dan dilakukan dengan single processing.Keterbatasan penelitian tersebut yaitu untuk memproses sekuens yang memiliki panjang 214 residu untuk sekuens pertama dan 208 residu untuk sekuens kedua, dengan scoring scheme untuk gap bernilai 0, program tidak dapat berjalan dikarenakan adanya stack overflow. Terdapat dua penyebab terjadinya stack overflow, yaitu banyaknya recursive yang dilakukan dan banyaknya nilai yang disimpan pada stack.

Untuk mengatasinya, penulis mengembangkan penelitian tersebut dengan melakukan proses sequence alignment secara paralel menggunakan MapReduce di atas Hadoop distributed system. Di samping mengatasi keterbatasan di atas, pemrosesan secara paralel juga memungkinkan proses alignment tidak terbatas hanya membandingkan 2 sekuens saja (pairwise alignment). Proses alignment dapat dilakukan dengan membandingkan input sekuens dengan semua data yang terdapat dalam genbank, yang disebut dengan multipairwise alignment.

Solusi/Metodologi

Pembuatan sequence alignment untuk sekuens DNA dengan pendekatan pemograman dinamik secara iteratif menggunakan algoritma Needleman- Wunsch, yang menghasilkan global alignment. Input file yang akan dilakukan proses alignment dalam format FASTA. Output file disimpan ke dalam Hadoop Distributed File System (HDFS).

Data Reference

Sebagai data reference, dibuat sebuah genbank yang disimpan di dalam HDFS. Data diambil dari NCBI (National Center for Biotechnology Information). Data ini yang nantinya akan digunakan sebagai pembanding untuk sequence yang akan di-align.

Bagian Implementasi dan Ujicoba akan di lanjutkan pada Bagian dua, jangan sampai terlewatkan ya 🙂
  • Mar 07 / 2017
  • Comments Off on Seputar Big Data Edisi #8
Uncategorized

Seputar Big Data Edisi #8

Seputar Big Data edisi #8

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Februari dan awal Maret 2017
  1. JPMorgan Software Does in Seconds What Took Lawyers 360,000 Hours
    Sebuah program yang disebut COIN, Contract Intelligent, dikembangkan oleh JPMorgan, merupakan sebuah machine learning program yang mampu mereview dokumen kontrak dengan sangat cepat, yang sebelumnya dikerjakan membutuhkan waktu ratusan jam.
  2. The Difficulties of Teaching Wall Street About Big Data
    Sebuah wawancara Leigh Drogan, founder dan CEO Estimize, mengenai bagaimana sulitnya mengedukasi dan bagaimana menggunakannya secara efektif Big Data di Wall Street
  3. When the Big Lie Meets Big Data
    Masih mengenai studi kasus tentang pemilu Amerika Serikat. Menurut Joseph Goebbels, Reich Miniter of Propaganda Nazi, jika sebuah ketidakbenaran terus dibesar-besarkan dan diulang-ulang, maka orang akhirnya akan mempercayainya. Tidak demikian di era Big Data saat ini, sedikit ketidakbenaran dengan bantuan machine learning, akan menjadi lebih efektif.
  4. MWC 2017: Barcelona trial uses IoT and big data to manage tourists
    Pada Mobile World Congress (MWC) lalu, kota Barcelona melakukan sebuah proyek ujicoba IoT dan Big Data untuk mengelola pergerakan dan meningkatkan pengalaman turis di gereja Sagrada Familia.
  5. Why Big Data Kills Businesses
    Walaupun Big Data telah diakui sebagai penyelamat bisnis, pada kenyataannya data merupakan ancaman yang membunuh. Data tidak serta merta dapat digunakan dan menghasilkan keuntungan, akan tetapi banyak permasalahan yang timbul akibat data.
  6. Big Data, IoT Key to Fixing Crumbling Water Infrastructure, Reducing Operating Costs
    Penerapan pengelolaan air berbasis smart technology semakin meluas. Tidak hanya pemerintahan kota dan perusahaan utilitas, namun juga perusahaan lain yang menggunakan air dalam jumlah besar. Hal ini dilakukan dalam rangka pengurangan biaya penggunaan air dan pelestarian lingkungan. Sektor ini diproyeksikan akan tumbuh sampai US$12 milyar di Amerika dan US$11 milyar di Eropa.
  7. Fighting Illegal Fishing With Big Data
    Global Fishing Watch menggunakan data satelit untuk memantau aktifitas kapal yang mencurigakan di laut.

Tutorial dan pengetahuan teknis

  1. Bringing HPC Algorithms to Big Data Platforms
    Sebuah video presentasi dari Nikolay Malitsky dari Brookhaven National Laboratory pada acara SPARK Summit East 2017 lalu, membahas mengenai akstensi MPI-based pada Spark.
  2. Make your R simulation models 20 times faster
    R akan menjadi sangat lambat jika menggunakan loop. Namun hal ini dapat dipercepat secara signifikan, sekitar 20 kali, dengan menggunakan paket Rcpp.
  3. HBase Compaction and Data Locality With Hadoop
    Pengumpulan data Geospatial memungkinkan developer dan para profesional untuk mengembangkan pendekatan yang paling efisien dan biaya yang efektif untuk memenuhi kebutuhan yang spesifik.
  4. Ushering in a New Tech Era for Geospatial Data
    Pemanfaatan geospasial data membuka kemungkinan untuk solusi-solusi yang efisien dan efektif. Berikut ini dibahas beberapa hal yang perlu menjadi pertimbangan dalam pemanfaatan data geospasial.
  5. Building Data Science Skills as an Undergraduate
    Keahlian dalam bidang data sains saat menjadi suatu modal yang sangat penting terutama bagi para pencari kerja. Artikel ini memberikan sedikit tips mengenai bagaimana memulai membangun skill di bidang ini.

Rilis produk

  1. Apache Accumulo 1.8.1 released
    Rilis ini mencakup perubahan dan perbaikan untuk lebih dari 40 issue, terdiri dari bug-fixes, perbaikan kinerja, peningkatan kualitas build, dan lain-lain.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 20 / 2017
  • Comments Off on Seputar Big Data Edisi #6
Uncategorized

Seputar Big Data Edisi #6

Seputar Big Data edisi #6

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Februari 2017

Artikel dan berita

  1. International Hadoop Market 2020 – Key Vendors Landscape, Trends, Challenges, and Drivers, Analysis, & Forecast
    Hadoop Market Reaserch Report adalah sebuah studi yang mendalam dan profesional tentang keadaan pasar dan implementasi Hadoop saat ini, dan juga berfokus pada faktor pendorong utama dan hambatan bagi pemain kunci di area ini. Pasar Hadoop secara global diprediksikan akan tumbuh sekitar 59,37% CAGR selama periode 2016 - 2020
  2. 4 trends in how supply chains are using Big Data
    Penggunaan dataset yang besar untuk tujuan analisa dan perencanaan pada area rantai pasokan (suply chain) membuat organisasi dapat bereaksi lebih cepat terhadap perubahan di berbagai titik. Berikut adalah tren penggunaan Big Data dalam area suply chain.
  3. Microsoft’s future is in the cloud
    Dua raksasa teknologi, Apple dan Microsoft, merupakan perusahaan yang masuk dalam daftar "2017's most innovative companies". Saat ini Microsoft banyak berinvastasi dan mendorong penggunaan cloud, baik private cloud maupun public cloud

Tutorial dan pengetahuan teknis

  1. A comparison of deep learning packages for R
    Perbandingan secara mendalam antara 4 package R untuk deep learning. Package yang direview adalah MXNet, darch, deepnet dan h2o. Dalam studi tersebut dibandingkan aspek fleksibilitas, kemudahan penggunaan, dukungan kerangka paralelisasi (GPU, cluster), dan kinerja.
  2. Apache Arrow and Apache Parquet: Why We Needed Different Projects for Columnar Data, On Disk and In-Memory
    Apache Arrow dan Apache Parquet sama-sama berfokus pada perbaikan kinerja dan efisiensi data analytics. Kedua project ini mengoptimasi kinerja untuk pemrosesan dalam disk dan dalam memori. Artikel ini mengulas mengenai peran kedua project tersebut dalam peningkatan performance pemrosesan big data analytics.
  3. Introduction to Natural Language Processing, Part 1: Lexical Units
    Berikut ini artikel yang mengeksplorasi konsep NLP. Pada bagian pertama kali ini, dimulai dengan pengenalan terhadap bidang NLP, serta penjelasan mengenai bagaimana mengidentifikasi unit leksikal sebagai bagian dari data preprocessing.

Rilis produk

  1. Apache Hadoop 3.0.0-alpha2 Released
    Apache Hadoop versi 3.0.0-alpha2 telah dirilis akhir Januari 2017 lalu. Rilis ini merupakan rilis alpha kedua dari rangkaian dari Hadoop versi 3, berisi 857 big fix, perbaikan dan penambahan fitur dibandingakn versi sebelumnya.
  2. Performance improvements coming to R 3.4.0
    R versi 3.4.0 sedang direncanakan untuk dirilis yang akan membawa banyak perbaikan kinerja dan fitur baru. Sementara itu R 3.3.3 (codename: Another Canoe) direncanakan akan dirilis bulan Maret 2017 hanya akan memperbaiki bug yang bersifat minor.
  3. Announcing TensorFlow 1.0
    TensorFlow 1.0 diumumkan pada acara tahunan TensorFlow Developer Summit pada 15 Februari lalu.
  4. Yahoo open-sources TensorFlowOnSpark for deep learning with big data
    Yahoo mengumumkan mengopensourcekan TensorFlowOnSpark, sebuah software yang digunakan supaya Google TensorFlow framework dapat berjalan diatas klaster Spark
  5. Making Google Data Studio Free for Everyone
    Tahun lalu, Google merilis Data Studio baik versi gratis maupun versi enterprise. Untuk lebih mengoptimalkan Data Studio, saat ini Google sudah tidak membatasi jumlah laporan (report). Pengguna dapat membuat dan membagikan sebanyak mungkin laporan sesuai kebutuhan dan semuanya gratis.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 23 / 2016
  • Comments Off on Persembahan idBigData untuk Indonesia
Big Data, Forum Info, Komunitas, Uncategorized

Persembahan idBigData untuk Indonesia

Komunitas big data Indonesia telah sukses menggelar konferensi big data terbesar di Indonesia untuk yang ke 3 kalinya pada 7 dan 8 Desember 2016 lalu. Konferensi yang dihadiri sekitar 400 peserta ini diselenggarakan di di Auditorium Gedung BPPT, Jakarta, dan menampilkan 30 pembicara.

Konferensi Big Data Indonesia merupakan event tahunan yang diadakan oleh idBigdata, dan selama 3 tahun ini selalu konsisten dalam usaha mendorong perkembangan dan pemanfaatan big data di Indonesia. Menurut Sigit Prasetyo, chairman IDBigData sekaligus ketua panitia, KBI2016 adalah ajang show-off bagi berbagai pihak di dalam negeri untuk menunjukkan bahwa bangsa Indonesia sangat mampu untuk mengembangkan dan menerapkan big data dan berbagai teknologi yang mendukungnya.

Besarnya potensi data dan kebutuhan teknologi big data di dalam negeri diungkapkan Neil L Himam dari Bekraf, bahwa pada tahun 2020 mendatang di Indonesia diperkirakan akan ada sekitar 1,7 milyar perangkat terhubung ke internet of things, yang tentunya akan memproduksi data yang sangat besar. Nilai komersialisasi data sendiri bukanlah jumlah yang kecil, misalnya kapitalisasi pasar Facebook saat ini adalah USD 340 miliar, sedangkan ‘warga’ Facebook dari Indonesia sebanyak 77 juta, setara dengan USD 15 miliar atau Rp. 200 Triliun. Contoh lain adalah GOJEK, dengan jumlah pengemudi lebih dari 20 ribu dan aplikasi terinstall melebihi 10 juta, saat ini membukukan setidaknya 20 juta transaksi per bulan. Hal tersebut menunjukkan potensi pemanfaatan big data untuk mendorong tumbuhnya ekonomi kreatif sangat besar.

Indonesia sebenarnya memiliki banyak potensi dan kemampuan dalam pengembangan maupun penerapan big data, seperti disampaikan oleh Beno K. Pradekso, CEO Solusi247, bahwa big data yang banyak didukung oleh teknologi open source, memungkinkan siapapun untuk dapat mengembangkan dan memanfaatkannya. Seperti yang selama ini sudah dilakukan oleh Solusi247, yang telah berhasil membuat berbagai tools untuk big data processing, maupun big data analytics, yang sudah diimplementasikan oleh beberapa perusahaan besar di Indonesia.

Wisnu Jatmiko, Manager Riset Fakultas Ilmu Komputer Universitas Indonesia menyampaikan hal senada, yaitu bahwa Indonesia sebenarnya sangat mampu untuk mengembangkan berbagai peralatan, algoritma maupun berbagai teknologi modern lainnya, seperti misalnya yang telah dikembangkan oleh team peneliti dari indonesia dalam bidang telehealth. Dalam serangkaian penelitian ini telah berhasil dikembangkan berbagai alat maupun algoritma yang dapat digunakan untuk melakukan USG maupun EKG secara otomatis, bahkan alat EKG ini telah berhasil mendapat penghargaan di level asia pasifik.

Tampil pula Oskar Riandi, CEO Bahasa Kita, yang menampilkan teknologi voice analytics. Oskar menyampaikan bahwa multimedia adalah bagian terbesar dari big data, namun saat ini penggalian dan pengolahannya masih sangat minim. Dalam pemaparannya disampaikan mengenai berbagai contoh pemanfaatan dan pengolahan data suara, khususnya yang telah berhasil dilakukan dengan menggunakan tools yang dibuat oleh Bahasa Kita.

Konferensi Big Data Indonesia 2016 juga menampilkan beberapa pembicara yang membagi pengalaman, tip dan insight mengenai implementasi big data dalam perusahaan mereka, di antaranya adalah Tina Lusiana, IT Data Analyst dari PT Telkomsel, perusahaan yang saat ini memiliki cluster Hadoop terbesar di Indonesia dengan lebih dari 300 nodes. Telkomsel merupakan operator telekomunikasi terbesar ke-15 di dunia, sehingga data yang diproses sangat besar, dan big data, khususnya Hadoop menjadi solusi pengolahan data yang ekonomis untuk diterapkan dalam skala besar. Hadoop cluster dapat mendukung kebutuhan pengolahan data dan analytics untuk memperbaiki layanan, merumuskan strategi marketing, maupun mendeteksi fraud. Salah satu peningkatan yang didapatkan dengan penggunaan customer profiling dan campaign, adalah adanya peningkatan recharge sebesar 13 Milyar rupiah.

Pemanfaatan big data untuk pembangunan kota, yang biasa disebut dengan smart city disampaikan oleh Setiaji, Head of Jakarta Smart City. Pembicara lain yaitu Aldila Septiadi, Digital & Data Analytics Manager, PT Danone Indonesia, yang menyampaikan mengenai inovasi disruptive dalam bisnis FMCG. Dari bidang perbankan, tampil Febrianto, Team Leader Data Analyst and Insight PT. Bank Mandiri, menyampaikan mengenai transformasi bisnis melalui data analytics yang dilakukan oleh bank Mandiri.

Dari sisi pembentukan sumber daya, khususnya data scientist, tampil Komang Budi Aryasa, Deputy Research & Big Data, Pt Telkom Indonesia, mengulas mengenai peran seorang Chief Data Scientist. Menurut Komang, seorang data scientist memiliki peran yang luas dalam proses bisnis modern, baik dari sisi teknis maupun bisnis, mulai dari pendefinisian produk dan visi, sampai pada penerapan teknologi untuk memaksimalkan gross margin. Tampil pula Ainun Najib, Head Of Data, Traveloka, yang membawakan mengenai role dan skillset yang diperlukan dalam sebuah data team.

Dihadirkan pula beberapa showcase yang diantara menampilkan pemanfaatan tools maupun platform big data, di antaranya Big Data Lake, Big Data Document, Business Data Science, dan Big Data for Geospatial, yang disampaikan oleh pembicara-pembicara dari Labs247, Montis Advisory, dan Badan Informasi Geospatial Indonesia (BIG).

Untuk lebih lengkapnya, dapat dilihat melalui channel IDBigData, di (https://www.youtube.com/watch?v=GF16B6uepC0&list=PLzPU503u40ymTwuknU3yKgMPWN2d_6XpM)

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 26 / 2016
  • Comments Off on [Flashback video 2015]
Big Data, Forum Info, Komunitas, Uncategorized

[Flashback video 2015]

Why Local Distro?

Saat ini makin banyak perusahaan yang beralih ke teknologi open source. Bahkan vendor-vendor besar pun mulai ikut terjun dalam penggunaan dan pengembangan software open source.

Beberapa motivasinya adalah:
  • akses source code, dan menjamin keberlangsungannya meskipun jika vendor penyedianya tidak survive
  • kemudahan integrasi
  • tidak ada vendor lock-in
  • lebih cost efficient karena tidak ada biaya license
Dan lain sebagainya.

Big Data sebagai teknologi yang banyak didukung software open source membuat biaya investasi untuk implementasi lebih rendah. Hortonwork menyatakan, penggunaan Hadoop dapat memberikan penghematan sampai 100x. Seperti yang kita ketahui, Hadoop dapat menggunakan server commodity atau server berbiaya ekonomis, sehingga di samping penghematan dari sisi software terdapat penghematan dari sisi hardware.

Big data adalah teknologi yang akan sustain, karena digunakan oleh banyak perusahaan besar. Yahoo! misalnya, saat ini memiliki lebih dari 40.000 nodes. Di Indonesia sendiri, di tahun 2015 cluster Hadoop terbesar dimiliki oleh Telkomsel, yaitu sekitar 300 nodes.

Demikian yang dikatakan oleh salah satu pembicara dalam Konferensi Big Data Indonesia 2015, Beno Kunto Pradekso, CEO Solusi247.

Disampaikan juga contoh kasus dari Splice Machine, yang mengklaim dirinya sebagai “the first Hadoop RDBMS”. Splice Machine menyatakan dapat menggantikan Oracle dengan kecepatan 20x dan biaya ¼-nya. Dan jika dilihat komponen di dalam Splice Machine, ternyata banyak di antaranya adalah software-software open source dari Apache.org. Hal semacam ini sebenarnya mungkin sekali untuk dilakukan di dalam negeri. Lisensi Apache.org memungkinkan siapapun untuk mengembangkan dan memasarkan software open source tersebut.

Penggunaan software open source sendiri bukan berarti tidak ada biaya sama sekali, sebab di samping implementasi, hampir semua perusahaan mensyaratkan adanya support resmi untuk softwarenya. Support inilah yang saat ini sebagian besar masih didapatkan dari luar negeri. Padahal cluster Hadoop biasanya terdiri dari puluhan bahkan ratusan node.

Dengan kondisi nilai tukar Rupiah yang kurang stabil seperti akhir-akhir ini, mengurangi komponen mata uang asing dalam pembiayaan, khususnya untuk support software, menjadi sebuah langkah yang perlu dilakukan. Satu-satunya jalan adalah dengan mendorong munculnya distro atau distribusi lokal, yang tentunya menyediakan support secara lokal pula.

Beberapa keuntungan dari support lokal yaitu:

  • cost effective
  • responsive
  • on site
  • talkable
Berbeda dengan support dari luar negeri yang umumnya hanya dilakukan lewat telepon dan email, support lokal dapat memberikan respon yang lebih baik, seperti misalnya teknisi yang datang langsung ke lokasi jika terjadi masalah.

Belajar dari pengalaman perusahaan yang mengembangkan software open source, ada beberapa hal yang perlu dimiliki :

  • Research & Development : perusahaan open source biasanya memiliki RnD yang kuat, untuk mengembangkan core competencies and tools untuk data engineering, analytics, visualization & compute platform
  • Distro & support : memiliki distro sendiri dan menyediakan support, termasuk training
  • Community : komunitas yang aktif diperlukan untuk sharing pengalaman, pengetahuan dan programming codes
  • Customers : basis customer yang baik berarti income, yang pasti diperlukan untuk mendorong dan menjalankan semua aktifitas di atas

Big data, jika tidak dapat dipenuhi sendiri, bisa berarti big investment. Oleh karenanya perlu didorong munculnya perusahaan-perusahaan lokal yang dapat mengembangkan dan menyediakan support secara lokal sehingga kita mandiri secara teknologi.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂

  • Oct 19 / 2016
  • Comments Off on [Flashback KBI 2015]
Big Data, Forum Info, Implementation, Komunitas, Uncategorized

[Flashback KBI 2015]

Masa Depan Indonesia : Ekonomi Berdasar Inovasi

Bagaimana masa depan Indonesia? McKinsey memprediksi bahwa perekonomian Indonesia di tahun 2030 bisa masuk ke dalam 7 besar. Namun hal ini hanya akan bisa dicapai jika kita mengubah ekonomi Indonesia dari berbasis sumber daya alam dan jumlah konsumer yang besar, menjadi ekonomi berbasis pengetahuan dan inovasi.

Ada 4 hal yang harus diperhatikan oleh sebuah negara yang ingin mencapai potensi maksimalnya, yaitu:
  • Investasi ke human capital
  • Investasi ke sains dan teknologi
  • Membina dan mendukung inovasi dan kewirausahaan
  • Meminimalkan kemiskinan

Hendaknya pengeluaran untuk pengembangan sains dan teknologi tidak lagi dianggap sebagai biaya, namun sebagai sebuah investasi yang dapat kita nantikan return atau hasilnya. Inovasi sendiri tidak dapat dilepaskan dari kewirausahaan, karena sebuah penemuan yang disebut inovasi adalah yang dapat diterapkan dalam dan diambil manfaatnya. Sedangkan penemuan yang tidak diterapkan hanyalah menjadi sebuah invensi saja.

Hal tersebut disampaikan oleh Prof. Dr. Eng. Ilham Habibie dalam keynote speech pada Konferensi Big Data Indonesia 2015 yang lalu.

Menurut UNESCO, idealnya pengeluaran untuk RnD sebuah negara setidaknya 2% dari PDB. Pengeluaran RnD Indonesia sendiri saat ini baru sekitar 0.1%, yang 80% dari jumlah itu didominasi oleh pemerintah.

Untuk dapat menumbuhkan inovasi, ada beberapa hal yang perlu diperhatikan, yaitu: Inovasi dilakukan dalam sebuah klaster lintas sektoral, yang terdiri dari 4 komponen ABCG (Akademia, Bisnis, Komunitas dan Pemerintah). Idealnya dilakukan dengan co-location Jika tidak memungkinkan, maka perlu dibentuk i-Klaster, atau kelompok kerja virtual yang terhubung dengan komunikasi broadband. Oleh karenanya inovasi + teknologi + konektivitas dibutuhkan untuk menghasilkan pertumbuhan yang cepat Perlu dipertimbangkan adanya insentif pajak untuk kegiatan inovasi

Sinergi antara akademia dan bisnis di Indonesia masih sangat rendah, karena beberapa hal: Dari sisi universitas/akademia riset masih banyak yang berorientasi kepada jenjang karir penelitian, yang targetnya adalah poin dan jumlah publikasi, sehingga kurang terasa dari sisi manfaatnya. Sedangkan dari sisi industri masih banyak kekhawatiran mengenai HAKI, masalah ketepatan waktu dan lain sebagainya, sehingga lebih suka membeli hasil yang sudah jadi dari luar negeri. Hal seperti ini hendaknya mulai dikurangi, jika Indonesia ingin mencapai ekonomi yang berbasis pengetahuan dan inovasi.

Video materi KBI2015 lainnya bisa dilihat di channel idBigdata.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂

  • Oct 10 / 2016
  • Comments Off on Indonesia Menggelar “Karpet Merah” untuk Data
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Indonesia Menggelar “Karpet Merah” untuk Data

Pemerintah Indonesia terus membangun infrastruktur untuk penggunaan transaksi data di Indonesia. Di antaranya adalah program menghubungkan kota-kota dan kabupaten di seluruh Indonesia dengan backbone fiber optik yang selesai pada akhir 2015, refarming 1800 MHz yang juga selesai pada akhir 2015, disusul dengan 2,1 dan 2,3 GHz untuk memasuki 4G dan nantinya 5G. Semua itu dilakukan untuk menyongsong penggunaan data dan teknologi big data di Indonesia.

Demikian disampaikan oleh Prof. Dr.-Ing. Ir. Kalamullah Ramli, M.Eng. selaku Direktur Jenderal Pos dan Penyelenggaraan Informatika Kementerian Komunikasi dan Informatika pada Konferensi Big Data Indonesia 2015 yang lalu.

Beberapa poin penting yang disampaikan pada kesempatan tersebut yaitu:

  • Big data merupakan peluang bagi seluruh pelaku usaha, pemerintah, dan masyarakat dalam mengoptimalkan strategi mencapai sasaran yang lebih efisien, efektif dan terarah.
  • Sumber daya big data nasional yang tercipta dalam NKRI harus diproteksi dan dioptimalkan untuk kepentingan nasional dan khususnya digunakan untuk menyediakan layanan big data dengan kemandirian.
  • Pemerintah telah membangun kebijakan dan regulasi yang mendorong terciptanya ekosistem big data di indonesia dengan baik. Kemkominfo fokus pada pengembangan dukungan infrastruktur dan platform untuk penyediaan layanan big data.
  • Semua instansi terkait harus berperan dalam pengembangan ekosistem big data, khususnya pada pengembangan human capital dari sisi kemampuan analitikal
  • Penyelenggara telko dapat menyediakan layanan big data untuk mengetahui subscriber behavior dan subscriber demographic untuk kepentingan pengembangan usaha oleh berbagai korporasi di indonesia serta pemerintah untuk mencapai pertumbuhan yang lebih dan akhirnya bermuara pada pertumbuhan ekonomi nasional.

Konferensi Big Data Indonesia kembali akan digelar pada tanggal 7-8 Desember 2016 di Jakarta, dan tentunya akan menampilkan pembicara dan materi yang sangat relevan dengan perkembangan big data di Indonesia.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 25 / 2016
  • Comments Off on Apache Storm 1.0 Peningkatan Performa dan Sarat Fitur Baru
Uncategorized

Apache Storm 1.0 Peningkatan Performa dan Sarat Fitur Baru

Pada tanggal 12 April lalu versi terbaru dari Apache Storm dirilis. Taylor Goetz, VP Apache Software Foundation untuk project Apache Storm, menyatakan bahwa versi 1.0 ini merupakan sebuah titik yang penting dalam evolusi Apache Storm. Versi terbaru ini mengandung sejumlah besar fitur baru dan perbaikan kinerja.

Storm merupakan sebuah event processor yang memungkinkan dilakukannya proses data streaming secara terdistribusi. Aplikasi Storm terdiri dari komponen yang disebut dengan “spout” dan “bolt”, yang dikonfigurasi dalam sebuah Direct Acyclic Graph untuk merepresentasikan pemrosesan data. Ciri utama dari Storm adalah kemampuan untuk melakukan proses data secara real time.

Apache Storm versi 1.0 memiliki peningkatan performa yang cukup dramatis bahkan diklaim hingga 16 kali lebih cepat dari versi sebelumnya dengan pengurangan latensi hingga 60%. Selain performa ada beberapa fitur yang patut menjadi perhatian, diantaranya :

  1. Pacemaker, heartbeat daemon yang memiliki performa lebih baik dari Zookeeper
  2. Distributed Cache API, yang memungkinkan berbagi file antar topology
  3. High Availability Nimbus, mengatasi permasalahan single point of failure pada Nimbus proses
  4. Streaming Window API, yang menambahkan dukungan terhadap parameter window length dan sliding interval
  5. Automatic Backpressure, yang memungkinkan memperlambat spout secara otomatis ketika ambang batas dari ukuran task buffer terlampaui
  6. Resources Aware Scheduler, implementasi scheduler baru yang menggunakan ketersediaan memory dan CPU sebagai dasar untuk pengaturan task kepada worker
  7. Dynamic Worker Profiling, fitur baru ini memungkinkan pengguna untuk melihat data profile dari worker langsung dari Storm UI

Apache Storm 1.0 ini dapat didownload pada laman https://storm.apache.org/releases.html

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 25 / 2016
  • Comments Off on Instalasi Spark 1.4.1 Cluster di Ubuntu 14.04 VMWare
Forum Info, Hadoop, Implementation, Spark, Uncategorized

Instalasi Spark 1.4.1 Cluster di Ubuntu 14.04 VMWare

Tutorial ini adalah kelanjutan dari Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare. Diasumsikan bahwa Hadoop Cluster sudah disetting dan berjalan dengan baik seperti dalam tutorial tersebut.

Untuk dapat berjalan di atas cluster, Spark dapat dijalankan dengan menggunakan beberapa jenis cluster manager, yaitu Hadoop Yarn, Apache Mesos, ataupun cluster manager yang dimiliki Spark sendiri atau Spark stand alone cluster. Cluster manager ini yang akan mengalokasikan resource dalam cluster di mana Spark dijalankan. Untuk penjelasan lebih lanjut mengenai masing-masing arsitektur, dapat dibaca di sini

Untuk menjalankan spark dengan Spark cluster, berikut ini cara settingnya:

Versi software yang digunakan adalah :

  • Spark versi 1.4.1
  • Scala 2.10.4
  • Hadoop 2.6.0

Berikut ini konfigurasi cluster-nya:

IP Type Node Hostname
192.168.4.148 Hadoop Name node / Spark Master ubuntu1
192.168.4.149 Hadoop Data node 1 / Spark Worker ubuntu2
192.168.4.155 Hadoop Data node 2 / Spark Worker ubuntu3
  1. Download Apache Spark binary distribution dari siteApache Spark. Pilih spark distribution 1.4.1, Package type Pre-built for Hadoop 2.6 and later.
  2. tutorial04_01

    Copy file spark-1.4.1-bin-hadoop2.6.tgz ke 3 mesin di atas.

    Bisa juga langsung dengan perintah berikut di salah satu mesin,

    hduser@ubuntu1:~$ wget http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.6.tgz

    Lalu distribusikan ke mesin yang lain dengan perintah scp

    hduser@ubuntu1:~$ scp spark-1.4.1-bin-hadoop2.6.tgz hduser@ubuntu2:/home/hduser/
    hduser@ubuntu1:~$ scp spark-1.4.1-bin-hadoop2.6.tgz hduser@ubuntu3:/home/hduser/
  3. Download Scala 10.2.4
  4. hduser@ubuntu1:~$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz

    Lalu distribusikan ke mesin yang lain dengan perintah scp

    hduser@ubuntu1:~$ scp scala-2.10.4.tgz hduser@ubuntu2:/home/hduser/
    hduser@ubuntu1:~$ scp scala-2.10.4.tgz hduser@ubuntu3:/home/hduser/
  5. Extract package
  6. Extract package spark di atas, dan pindahkan ke direktori /usr/local/spark

    hduser@ubuntu1:~$ tar xzvf spark-1.4.1-bin-hadoop2.6.tgz
    hduser@ubuntu1:~$ sudo mv spark-1.4.1-bin-hadoop2.6 /usr/local/spark

    Extract package scala di atas, dan pindahkan ke direktori /usr/local/scala

  7. Update file .bashrc. Tambahkan 3 baris berikut ini ke akhir file $HOME/.bashrc dari user hadoop. Jika anda menggunakan shell selain bash, maka anda perlu meng-update config file yang bersesuaian
  8. export SCALA_HOME=/usr/local/scala
    export SPARK_HOME=/usr/local/spark
    export PATH=$HOME/bin:$SCALA_HOME/bin:$PATH

    Load setting dengan perintah

    hduser@ubuntu1:~$ . ~/.bashrc

    tutorial04_02

  9. Create direktori /home/hduser/sparkdata
  10. Sesuaikan file-file konfigurasi
  11. file /usr/local/spark/conf/spark-env.sh

    export SCALA_HOME=/usr/local/scala
    export SPARK_WORKER_MEMORY=256m
    export SPARK_WORKER_INSTANCES=1
    export SPARK_WORKER_DIR=/home/hduser/sparkdata
    export SPARK_MASTER_IP=ubuntu1

    tutorial04_03

    file /usr/local/spark/conf/slaves

    hduser@ubuntu1:~$ cp /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves (copy file slaves.template ke file slaves)

    ubuntu1
    ubuntu2
    ubuntu3

    tutorial04_04

    hduser@ubuntu1:~$ cp /usr/local/spark/conf/spark-defaults.conf.template /usr/local/spark/conf/spark-defaults.conf (copy file spark-defaults.conf.template ke file spark-defaults.conf)

    file /usr/local/spark/conf/spark-defaults.conf.template

    spark.master spark://ubuntu1:7077 tutorial04_05

    Lakukan langkah 2-6 di atas untuk ke 2 server yang lain.

  12. Jalankan spark master dan worker
  13. Untuk menjalankan spark master dan node, jalankan perintah berikut di mesin master (ubuntu1) :

    hduser@ubuntu1:~$ /usr/local/spark/sbin/start-all.sh

    Cek apakah master dan node sudah jalan, dengan perintah berikut:

    hduser@ubuntu1:~$ jps

    Untuk server master, akan tampak service-service berikut ini (catatan: dfs dan yarn sudah di-start sebelumnya)

    tutorial04_06

    Untuk node worker, sbb:

    tutorial04_07
  14. Spark Shell dan Web Interface
  15. Untuk melihat web interface monitoring, jalankan spark-shell dengan perintah berikut ini:

    hduser@ubuntu1:~$ /usr/local/spark/bin/spark-shell

    Di scala shell, jalankan perintah berikut ini:

    scala> val input = sc.textFile("hdfs://ubuntu1:54310/data/README.txt")
    scala> val words = input.flatMap(line => line.split(" "))
    scala> val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}
    scala> counts.collect()

    Akan muncul log dan hasil count yang dimunculkan sebagian sbb:

    tutorial04_08

    Jalankan perintah berikut ini untuk menyimpan output ke hdfs:

    scala> counts.saveAsTextFile("hdfs://ubuntu1:54310/data/testSave")

    scala> counts.saveAsTextFile("hdfs://ubuntu1:54310/data/testSave")

    Untuk mengecek apakah file terbentuk, jalankan perintah berikut dari dari unix shell:

    hduser@ubuntu1:~$ hadoop fs -ls /data
    Found 2 items
    -rw-r--r-- 2 hduser supergroup 1366 2015-11-13 11:21 /data/README.txt
    drwxr-xr-x - hduser supergroup 0 2015-11-13 12:06 /data/testSave

    Bisa juga dengan menggunakan web interface hadoop di ubuntu1:50070, menu Utilities → Browse the File System

    tutorial04_09

    Untuk melihat isi file, gunakan perintah berikut:

    hduser@ubuntu1:~$ hadoop fs -cat /data/testSave

    Untuk melihat perintah lain yang dapat dilakukan di hadoop, gunakan perintah hadoop fs -help

Sekian Tutorial kali ini,

Semoga bermanfaat 🙂

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Tertarik dengan Big Data beserta ekosistemnya? Gabung