Bagaimana masa depan Indonesia? McKinsey memprediksi bahwa perekonomian Indonesia di tahun 2030 bisa masuk ke dalam 7 besar. Namun hal ini hanya akan bisa dicapai jika kita mengubah ekonomi Indonesia dari berbasis sumber daya alam dan jumlah konsumer yang besar, menjadi ekonomi berbasis pengetahuan dan inovasi.
Ada 4 hal yang harus diperhatikan oleh sebuah negara yang ingin mencapai potensi maksimalnya, yaitu:
Investasi ke human capital
Investasi ke sains dan teknologi
Membina dan mendukung inovasi dan kewirausahaan
Meminimalkan kemiskinan
Hendaknya pengeluaran untuk pengembangan sains dan teknologi tidak lagi dianggap sebagai biaya, namun sebagai sebuah investasi yang dapat kita nantikan return atau hasilnya. Inovasi sendiri tidak dapat dilepaskan dari kewirausahaan, karena sebuah penemuan yang disebut inovasi adalah yang dapat diterapkan dalam dan diambil manfaatnya. Sedangkan penemuan yang tidak diterapkan hanyalah menjadi sebuah invensi saja.
Menurut UNESCO, idealnya pengeluaran untuk RnD sebuah negara setidaknya 2% dari PDB. Pengeluaran RnD Indonesia sendiri saat ini baru sekitar 0.1%, yang 80% dari jumlah itu didominasi oleh pemerintah.
Untuk dapat menumbuhkan inovasi, ada beberapa hal yang perlu diperhatikan, yaitu:
Inovasi dilakukan dalam sebuah klaster lintas sektoral, yang terdiri dari 4 komponen ABCG (Akademia, Bisnis, Komunitas dan Pemerintah).
Idealnya dilakukan dengan co-location
Jika tidak memungkinkan, maka perlu dibentuk i-Klaster, atau kelompok kerja virtual yang terhubung dengan komunikasi broadband. Oleh karenanya inovasi + teknologi + konektivitas dibutuhkan untuk menghasilkan pertumbuhan yang cepat
Perlu dipertimbangkan adanya insentif pajak untuk kegiatan inovasi
Sinergi antara akademia dan bisnis di Indonesia masih sangat rendah, karena beberapa hal: Dari sisi universitas/akademia riset masih banyak yang berorientasi kepada jenjang karir penelitian, yang targetnya adalah poin dan jumlah publikasi, sehingga kurang terasa dari sisi manfaatnya. Sedangkan dari sisi industri masih banyak kekhawatiran mengenai HAKI, masalah ketepatan waktu dan lain sebagainya, sehingga lebih suka membeli hasil yang sudah jadi dari luar negeri. Hal seperti ini hendaknya mulai dikurangi, jika Indonesia ingin mencapai ekonomi yang berbasis pengetahuan dan inovasi.
Pemerintah Indonesia terus membangun infrastruktur untuk penggunaan transaksi data di Indonesia. Di antaranya adalah program menghubungkan kota-kota dan kabupaten di seluruh Indonesia dengan backbone fiber optik yang selesai pada akhir 2015, refarming 1800 MHz yang juga selesai pada akhir 2015, disusul dengan 2,1 dan 2,3 GHz untuk memasuki 4G dan nantinya 5G. Semua itu dilakukan untuk menyongsong penggunaan data dan teknologi big data di Indonesia.
Demikian disampaikan oleh Prof. Dr.-Ing. Ir. Kalamullah Ramli, M.Eng. selaku Direktur Jenderal Pos dan Penyelenggaraan Informatika Kementerian Komunikasi dan Informatika pada Konferensi Big Data Indonesia 2015 yang lalu.
Beberapa poin penting yang disampaikan pada kesempatan tersebut yaitu:
Big data merupakan peluang bagi seluruh pelaku usaha, pemerintah, dan masyarakat dalam mengoptimalkan strategi mencapai sasaran yang lebih efisien, efektif dan terarah.
Sumber daya big data nasional yang tercipta dalam NKRI harus diproteksi dan dioptimalkan untuk kepentingan nasional dan khususnya digunakan untuk menyediakan layanan big data dengan kemandirian.
Pemerintah telah membangun kebijakan dan regulasi yang mendorong terciptanya ekosistem big data di indonesia dengan baik. Kemkominfo fokus pada pengembangan dukungan infrastruktur dan platform untuk penyediaan layanan big data.
Semua instansi terkait harus berperan dalam pengembangan ekosistem big data, khususnya pada pengembangan human capital dari sisi kemampuan analitikal
Penyelenggara telko dapat menyediakan layanan big data untuk mengetahui subscriber behavior dan subscriber demographic untuk kepentingan pengembangan usaha oleh berbagai korporasi di indonesia serta pemerintah untuk mencapai pertumbuhan yang lebih dan akhirnya bermuara pada pertumbuhan ekonomi nasional.
Konferensi Big Data Indonesia kembali akan digelar pada tanggal 7-8 Desember 2016 di Jakarta, dan tentunya akan menampilkan pembicara dan materi yang sangat relevan dengan perkembangan big data di Indonesia.
Contributor :
Tim idbigdata
always connect to collaborate every innovation 🙂
Jun 27 / 2016
Comments Off on Twitter Open Source-kan Heron, Framework Real Time Stream Processing
Satu lagi framework yang bergabung ke dalam ekosistem Big Data Open Source. Meramaikan percaturan dalam pemrosesan Big Data, khususnya real-time streaming data processing, bulan Mei lalu Twitter mengumumkan bahwa mereka meng-open-source-kanHeron, sistem real-time stream processing yang mereka kembangkan untuk menggantikan Apache Storm.
Setelah sebelumnya mengumumkan bahwa mereka mengganti framework pemrosesan real-time streaming mereka dari Storm ke Heron, dan menerbitkan paper mengenai arsitekturnya, baru setahun kemudian publik dapat ikut menggunakan dan mengembangkannya.
Alasan Twitter mengembangkan Heron pada awalnya adalah karena beberapa kesulitan yang mereka hadapi ketika menggunakan Storm, terutama ketika sistem yang mereka deploy sudah sangat besar. Beberapa kesulitan yang dihadapi di antaranya adalah kesulitan dalam hal profiling dan reasoning mengenai Storm worker di tingkat data dan tingkat topologi, alokasi resource yang bersifat statis, tidak adanya dukungan back-pressure, dan lain sebagainya.
Mengapa saat itu Twitter tidak beralih ke Apache Spark streaming atau Apache Flink misalnya, dan justru memutuskan untuk mengembangkan sendiri sistemnya secara internal?
Alasan utamanya adalah peralihan framework tersebut akan menyebabkan mereka harus menulis ulang banyak sekali code dari sistem mereka yang sudah sangat besar. Sebab, sebagai pihak yang mengembangkan Storm, Twitter adalah pengguna Apache Storm yang paling lama, jauh sebelum Storm menjadi open source.
Heron didesain sebagai sebuah sistem yang memiliki backward compatibility dengan Apache Storm. Hal ini merupakan sebuah keputusan yang strategis, bukan saja untuk Twitter sendiri, namun juga untuk pengguna yang sudah mengimplementasikan Apache Storm, mereka dapat beralih ke Heron dengan relatif mudah.
Paradigma pemrosesan Heron sangat mirip dengan Apache Storm, di mana dasarnya adalah DAG (Direct Acyclic Diagram) yang disebut topology, dengan komponennya berupa spout dan bolt.
Heron dibangun dengan perubahan mendasar dalam arsitektur streamingnya, dari sistem berbasis thread, menjadi sebuah sistem berbasis proses. Heron juga didesain untuk deployment dalam cluster dengan mengintegrasikannya dengan scheduler open source yang powerful seperti Apache Mesos, Apache Aurora, Apache REEF atau Slurm.
Banyak yang dijanjikan dengan Heron, seperti misalnya 2-5 kali efisiensi, kemudahan dan stabilitas, dan lain sebagainya. Salah satu kelebihan utama Heron adalah sudah dibuktikan dalam skala yang besar di Twitter sendiri, dan kompatibilitasnya dengan Storm sebagai framework yang sudah banyak diimplementasi sebelumnya. Namun apakah masyarakat Big Data akan dengan serta merta mengadopsinya sebagai framework pilihan mereka, masih harus kita lihat bagaimana perkembangannya ke depan. Karena saat ini banyak sekali framework open source untuk pemrosesan streaming yang ada dan berkompetisi untuk menjadi yang terdepan, seperti misalnya Apache Spark, Apache Flink, Apache Samza, Apache Apex, atau bahkan Apache Storm sendiri yang juga telah me-release versi 1.0 dengan banyak perubahan dan perbaikan.
M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Mar 15 / 2016
Comments Off on Challenges For The Biomedical Industry In Terms Of Big Data
Lahirnya Next-Generation Sequencing (NGS) berakibat pada pertumbuhan data genomic secara eksponensial. NGS berhasil memangkas waktu dan biaya yang dibutuhkan untuk melakukan sequencing sebuah genom secara drastis. Biaya sequencing turun secara signifikan dari sekitar US$100M pada tahun 2001 menjadi sekitar US$1000 di tahun 2015. Sebuah studi kasus diagnostik genom http://www.genomemedicine.com/content/7/1/100?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq pada tahun 2015 menunjukkan bahwa waktu yang diperlukan untuk melakukan whole genome sequencing, analisis dan diagnosis penyakit genetik pada bayi yang sakit berat adalah 26 jam.
Apakah perpaduan teknologi antara industri biomedis dan big data akan dapat mendukung perkembangan data genomics di masa datang?
Berikut adalah beberapa hambatan dan tantangan yang dihadapi dalam perkembangan pemanfaatan data genomics :
Meskipun biaya sequencing dan storage sudah relatif rendah, namun biaya komputasi terutama dari sisi infrastruktur masih relatif tinggi. Cloud computing dapat menjadi solusi terhadap kebutuhan komputasi, namun transfer data genomics yang sangat besar dari mesin sequencing ke cloud dapat menjadi tantangan tersendiri.
Privasi data genomics juga menjadi sebuah isu, karena penggunaan dan penyebaran (sharing) data tersebut tidak dapat diprediksi. Meskipun data dikumpulkan secara anonimus, masih ada kemungkinan re-identifikasi sehingga menjadi peluang timbulnya pelanggaran privasi.
Nilai tambah yang ditawarkan oleh bidang translational genomics kepada industri biomedis mungkin tidak langsung terlihat hasilnya. Biaya yang harus dikeluarkan oleh sebuah organisasi untuk menyimpan dan mengolah data genomics mungkin tidak bisa memberikan keuntungan finansial dalam jangka pendek. Hal ini dapat menyurutkan keinginan untuk berinvestasi di bidang ini. Namun, pengetahuan yang didapat dari proyek-proyek yang bersifat riset dapat memberi manfaat yang sangat besar bagi masyarakat maupun bagi pengembangan produk mereka sendiri. Penyedia solusi big data yang mendukung platform big data di bidang genomics akan dapat memperoleh keuntungan dengan menyediakan jasa penyimpanan, pemrosesan dan analisis data.
Perusahaan seperti AWS, Oracle dan Google menempatkan diri sebagai pemain kunci dalam penyediaan infrastruktur komputasional di bidang biomedis dengan menyediakan infrastruktur bagi penyimpanan dan analisis data genomics. Mereka menyadari potensi nilai yang didapat dari penyediaan platform untuk riset genomics.
Dengan semakin menurunnya biaya sequencing dan dengan dimungkinkannya sequencing dalam skala besar, kita dapat menyaksikan pergeseran dari pengobatan reaksioner (mengobati setelah timbulnya penyakit) menjadi pengobatan prediktif dan proaktif. Database genomics yang besar memungkinkan dilakukannya riset untuk lebih memahami dasar-dasar genetik pada bermacam-macam penyakit.
Pengetahuan ini akan mendorong pengembangan obat-obatan dan terapi yang lebih terarah dan bersifat preventif, dan juga memungkinkan pengembangan alat interpretasi genomics secara individual untuk keperluan konseling bagi individu untuk mencegah kemungkinan munculnya penyakit atau kondisi yang berkaitan dengan kecenderungan genetik.
Contributor :
Tim idbigdata
always connect to collaborate every innovation 🙂
Mar 02 / 2016
Comments Off on Apache Arrow – in-memory columnar data layer
Pada tanggal 17 Februari 2016 lalu, Apache Software Foundation mengumumkan Apache Arrow sebagai top-level project tanpa melalui masa inkubasi yang panjang. Apache Arrow semula merupakan pengembangan dari Apache Drill, dibangun atas kolaborasi beberapa project open source unggulan lainnya dan bertujuan untuk menjadi standar de-facto bagi pemrosesan data in-memory yang tersusun secara columnar. Proyek-proyek Big Data yang telah bergabung dalam pengembangan Apache Arrow adalah Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu (incubating), Parquet, Phoenix, Spark, Storm, Pandas dan Ibis.
Apache Arrow bukan merupakan sebuah engine ataupun sistem penyimpanan. Ia adalah sebuah format dan algoritma untuk bekerja secara hirarkis, in-memory dan columnar serta mendukung sejumlah bahasa pemrograman yang dapat bekerja diatasnya.
“Data dalam memori yang tersusun secara columnar memungkinkan sistem dan aplikasi memproses data pada kecepatan maksimum dari hardware” ujar Todd Lipcon, pendiri Apache Kudu dan anggota komite manajemen Apache Arrow Project.
Pada banyak proses pengolahan data, 70-80% siklus CPU dihabiskan untuk proses serialisasi dan deserialisasi data antar proses. Arrow mengatasi masalah ini dengan memungkinkan adanya sharing data antar sistem dan proses tanpa melalui proses serialisasi, deserialisasi atau penggandaan memory. Penggunaan Apache Arrow diklaim mampu mempercepat proses hingga 100 kali.
Arrow juga telah mendukung data yang kompleks dengan skema dinamis. Contohnya, Arrow mampu menangani data JSON yang umumnya digunakan pada proses IoT, aplikasi modern dan log file. Implementasinya juga sedang dikembangkan untuk beberapa bahasa pemrograman termasuk java, c++ dan python untuk memungkinkan interoperabilitas solusi big data yg lebih besar.
Software apache arrow sudah rilis dengan menggunakan lisensi Apache v2.0 dan untuk mengunduh software, dokumentasi dan cara bergabung dengan Apache Arrow project silahkan mengunjungi http://arrow.apache.org/
Contributor :
Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan
dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling.
Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
Feb 23 / 2016
Comments Off on Big Data sebagai alat bantu Pengeboran Minyak dan Gas
Industri minyak dan gas kini tengah menghadapi tantangan berat, seperti meningkatnya biaya produksi dan gejolak politik internasional. Hal tersebut mempersulit usaha ekplorasi dan pengeboran cadangan minyak baru.
Beberapa tahun belakangan ini Royal Dutch Shell mengembangkan ide untuk membangun ladang minyak yang didukung oleh data atau disebut “data-driven oilfield” dalam usaha untuk mengurangi biaya pengeboran yang merupakan biaya utama industri migas.
Sejak beberapa tahun ini Shell sudah mulai memasang kabel serat optik dalam sumur minyak. Pada kabel serat optik ini terpasang sensor-sensor yang mengukur segala sesuatu dalam sumur. Dengan data-data dari sensor tersebut, Shell dapat melakukan analisa yang lebih akurat mengenai keadaan sumur minyak atau seberapa besar gas yang masih tersisa.
Sensor super sensitif dalam kabel serat optik membantu Shell menemukan minyak tambahan di dalam sumur yang diduga telah kering. Sensor-sensor yang buat oleh Hewlett-Packard ini menghasilkan data dalam jumlah yang sangat besar dan ditransfer ke dalam sistem komputasi awan Amazon Virtual Private Cloud dengan menggunakan Hadoop. Sejak pertama kali dimulai mereka telah mengumpulkan 46 petabyte data dan pada tes pertama yang mereka lakukan di salah satu sumur minyak menghasilkan 1 petabyte informasi.
Shell juga bekerja sama dengan IBM dan DreamWorks Hollywood untuk memvisualisasikan data-data yang didapat oleh sensor. Semua data yang diterima dari sensor seismik dianalisis oleh sistem kecerdasan buatan yang dikembangkan oleh Shell dan dirender menjadi peta 3D dan 4D dari reservoir minyak. Meskipun analisis dilakukan dalam komputasi awan, visualisasi segera tersedia bagi awak yang bekerja di pabrik lokal.
Melihat hasil yang dicapai mereka berkeinginan memasang sensor untuk sekitar 10.000 sumur minyak, dengan perkiraan 10 Exabytes data, atau sekitar 10 hari dari semua data yang dihasilkan oleh internet.
Big data dan hidroponik, mungkin terdengar seperti perpaduan yang kurang cocok. Memang tidak dapat dipungkiri bahwa pengaruh big data sudah demikian meluas, tak terkecuali pada sektor yang agak spesifik seperti hidroponik. Sistem otomasi pada pertanian dengan menggunakan teknik hidroponik tengah berkembang dengan pesat di dunia, dari Jepang, Cina, Inggris dan Uni Eropa serta Amerika Serikat.
Manfaat Bercocok Tanam Dengan Hidroponik
Teknik hidroponik dianggap sebagai suatu teknik produksi pangan yang sangat efisien saat ini. Banyak keunggulan dari teknik ini, misalnya penggunaan lahan yang lebih sedikit dan produksi pangan lebih banyak. Air yang digunakan pun dapat diolah dan dimanfaatkan kembali. Biaya pengangkutan dapat ditekan karena teknik ini sangat cocok diimplementasikan di wilayah perkotaan dengan jumlah populasi yang tinggi.
Bagaimana Big Data dan otomasi bekerja dengan hidroponik
Di Jepang, Fujitsu telah mengembangkan sebuah layanan komputasi awan (cloud platform services) dengan nama Akisai. Sistem yang diluncurkan pada tahun 2012 ini menganalisa data-data yang didapatkan dari berbagai sensor yg di tempatkan di sekitar rumah kaca (greenhouse). Dengan informasi ini, seluruh perangkat pendukung seperti kipas ventilasi udara, mesin pemanas, dan sistem pengairan dikontrol secara otomatis. Melalui big data cloud service, sistem ini mampu mengumpulkan banyak data yang dapat dianalisa untuk menghasilkan kualitas pangan yang lebih baik.
Di Amerika Serikat ada Freight Farms, sebuah perusahaan yang membuat sistem pertanian hidroponik menggunakan kontainer bekas dengan menerapkan teknologi dan otomasi pertanian. Mereka mengumpulkan data dari berbagai komponen utama pertanian seperti udara, air, suhu dan pertumbuhan tanaman untuk mengelola dan memonitor pertanian.
Dengan data yang dikumpulkan tersebut mereka membuat sebuah program custom elearning development, sehingga para penggunanya dapat mempelajari cara terbaik untuk bercocok tanam dengan Freight Farms. Menurut Brad McNamara, co founder dari Freight Farms, melalui sistem elearning yang dibangun ini, orang yg saat ini bergabung dengan Freight Farms akan memiliki pengetahuan yang jauh lebih baik, karena telah mendapatkan pengetahuan dari data yang dikumpulkan dari pengguna-pengguna sebelumnya. Dengan jaringan yang terdiri dari para petani Freight Farms, mereka mendapatkan banyak informasi yang dapat diterapkan.
Demikian juga di Cina, Alesca, sebuah startup yang mengubah kontainer bekas menjadi sebuah solusi jaringan pertanian hidroponik yang menggunakan sistem otomatisasi open-source dan analisa big data. Alesca mendesain dan membangun sistem pertanian multi-format dan menggabungkannya dengan penginderaan cerdas (smart sensing) dan aplikasi yang terhubung komputasi awan. Sistem connected farm ini menjadikan jaringan pertanian Alseca sebagai sebuah jaringan produksi pangan kota yang terdistribusi (city distributed food production system).
Penggunaan kontainer sebagai area tanam memungkinkan untuk membuat microclimate atau kondisi lingkungan yang paling ideal untuk berbagai jenis tanaman yang ditanam. Hasil tersebut dicapai dengan menggunakan sistem otomasi canggih, penyinaran menggunakan LED yang optimal dan komponen software terkini untuk membangun lingkungan yang ideal untuk masing-masing jenis tanaman. Tanaman dipantau oleh sensor yang melaporkan mengenai kesehatan, pertumbuhan, dan kecukupan nutrisi serta keseluruhan informasi mengenai lingkungan yang membutuhkan penyesuaian untuk mencapai kondisi pertumbuhan yang paling ideal. Alesca yakin bahwa ini merupakan trend masa depan untuk produksi pangan lokal berskala besar di kota-kota padat yang disebut local concept zero-mile food.
Masalah Yang Datang dengan Otomasi Pertanian
Hambatan terbesar untuk keberhasilan jenis otomasi produksi pangan ini adalah dari segi biaya produksi pangan hidroponik. Peningkatan skala produksi dan tuntutan untuk menjaga efektifitas dan nilai ekonomis mengingatkan kita pada tantangan yang dihadapi di masa sebelumnya. Jika sebelumnya hambatan yang dihadapi adalah dari besarnya jumlah tenaga kerja yang dibutuhkan, maka tantangan saat ini adalah pada kebutuhan listrik yang besar, dan pengeluaran untuk sistem pemupukan, pendingin, pemanas, dan pencahayaan yang tidak sedikit.
Namun demikian, berkat adanya software baru dan otomasi pada kebun hidroponik, banyak perubahan yang terjadi pada teknik bercocok tanam yang memungkinkan untuk dikembangkan dalam skala industri dan komersil, sehingga cukup kompetitif dalam mendukung ketersediaan pangan dunia.
Tutorial ini adalah kelanjutan dari Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare. Diasumsikan bahwa Hadoop Cluster sudah disetting dan berjalan dengan baik seperti dalam tutorial tersebut.
Untuk dapat berjalan di atas cluster, Spark dapat dijalankan dengan menggunakan beberapa jenis cluster manager, yaitu HadoopYarn, Apache Mesos, ataupun cluster manager yang dimiliki Spark sendiri atau Spark stand alone cluster. Cluster manager ini yang akan mengalokasikan resource dalam cluster di mana Spark dijalankan. Untuk penjelasan lebih lanjut mengenai masing-masing arsitektur, dapat dibaca di sini
Untuk menjalankan spark dengan Spark cluster, berikut ini cara settingnya:
Versi software yang digunakan adalah :
Spark versi 1.4.1
Scala 2.10.4
Hadoop 2.6.0
Berikut ini konfigurasi cluster-nya:
IP
Type Node
Hostname
192.168.4.148
Hadoop Name node / Spark Master
ubuntu1
192.168.4.149
Hadoop Data node 1 / Spark Worker
ubuntu2
192.168.4.155
Hadoop Data node 2 / Spark Worker
ubuntu3
Download Apache Spark binary distribution dari siteApache Spark. Pilih spark distribution 1.4.1, Package type Pre-built for Hadoop 2.6 and later.
Copy file spark-1.4.1-bin-hadoop2.6.tgz ke 3 mesin di atas.
Bisa juga langsung dengan perintah berikut di salah satu mesin,
Extract package spark di atas, dan pindahkan ke direktori /usr/local/spark
hduser@ubuntu1:~$ tar xzvf spark-1.4.1-bin-hadoop2.6.tgz
hduser@ubuntu1:~$ sudo mv spark-1.4.1-bin-hadoop2.6 /usr/local/spark
Extract package scala di atas, dan pindahkan ke direktori /usr/local/scala
Update file .bashrc. Tambahkan 3 baris berikut ini ke akhir file $HOME/.bashrc dari user hadoop. Jika anda menggunakan shell selain bash, maka anda perlu meng-update config file yang bersesuaian
Bisa juga dengan menggunakan web interface hadoop di ubuntu1:50070, menu Utilities → Browse the File System
Untuk melihat isi file, gunakan perintah berikut:
hduser@ubuntu1:~$ hadoop fs -cat /data/testSave
Untuk melihat perintah lain yang dapat dilakukan di hadoop, gunakan perintah hadoop fs -help
Sekian Tutorial kali ini,
Semoga bermanfaat 🙂
Contributor :
M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Jan 11 / 2016
Comments Off on Seri Tutorial : Instalasi Hadoop Single Node di Ubuntu 14.04 VMWare
Jika anda baru saja berkenalan dengan big data dan ingin mengetahui lebih dalam mengenai Hadoop, anda mungkin ingin mencoba melakukan instalasi Hadoop anda sendiri. Langkah yang paling sederhana adalah dengan melakukan instalasi Hadoop di satu mesin, atau disebut dengan single node. Jika anda tidak memiliki environment linux sendiri, maka yang paling mudah adalah menjalankan linux sebagai virtual machine, dengan VMWare atau VirtualBox misalnya.
Dengan melakukan instalasi dan setup sendiri, anda akan mendapatkan gambaran yang lebih jelas mengenai apa saja yang menjadi komponen Hadoop, dan bagaimana kira-kira Hadoop bekerja.
Dalam tutorial ini akan dijelaskan langkah instalasi Hadoop 2.6.0 di Ubuntu 14.04 VMware
1. Install VMWare Player
Install VMWare player, tergantung OS host anda (32 atau 64 bit) :
Install Ubuntu 14.04
Download iso image Ubuntu 14.04 LTS di http://releases.ubuntu.com/14.04/ (tergantung keperluan anda, 32 atau 64 bit)
3. Install openjdk
Install open jdk 7 dengan command sbb:
user@ubuntu:~$ sudo apt-get install openjdk-7-jdk
4. Cek instalasi java/
user@ubuntu:~$ java -version
java version "1.7.0_79"
OpenJDK Runtime Environment (IcedTea 2.5.6) (7u79-2.5.6-0ubuntu1.14.04.1)
OpenJDK 64-Bit Server VM (build 24.79-b02, mixed mode)
5. Create dedicated user untuk hadoop
Membuat user hadoop untuk menjalankan hadoop. Langkah ini tidak harus dilakukan, tapi disarankan untuk memisahkan instalasi hadoop dengan aplikasi2 lain di mesin yang sama.
6. Masukkan hadoop ke dalam sudoers (untuk create direktori, set permission, dll)
user@ubuntu:~$ sudo adduser hduser sudo
7. Configure SSH
Hadoop memerlukan akses SSH untuk memanage node-node-nya. Untuk single node Hadoop, kita perlu melakukan konfigurasi akses SSH ke localhost untuk user hadoop yang sudah kita buat sebelumnya.
a. install ssh
user@ubuntu:~$ sudo apt-get install ssh
b. generate an SSH key untuk user hadoop
user@ubuntu:~$ su -hduser/p>
hduser@ubuntu:~$ ssh-keygen -t rsa -P ""
Baris ke dua command di atas akan membuat RSA key pair dengan password kosong. Sebenarnya penggunaan password kosong ini tidak disarankan dari sisi keamanan, namun dalam hal ini kita memerlukan akses tanpa password untuk keperluan interaksi Hadoop dengan node-node-nya. Tentunya kita tidak ingin memasukkan password setiap kali Hadoop mengakses node-nya, bukan?
c. enable akses SSH ke local machine dengan key yang baru dibuat
Langkah terakhir adalah testing setup SSH tersebut dengan melakukan koneksi ke localhost menggunakan user hadoop. Langkah ini juga diperlukan untuk menyimpan host key dingerprint ke file known_host milik user hadoop.
hduser@ubuntu:~$ ssh localhost
8. Instalasi Hadoop
Download hadoop di https://www.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz, extract ke sebuah direktori, misalnya /usr/local/hadoop.
hduser@ubuntu:~$ cd /usr/local
hduser@ubuntu:~$ sudo tar xzf hadoop-1.0.3.tar.gz
hduser@ubuntu:~$ sudo mv hadoop-1.0.3 hadoop
Jangan lupa take ownership dari direktori tersebut
hduser@ubuntu:~$ sudo chown -Rhadoop:hadoophadoop
9. Update File .bashrc
Tambahkan baris berikut ini ke akhir file $HOME/.bashrc dari user hadoop. Jika anda menggunakan shell selain bash, maka anda perlu meng-update config file yang bersesuaian
Catatan : jika langkah di atas terlewat, maka kemungkinan anda akan mendapatkan error permission denied atau java.io.IOException ketika anda akan memformat HDFS namenode.
Dalam file conf/core-site.xml:
hadoop.tmp.dir/app/hadoop/tmpA base for other temporary directories.fs.default.namehdfs://localhost:54310The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.
Dalam file conf/mapred-site.xml:
mapred.job.trackerlocalhost:54311The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map and reduce task.
Dalam file conf/hdfs-site.xml:
dfs.replication1Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
dfs.data.dir/app/hadoop/tmp/dfs/datatruedfs.name.dir/app/hadoop/tmp/dfs/nametrue
12.Format HDFS file system
Lakukan pada pertama kali instalasi. Jangan melakukan namenode format untuk Hadoop yang sudah berjalan (berisi data), karena perintah format ini akan menghapus semua data di HDFS.
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010
M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Salah satu bidang yang menghasilkan data yang sangat besar adalah genomics. Seiring dengan semakin terjangkaunya biaya pemetaan dan semakin banyak genome yang dianalisis, data genomics akan mengalami ledakan yang dahsyat. Bidang ini bahkan diperkirakan akan menjadi penghasil data terbesar, melebihi data astronomi misalnya.
Menurut laporan yang dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195), di tahun 2025 akan ada antara 100 juta sampai 2 milyar human genome yang telah dipetakan. Kapasitas penyimpanan data untuk keperluan ini saja dapat mencapai 2–40 exabytes (1 exabyte = 1018 bytes), karena jumlah data yang harus disimpan untuk sebuah genome setidaknya memerlukan 30 kali ukuran data genome itu sendiri. Hal ini untuk mengantisipasi adanya kesalahan yang mungkin timbul selama proses pemetaan dan analisis pendahuluan.
Jumlah tersebut melebihi perkiraan kapasitas penyimpanan data YouTube di tahun 2025, yang sebesar 1-2 exabytes, dan data Twitter yang diperkirakan mencapai 1-17 petabytes per tahun (1 petabyte = 1015 bytes). Jumlah data tersebut juga melebihi perkiraan data tahunan Square Kilometre Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298), sebuah project yang direncanakan menjadi project astronomi terbesar di dunia.
Namun permasalahan penyimpanan ini hanyalah salah satu permasalahan saja. Keperluan komputasi untuk mengumpulkan, mendistribusi, dan menganalisis data genomics ini akan jauh lebih besar lagi.
Perubahan Besar
Gene Robinson, ahli biologi UIUC yang juga salah satu co-author paper tersebut menyatakan, hal ini menegaskan bahwa bidang genomics akan memberikan banyak tantangan berat. Beberapa perubahan besar perlu dilakukan untuk dapat menangani ukuran data yang besar dan kebutuhan akan kecepatan analisis.
Narayan Desai, seorang computer scientist dari Ericsson San Jose mengatakan bahwa perbandingan data dengan bidang lain seperti dilaporkan dalam paper tersebut sebenarnya kurang tepat. Ada banyak hal yang tidak diperhatikan dalam melakukan perbandingan, seperti misalnya laporan tersebut menganggap ringan pemrosesan dan analisis video dan teks yang dilakukan oleh YouTube maupun Twitter, seperti misalnya untuk keperluan iklan yang terarah maupun penyajian video ke dalam format yang beragam.
Meskipun demikian, genomics tetap harus memperhatikan permasalahan mendasar mengenai berapa besar data yang sebenarnya akan dihasilkan di bidang ini. Karena sehebat apapun teknologi, kapasitas penyimpanan dan komputasi untuk mengumpulkan dan menganalisis data tetaplah terbatas, sehingga kedua hal tersebut harus digunakan dengan sebaik-baiknya.
Karena proses pemetaan semakin terjangkau, komunitas genomics pun tumbuh dengan sangat pesat dan tersebar. Komunitas yang tersebar ini cukup menyulitkan dalam mengatasi permasalahan seperti yang disebutkan di atas.
Bidang-bidang lain yang memerlukan banyak resource semacam ini, sseperti misalnya high-energy physics, komunitasnya lebih terpusat. Mereka memerlukan koordinasi dan konsensus untuk perancangan instrumen, pengumpulan data, dan strategi sampling. Berbeda dengan data genomics yang terkotak-kotak, meskipun akhir-akhir ini mulai muncul ketertarikan untuk menyimpan data-data genomics secara terpusat dalam cloud.
Kerja Sama
Berbeda dengan ahli genomics, setelah data mentah dikumpulkan para astronomer dan ahli fisika segera memprosesnya, dan kemudian data mentah tersebut dibuang. Cara ini menyederhanakan langkah-langkah distribusi dan analisis selanjutnya. Akan tetapi genomics belum memiliki standar baku untuk konversi data mentah menjadi data yang sudah diproses.
Menurut paper tersebut, jenis analisis yang ingin dilakukan oleh para ahli biologi terhadap data genomics ini juga sangat beragam dan metode yang digunakan belum tentu dapat berfungsi baik dengan peningkatan volume data yang besar. Misalnya untuk membandingkan dua genome diperlukan perbandingan antara dua set varian genetik. “Jika kita mempunyai satu juta genome, maka jumlah perbandingannya adalah satu juta kuadrat”, papar Saurabh Sinha, seorang komputer saintis dari UIUC dan salah satu co-author dari paper tersebut. “Algoritma yang digunakan untuk melakukan proses tersebut akan sangat kewalahan.”
Robert Brunner, seorang Observational cosmologist dari UIUC mengatakan, alih-alih membandingkan bidang ilmu, dia ingin ada sebuah kerja sama dalam mengatasi permasalahan terkait big-data yang mencakup banyak bidang, sehingga didapatkan manfaat yang lebih besar. Misalnya keterbatasan jenjang karir untuk spesialisasi komputasi dalam dunia sains, dan kebutuhan akan jenis penyimpanan dan kapasitas analisis yang belum tentu dapat dipenuhi oleh dunia industri.
“Genomics menghadapi tantangan yang sama dengan astronomi, ilmu mengenai atmosfer, ilmu tentang tumbuh-tumbuhan, fisika partikel, dan domain-domain big data yang lain,” kata Brunner. “Yang penting untuk dilakukan saat ini adalah menentukan apa masalah yang dapat kita pecahkan bersama-sama.”
M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.