:::: MENU ::::

Posts Categorized / Uncategorized

  • Jan 21 / 2016
  • Comments Off on Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare [Bagian 2]
Big Data, Hadoop, Implementation, Uncategorized

Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare [Bagian 2]

Berikut ini adalah langkah berikutnya dari instalasi Hadoop Cluster di Ubuntu 14.04 VMWare. Untuk langkah sebelumnya bisa dilihat di Bagian 1.

9. Duplikasi Ubuntu Instance

Untuk membuat 3 instance server ubuntu, shutdown VMWare, dan kopi direktori tempat file-file VM Image tersebut dua kali. Untuk mengetahui letak direktori, buka menu Player → Manage → Virtual Machine Setting di bagian Working Directory

tutorial3_02

re, dan kopi direktori tempat file-file VM Image tersebut dua kali. Untuk mengetahui letak direktori, buka menu Player → Manage → Virtual Machine Setting di bagian Working Directory

Selanjutnya, jalankan VMWare Player, pilih menu Open a Virtual Machine. Buka file .vmx di ke 2 direktori hasil copy tersebut, dan pilih Play virtual Machine. Anda akan mendapatkan dialog box

tutorial3_03

Pilih “I Copied It”.

10. Setting koneksi

Ada beberapa hal yang perlu dilakukan, yaitu setting hostname di file /etc/hostname, setting mapping hostname di file /etc/hosts, dan setting ssh connection.

Setting hostname

Buka 3 Virtual machine tersebut, ubah nama masing-masing menjadi ubuntu1, ubuntu2 dan ubuntu 3, dengan cara edit file /etc/hostname :

hduser@ubuntu:~$ sudo vi /etc/hostname

Misalnya untuk server ubuntu3 menjadi sbb:

tutorial3_04

Lakukan hal serupa di 2 server yang lain. Setting Mapping Hostname

Edit file /etc/hosts di ke 3 server sbb:

Server 1 : ubuntu1

tutorial3_06

Server 2 : ubuntu2

tutorial3_07

Server 3 : ubuntu3

tutorial3_08

Untuk mengetahui IP address masing-masing server, gunakan command ifconfig.

tutorial3_09

Lakukan di ke 3 server.

Setting ssh

Di server ubuntu1, lakukan:

hduser@ubuntu1:~$ ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@ubuntu2

hduser@ubuntu1:~$ ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@ubuntu3

Untuk mengetes koneksi, lakukan :

hduser@ubuntu1:~$ ssh hduser@ubuntu2

hduser@ubuntu1:~$ ssh hduser@ubuntu2

Seharusnya sudah tidak diminta password untuk ssh tersebut.

Di server ubuntu2 dan ubuntu3, lakukan:

hduser@ubuntu2:~$ ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@ubuntu1

Untuk mengetes koneksi, lakukan :

hduser@ubuntu2:~$ ssh hduser@ubuntu1

Seharusnya sudah tidak diminta password untuk ssh tersebut.

11. Format HDFS file system

Lakukan ini di namenode (server ubuntu1) pada pertama kali instalasi. Jangan melakukan namenode format untuk Hadoop yang sudah berjalan (berisi data), karena perintah format ini akan menghapus semua data di HDFS, dan kemungkinan akan membuat hdfs dalam cluster anda tidak konsisten satu sama lain (namenode dan data node).

hduser@ubuntu1:$ hdfs namenode -format

Outputnya akan seperti berikut ini:

hduser@ubuntu1:$ /usr/local/hadoop/bin/hadoop namenode -format
10/05/08 16:59:56 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = ubuntu/127.0.1.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 0.20.2
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010
************************************************************/
10/05/08 16:59:56 INFO namenode.FSNamesystem: fsOwner=hadoop,hadoop
10/05/08 16:59:56 INFO namenode.FSNamesystem: supergroup=supergroup
10/05/08 16:59:56 INFO namenode.FSNamesystem: isPermissionEnabled=true
10/05/08 16:59:56 INFO common.Storage: Image file of size 96 saved in 0 seconds.
10/05/08 16:59:57 INFO common.Storage: Storage directory .../hadoop-hadoop/dfs/name has been successfully formatted.
10/05/08 16:59:57 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ubuntu/127.0.1.1
************************************************************/
hduser@ubuntu1:$

12. Start HDFS dan Yarn

Lakukan ini di namenode (server ubuntu1).

Start hdfs :

hduser@ubuntu1:$ /usr/local/hadoop/sbin/start-dfs.sh

tutorial3_10

Start yarn :

hduser@ubuntu1:$ /usr/local/hadoop/sbin/start-yarn.sh

tutorial3_11

Untuk memastikan data node sudah berjalan dengan baik, di data node server (ubuntu2 dan ubuntu3), cek log di /usr/local/hadoop/logs/hadoop-hduser-datanode-ubuntu2.log dan /usr/local/hadoop/logs/hadoop-hduser-datanode-ubuntu3.log

ika anda mendapatkan message seperti berikut ini:

2015-11-10 12:35:53,154 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: ubuntu1/192.168.4.148:54310

Maka pastikan bahwa setting /etc/hosts di ke 3 server sudah dilakukan dengan benar seperti di poin 10 di atas (Setting Koneksi). Cek ip masing-masing server dengan perintah ifconfig. Cek service di masing-masing server dengan perintah jps.

12. Test HDFS

Untuk memastikan semua node sudah naik dan berfungsi dengan baik, kita akan meng-upload file test ke dfs. Lakukan perintah berikut ini di server name node (ubuntu1):

buat direktori /data di hdfs

hadoop fs -mkdir /data

upload file /usr/local/hadoop/README.txt

hadoop fs -put /usr/local/hadoop/README.txt /data/README.txt

tutorial3_12

13. Hadoop Web Interface

Anda dapat mengakses hadoop web interface dari browser anda, dengan mengakses namenode:50070. Akan tampil halaman seperti berikut ini. tutorial3_13

Dari keterangan di atas terlihat bahwa terdapat 2 data nodes yang hidup dan terhubung. Klik menu Datanodes untuk melihat informasi lebih detail mengenai kedua data node tersebut:

tutorial3_14

File yang kita buat tadi akan terlihat di menu Utilities → Browse the file system

tutorial3_15

Demikianlah tutorial instalasi Hadoop kali ini, semoga bermanfaat.

Nantikan tutorial berikutnya 🙂

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Jan 13 / 2016
  • Comments Off on Seri Tutorial : Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare [Bagian 1]
Big Data, Hadoop, Implementation, Uncategorized

Seri Tutorial : Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare [Bagian 1]

Setelah pada tutorial lalu kita membahas mengenai instalasi Hadoop single node, kali ini kita akan membahas langkah instalasi Hadoop cluster di dalam VMWare.

Sebagai catatan, karena pada tutorial ini kita akan menjalankan 3 buah virtual machine secara bersamaan, maka PC atau laptop yang akan digunakan haruslah memiliki setidaknya 8 GB RAM, dan alokasi total untuk ke 3 VM ini sebaiknya tidak melebihi 4GB.

Berikut ini langkah instalasi Hadoop di Ubuntu 14.04 vmWare. Dalam tutorial ini digunakan hadoop 2.6.0. Untuk konfigurasi ini kita akan menggunakan 1 server namenode dan 2 server datanode. Yang akan kita lakukan adalah menginstall 1 mesin sampai selesai, lalu copy 2 kali untuk mendapatkan 3 instance server, dan kemudian kita setting agar ke-3 nya dapat berkomunikasi satu sama lain.

IP Type Node Hostname
192.168.4.148 Name node ubuntu1
192.168.4.149 Data node 1 ubuntu2
192.168.4.155 Data node 2 ubuntu3

1. Install VMWare Player

Install VMWare player, tergantung OS host anda, 32 atau 64 bit : https://my.vmware.com/web/vmware/free#desktop_end_user_computing/vmware_player/6_0

2. Install Ubuntu

Install Ubuntu 14.04 di VMWare player, anda. Download iso image Ubuntu 14.04 LTS di http://releases.ubuntu.com/14.04/ (sekali lagi, perhatikan keperluan anda, 32 atau 64 bit OS) Agar dapat berkomunikasi satu sama lain, termasuk dapat diakses melalui puTTY, set network setting ke Bridged Mountain View

3. Install jdk

Ada beberapa pilihan yang bisa anda install, di antaranya openjdk atau oracle jdk. Untuk open jdk pilih setidaknya openjdk 7, dengan perintah sbb:
user@ubuntu:~$ sudo apt-get install openjdk-7-jdk

Anda bisa juga menginstall jdk 7 oracle, dengan langkah sbb:

5. Create dedicated group dan user untuk hadoop

Membuat user hduser dan group hdgroup untuk menjalankan hadoop. Langkah ini tidak harus dilakukan, tapi disarankan untuk memisahkan instalasi hadoop dengan aplikasi2 lain di mesin yang sama.

user@ubuntu:~$ sudo addgroup hdgroup
user@ubuntu:~$ sudo adduser --ingroup hdgroup hduser

Masukkan hadoop ke dalam sudoers (untuk create direktori, set permission, dll)
user@ubuntu:~$ sudo adduser hduser sudo

6. Setting jdk path Sebelumnya cek instalasi dengan perintah:

user@ubuntu:~$ java -version
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)

Login ke user hduser dengan perintah:

user@ubuntu:~$ su hduser

Set JAVA_HOME di file .bashrc dengan memasukkan path yg sesuai, misalnya untuk java di direktori /usr/local/java , maka tambahkan baris berikut ini:

export JAVA_HOME=/usr/local/java

Apply setting dengan jalankan perintah berikut ini:

hduser@ubuntu:~$ . .bashrc

7. Configure SSH

Hadoop memerlukan akses SSH untuk memanage node-node-nya. Kita perlu melakukan konfigurasi akses SSH ke localhost untuk user hadoop yang sudah kita buat sebelumnya, dan ke data node-nya nantinya.

a. install ssh

hduser@ubuntu:~$ sudo apt-get install ssh

b. generate an SSH key untuk user hadoop

hduser@ubuntu:~$ ssh-keygen -t rsa -P ""

Perintah di atas akan membuat RSA key pair dengan password kosong. Sebenarnya penggunaan password kosong ini tidak disarankan dari sisi keamanan, namun dalam hal ini kita memerlukan akses tanpa password untuk keperluan interaksi Hadoop dengan node-node-nya. Tentunya kita tidak ingin memasukkan password setiap kali Hadoop mengakses node-nya, bukan?

c. enable akses SSH ke local machine dengan key yang baru dibuat

hduser@ubuntu:~$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

d. test setting SSH

Langkah terakhir adalah testing setup SSH tersebut dengan melakukan koneksi ke localhost menggunakan user hadoop. Langkah ini juga diperlukan untuk menyimpan host key dingerprint ke file known_host milik user hadoop.
hduser@ubuntu:~$ ssh localhost
The authenticity of host 'localhost (::1)' can't be established.
ECDSA key fingerprint is 34:72:32:43:11:87:fa:83:7e:ea:13:e6:43:68:28:0f.
Are you sure you want to continue connecting (yes/no)? yes

Langkah terakhir adalah testing setup SSH tersebut dengan melakukan koneksi ke localhost menggunakan user hadoop. Langkah ini juga diperlukan untuk menyimpan host key fingerprint ke file known_host milik user hadoop.

8. Instalasi Hadoop

Download hadoop di https://www.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz, extract ke sebuah direktori, misalnya /usr/local/hadoop.

hduser@ubuntu:~$ cd /usr/local
hduser@ubuntu:~$ sudo tar xzf hadoop-2.6.0.tar.gz
hduser@ubuntu:~$ sudo cp -Rh hadoop-2.6.0 /usr/local/hadoop
Update File .bashrc

Tambahkan baris berikut ini ke akhir file $HOME/.bashrc dari user hadoop. Jika anda menggunakan shell selain bash, maka anda perlu meng-update config file yang bersesuaian. Berikut ini setting untuk instalasi openjdk7:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END

Untuk instalasi java di /usr/local/java, sesuaikan setting JAVA_HOME sbb:

export JAVA_HOME=/usr/local/java
Create direktori untuk hadoop filesystem

Berikut ini beberapa direktori yang perlu dibuat untuk hadoop file system, yang akan di-set dalam parameter dfs.namenode.name.dir , dfs.datanode.name.dir di file

/usr/local/hadoop/etc/hadoop/conf/hdfs-site.xml dan parameter hadoop.tmp.dir di file /usr/local/hadoop/etc/hadoop/conf/core-site.xml: /app/hadoop/namenode, /app/hadoop/datanode dan /app/hadoop/tmp
hduser@ubuntu:~$ sudo mkdir -p /app/hadoop/namenode
hduser@ubuntu:~$ sudo chown hduser:hdgroup /app/hadoop/namenode

hduser@ubuntu:~$ sudo mkdir -p /app/hadoop/datanode hduser@ubuntu:~$ sudo chown hduser:hdgroup /app/hadoop/datanode

hduser@ubuntu:~$ sudo mkdir -p /app/hadoop/tmp
hduser@ubuntu:~$ sudo chown hduser:hdgroup /app/hadoop/tmp
Catatan : jika langkah di atas terlewat, maka kemungkinan anda akan mendapatkan error permission denied atau java.io.IOException ketika anda akan memformat HDFS namenode.

Update Hadoop File Configuration

Berikut ini beberapa file yang perlu di-update di direktori /usr/local/hadoop/etc/hadoop/etc/hadoop

a. File hadoop-env.sh

hduser@ubuntu:~$ vi $HADOOP_INSTALL/etc/hadoop/hadoop-env.sh

# The java implementation to use. Required.

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

b. File-file *-site.xml

Dalam file /usr/local/hadoop/etc/hadoop/core-site.xml: <property> <name><span class="explanatory-dictionary-highlight" data-definition="explanatory-dictionary-definition-52">hadoop</span>.tmp.dir</name> <value>/app/<span class="explanatory-dictionary-highlight" data-definition="explanatory-dictionary-definition-52">hadoop</span>/tmp</value> <description>A base for other temporary directories.</description> </property> <property> <name>fs.default.name</name> <value>hdfs://ubuntu1:54310</value> <description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.</description> </property>

Dalam file /usr/local/hadoop/etc/hadoop/mapred-site.xml:

<property> <name>mapred.job.tracker</name> <value>ubuntu1:54311</value> <description>The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task. </description> </property>

Dalam file /usr/local/hadoop/etc/hadoop/conf/hdfs-site.xml:

<property> <name>dfs.replication</name> <value>2</value> <description>Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time. </description> </property> <property> <name>dfs.data.dir</name> <value>file:///app/<span class="explanatory-dictionary-highlight" data-definition="explanatory-dictionary-definition-52">hadoop</span>/datanode</value> <final>true</final> </property> <property> <name>dfs.name.dir</name> <value>file:///app/<span class="explanatory-dictionary-highlight" data-definition="explanatory-dictionary-definition-52">hadoop</span>/namenode</value> <final>true</final> </property> <property> <name>dfs.namenode.http-address</name> <value>ubuntu1:50070</value> <description>The address and the base port where the dfs namenode web ui will listen on. </description> </property>

Lho, gitu aja? Oh tentu tidak..!

Langkah selanjutnya akan dijelaskan pada bagian 2, so stay tune 🙂

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Nov 19 / 2015
  • Comments Off on Ledakan Data di Bidang Genomics
Big Data, Forum Info, Implementation, Uncategorized

Ledakan Data di Bidang Genomics

Salah satu bidang yang menghasilkan data yang sangat besar adalah genomics. Seiring dengan semakin terjangkaunya biaya pemetaan dan semakin banyak genome yang dianalisis, data genomics akan mengalami ledakan yang dahsyat. Bidang ini bahkan diperkirakan akan menjadi penghasil data terbesar, melebihi data astronomi misalnya.

Menurut laporan yang dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195), di tahun 2025 akan ada antara 100 juta sampai 2 milyar human genome yang telah dipetakan. Kapasitas penyimpanan data untuk keperluan ini saja dapat mencapai 2–40 exabytes (1 exabyte = 1018 bytes), karena jumlah data yang harus disimpan untuk sebuah genome setidaknya memerlukan 30 kali ukuran data genome itu sendiri. Hal ini untuk mengantisipasi adanya kesalahan yang mungkin timbul selama proses pemetaan dan analisis pendahuluan.

Jumlah tersebut melebihi perkiraan kapasitas penyimpanan data YouTube di tahun 2025, yang sebesar 1-2 exabytes, dan data Twitter yang diperkirakan mencapai 1-17 petabytes per tahun (1 petabyte = 1015 bytes). Jumlah data tersebut juga melebihi perkiraan data tahunan Square Kilometre Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298), sebuah project yang direncanakan menjadi project astronomi terbesar di dunia.

Namun permasalahan penyimpanan ini hanyalah salah satu permasalahan saja. Keperluan komputasi untuk mengumpulkan, mendistribusi, dan menganalisis data genomics ini akan jauh lebih besar lagi.

Perubahan Besar

Gene Robinson, ahli biologi UIUC yang juga salah satu co-author paper tersebut menyatakan, hal ini menegaskan bahwa bidang genomics akan memberikan banyak tantangan berat. Beberapa perubahan besar perlu dilakukan untuk dapat menangani ukuran data yang besar dan kebutuhan akan kecepatan analisis.

Narayan Desai, seorang computer scientist dari Ericsson San Jose mengatakan bahwa perbandingan data dengan bidang lain seperti dilaporkan dalam paper tersebut sebenarnya kurang tepat. Ada banyak hal yang tidak diperhatikan dalam melakukan perbandingan, seperti misalnya laporan tersebut menganggap ringan pemrosesan dan analisis video dan teks yang dilakukan oleh YouTube maupun Twitter, seperti misalnya untuk keperluan iklan yang terarah maupun penyajian video ke dalam format yang beragam.

Meskipun demikian, genomics tetap harus memperhatikan permasalahan mendasar mengenai berapa besar data yang sebenarnya akan dihasilkan di bidang ini. Karena sehebat apapun teknologi, kapasitas penyimpanan dan komputasi untuk mengumpulkan dan menganalisis data tetaplah terbatas, sehingga kedua hal tersebut harus digunakan dengan sebaik-baiknya. Karena proses pemetaan semakin terjangkau, komunitas genomics pun tumbuh dengan sangat pesat dan tersebar. Komunitas yang tersebar ini cukup menyulitkan dalam mengatasi permasalahan seperti yang disebutkan di atas. Bidang-bidang lain yang memerlukan banyak resource semacam ini, sseperti misalnya high-energy physics, komunitasnya lebih terpusat. Mereka memerlukan koordinasi dan konsensus untuk perancangan instrumen, pengumpulan data, dan strategi sampling. Berbeda dengan data genomics yang terkotak-kotak, meskipun akhir-akhir ini mulai muncul ketertarikan untuk menyimpan data-data genomics secara terpusat dalam cloud.

Kerja Sama

Berbeda dengan ahli genomics, setelah data mentah dikumpulkan para astronomer dan ahli fisika segera memprosesnya, dan kemudian data mentah tersebut dibuang. Cara ini menyederhanakan langkah-langkah distribusi dan analisis selanjutnya. Akan tetapi genomics belum memiliki standar baku untuk konversi data mentah menjadi data yang sudah diproses.

Menurut paper tersebut, jenis analisis yang ingin dilakukan oleh para ahli biologi terhadap data genomics ini juga sangat beragam dan metode yang digunakan belum tentu dapat berfungsi baik dengan peningkatan volume data yang besar. Misalnya untuk membandingkan dua genome diperlukan perbandingan antara dua set varian genetik. “Jika kita mempunyai satu juta genome, maka jumlah perbandingannya adalah satu juta kuadrat”, papar Saurabh Sinha, seorang komputer saintis dari UIUC dan salah satu co-author dari paper tersebut. “Algoritma yang digunakan untuk melakukan proses tersebut akan sangat kewalahan.”

Robert Brunner, seorang Observational cosmologist dari UIUC mengatakan, alih-alih membandingkan bidang ilmu, dia ingin ada sebuah kerja sama dalam mengatasi permasalahan terkait big-data yang mencakup banyak bidang, sehingga didapatkan manfaat yang lebih besar. Misalnya keterbatasan jenjang karir untuk spesialisasi komputasi dalam dunia sains, dan kebutuhan akan jenis penyimpanan dan kapasitas analisis yang belum tentu dapat dipenuhi oleh dunia industri.

“Genomics menghadapi tantangan yang sama dengan astronomi, ilmu mengenai atmosfer, ilmu tentang tumbuh-tumbuhan, fisika partikel, dan domain-domain big data yang lain,” kata Brunner. “Yang penting untuk dilakukan saat ini adalah menentukan apa masalah yang dapat kita pecahkan bersama-sama.”

Diterjemahkan dari : Genome researchers raise alarm over big data

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Nov 17 / 2015
  • Comments Off on Microsoft Machine Learning Toolkit Bergabung ke Open Source
Big Data, Forum Info, Implementation, Uncategorized

Microsoft Machine Learning Toolkit Bergabung ke Open Source

Kurang dari seminggu setelah Google mengumumkan dibukanya status TensorFlow menjadi open source, Microsoft pun membuka akses ke machine learning platform mereka, DMTK (Distributed Machine Learning Toolkit).

DMTK dikembangkan oleh lab penelitian Microsoft Asia, dan di dalamnya mencakup server-based framework yang memungkinkan developer melakukan pemrograman machine learning dengan mudah. Toolkit ini juga mencakup dua algoritma yang dikembangkan Microsoft untuk melatih komputer untuk berbagai tugas.

Langkah Google dan Microsoft ini meramaikan persaingan dalam menanamkan pengaruh dan menciptakan tenaga-tenaga ahli di bidang machine learning, setelah sebelumnya di awal tahun ini Facebook juga membuka Torch , sistem deep-learning mereka. Sedangkan bagi Microsoft, strategi ini adalah langkah lebih jauh untuk menarik para developer, setelah mereka melengkapi Azure dengan kemampuan machine learning dalam cloud.

Saat ini DMTK sudah tersedia di github dengan lisensi MIT.

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Nov 16 / 2015
  • Comments Off on Kini Anda pun Bisa Ikut Mengembangkan Google Machine Learning Engine
Big Data, Forum Info, Implementation, Uncategorized

Kini Anda pun Bisa Ikut Mengembangkan Google Machine Learning Engine

Baru-baru ini Google mengumumkan bahwa mereka membuka TensorFlow menjadi open source dengan lisensi Apache 2.

Tensor Flow sendiri adalah machine learning engine yang dipakai Google di banyak aplikasi mereka, mulai dari pengenalan suara, SmartReply yang membantu pengguna dengan mengidentifikasi email penting sekaligus memberikan usulan balasannya, pengenalan gambar yang memungkinkan kita melakukan pencarian berdasarkan foto, mengenali dan menerjemahkan tulisan dari sebuah foto, dan lain-lain.

Menurut Google, engine ini dapat digunakan baik dalam riset maupun komersial, mulai dari mesin besar sampai telepon genggam. TensorFlow menggunakan metode deep learning dalam prosesnya, namun dapat juga menggunakan reinforcement learning and logistic regression.

Tentunya tidak semua aspek dari machine learning engine ini dibuka untuk umum. Saat ini hanya beberapa algoritma saja yang dicakup dalam paket open source ini. Dan tentunya Google tidak membuka arsitektur dari infrastruktur luar biasa canggih di balik engine tersebut. Versi open source ini pun adalah versi yang hanya akan berjalan di single computer, bukan yang bisa berjalan di jaringan yang besar. Namun demikian, langkah ini tetaplah sebuah langkah yang luar biasa, mengingat TensorFlow adalah bagian dari aplikasi inti Google saat ini.

Dengan langkah ini Google mengharapkan akan banyak pihak yang ikut mengembangkan teknologi Artificial Intelligence, terutama dengan menggunakan tools mereka. Dengan demikian diharapkan teknologi ini dapat berkembang dengan lebih cepat. Cara ini juga diharapkan dapat mencetak banyak ahli di bidang AI, dan membantu Google untuk menemukan calon-calon potensial untuk ditarik bekerja di Google.

Google sudah mempersiapkan website yang dilengkapi dengan tutorial dan dokumentasi untuk mulai mempelajari machine learning. Kini siapapun dapat ikut serta mengembangkan TensorFlow, termasuk anda.

Selamat belajar!

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Nov 03 / 2015
  • Comments Off on Pivotal Analytics Engine Memperkuat Ekosistem Open Source Hadoop
Apache, Big Data, Forum Info, Implementation, Uncategorized

Pivotal Analytics Engine Memperkuat Ekosistem Open Source Hadoop

Akhir september 2015 lalu, Pivotal mengumumkan telah menyumbangkan HAWQ dan MADLib kepada dunia open source melalui Apache Software Foundation. Pivotal merupakan sebuah perusahaan penyedia perangkat lunak dan layanan pengembangan aplikasi untuk data dan analisis berbasis teknologi komputasi awan.

Apache HAWQ, diluncurkan pertama kali tahun 2013 dengan nama Pivotal HAWQ, yang dibangun berdasar pengetahuan dan pengalaman yang diperoleh dari pengembangan data warehouse sistem Pivotal Greenplum dan PostgreSQL. Apache HAWQ menyediakan kemampuan untuk melakukan query dengan antarmuka SQL pada Hadoop secara native. HAWQ dapat membaca dan menulis data dari HDFS.

Apache HAWQ memiliki beberapa keunggulan :

1. Kinerja yang sangat tinggi
Arsitektur pemrosesan paralel HAWQ memberikan throughput kinerja tinggi dan waktu respon yang cepat, berpotensi mendekati real time, dan dapat menangani data berskala petabyte, serta beroperasi secara native dengan Hadoop.

2.ANSI SQL
mendukung antarmuka SQL, yang tentu saja akan mudah diintegrasikan dengan aplikasi lain termasuk BI/visualisasi tools, serta mampu mengeksekusi query yang kompleks.

3. Integrasi dengan Ekosistem Hadoop.
Terintegrasi dan dapat dikelola melalui YARN, serta dapat diinstal dengan AMBARI. HAWQ juga mendukung Parquet, AVRO, HBase dan lainnya. HAQW mudah diupgrade untuk menjaga kinerja dan kapasitas melalui penambahan nodes.

MADlib merupakan machine learning library untuk SQL yang terintegrasi dengan HAWQ. MADlib dikembangkan oleh Pivotal, bekerjasama dengan peneliti dari Unversitas California, Berkeley, Universitas Standford, Universitas Florida dan klien dari Pivotal. MADlib telah digunakan di bidang finansial, otomotif, media, telekomunikasi dan industri transportasi.

Dalam press release yang diumumkan melalui pivotal.io, Gavin Sherry, Vice President dan CTO Pivotal, berkeyakinan bahwa teknologi HAWQ dan MADlib sebagai proyek inkubasi Apache akan memberikan kemampuan pemrosesan SQL yang belum pernah terjadi sebelumnya kepada pengembang dan pengguna Hadoop.

sumber :

http://pivotal.io/big-data/press-release/pivotal-open-sources-top-analytics-engine

http://hawq.incubator.apache.org/

http://madlib.incubator.apache.org/

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Oct 13 / 2015
  • Comments Off on Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa
Big Data, Forum Info, Implementation, IoT, Uncategorized

Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa

Menangani bencana alam adalah sebuah pekerjaan yang tidak mudah.Sering kali diperlukan koordinasi berlapis-lapis dan komunikasi antara berbagai organisasi bahkan berbagai negara untuk dapat memberikan bantuan dengan efektif. Permasalahan ini masih ditambah lagi dengan keadaan wilayah yang rusak setelah tertimpa bencana alam, dan putusnya jalur-jalur komunikasi akibat kerusakan infrastruktur. Di beberapa negara berkembang, infrastruktur ini tidak memadai bahkan kadang tidak tersedia sama sekali. Pemerintah biasanya memegang peranan penting dalam mengatasi tantangan-tantangan logistik semacam ini, akan tetapi beberapa tahun belakangan ini ada lagi hal penting yang terbukti sangat membantu penanganan bencana, yaitu adanya usaha pemerintah untuk mendukung kebebasan penggunaan dan penyebaran data sesudah kejadian-kejadian darurat.

Inisiatif untuk menyediakan open data dan mendukung pengembangan teknologi baru terkait data, terbukti telah menyelamatkan banyak jiwa. Mulai dari bencana gempa bumi tahun 2010 di Haiti sampai dengan gempa bumi di Nepal tahun 2015. Pembuat kebijakan di seluruh dunia perlu melihat contoh-contoh nyata tersebut untuk dapat meningkatkan dukungan mereka dalam hal penanggulangan bencana, maupun untuk lebih mempersiapkan diri menghadapi kemungkinan adanya bencana di masa yang akan datang.

Open data telah menjadi salah satu alat yang paling bermanfaat dalam membantu para relawan dan pekerja tanggap darurat, dengan memberikan informasi geospasial yang terkini dan akurat, dan memberikan informasi yang sangat diperlukan untuk melakukan perencanaan dan penentuan prioritas dalam pengambilan keputusan bagi organisasi kemanusiaan maupun pemerintah. Platform data geospasial semacam OpenStreetMap, yaitu sebuah project pemetaan yang bersifat open source, memungkinkan para relawan untuk memperkirakan tingkat kerusakan dengan cepat, dan memonitor pelaksanaan penanggulangan bencana.

Sesudah super taifun Haiyan melanda Filipina pada bulan November 2013, Palang Merah Internasional dan para relawan online berkolaborasi dalam melakukan lebih dari 1.5 juta update pada OpenStreetMap dalam waktu 6 hari saja, dengan menggabungkan laporan yang bersifat crowdsource dari berbagai pekerja lapangan dengan data dari lembaga geospasial Amerika serta data dari pemerintah Filipina.

Untuk mengantisipasi kedatangan Hurricane Sandy, pemerintah kota New York menerbitkan peta daerah evakuasi yang terbaru di portal open datanya, dan bekerja sama dengan organisasi seperti The New York Times dan Google’s Crisis Response Team untuk mengolah dan menggabungkan data dari penampungan, pusat distribusi makanan, dan jalur-jalur evakuasi. Sebuah pekerjaan yang diperkirakan memerlukan 10 kali lipat tenaga dibanding metode tradisional.

Saat ini usaha penanggulangan bencana untuk Nepal memanfaatkan Humanitarian Data Exchange, sebuah open portal yang menggabungkan data-data penting dari pemerintah, lembaga kemanusiaan, dan sumber akademik, yang sebelumnya sangat sulit atau memakan banyak waktu bagi para relawan dan pekerja sosial untuk mendapatkannya. Sebagai contoh, para relawan dapat menemukan data sebaran curah hujan dari USAID bersama dengan data batas administratif Nepal dari University of Georgia, serta data harga bahan makanan dari World Food Programme dari PBB.

Selain menyediakan data yang penting, pemerintah juga dapat berperan penting dalam mendukung inovasi teknologi yang dapat membantu para relawan. Sesudah Badai Sandy melanda New York, dilakukan upaya penanggulangan bencana menggunakan teknologi analytics yang dibuat oleh Palantir, sebuah perusahaan yang dimulai dari pendanaan CIA, untuk memprediksi lokasi-lokasi yang mungkin paling memerlukan obat-obatan, makanan, dan pakaian, serta mengkoordinasikan usaha untuk mengatasinya. Di Nepal, para relawan bencana berhasil menyelamatkan empat korban yang terjebak dalam reruntuhan dengan menggunakan sensor canggih dari NASA dan U.S. Department of Homeland Security, yang dapat mendeteksi detak jantung di balik timbunan reruntuhan. Dan baru-baru ini U.S. National Science Foundation bersama Lembaga Sains dan Teknologi Jepang menjalin kerja sama untuk mengembangkan teknologi tanggap darurat yang bersifat data-driven, mulai dari sistem penyampaian informasi yang context-aware sampai dengan algoritma pencarian yang dapat mengenali bau, untuk mendeteksi polutan dan bahan berbahaya menggunakan jaringan sensor dalam air maupun udara.

Tentunya tidak hanya pemerintah yang berperan penting dalam hal penanggulangan bencana, sektor swasta pun dapat menyumbangkan data yang penting untuk kejadian-kejadian darurat. Ketika gempa bumi dan tsunami Tohoku memporak porandakan Jepang pada 11 Maret 2011, pemerintah Jepang meminta pabrikan mobil semacam Toyota dan Honda untuk mengaktifkan GPS tracking di kendaraan yang mereka buat. Perusahaan-perusahaan ini menggunakan data perjalanan pengguna mobil mereka, yang menunjukkan di mana para pengemudi memutar arah akibat kerusakan jalan, kecelakaan dan hambatan lainnya, untuk membuat peta yang akurat tentang jalur-jalur yang aman dan masih dapat dilalui dalam waktu hanya 24 jam setelah terjadinya bencana.

Jenis-jenis data tools ini telah terbukti sangat membantu aksi tanggap darurat dan dapat menyelamatkan banyak jiwa. Dukungan yang terus menerus dari pemerintah sangat mendukung kesuksesan upaya semacam ini. Meyadari hal ini, para pembuat kebijakan hendaknya mengetahui cara-cara untuk dapat mendukung secara proaktif pengembangan dan penggunaan teknologi data bagi penanggulangan bencana, dan melakukan upaya pencegahan terhadap potensi masalah yang bisa muncul, tanpa menunggu datangnya keadaan darurat. Sebagai contoh, sebagian besar data geospasial yang sangat penting bagi kegiatan tanggap darurat sumbernya adalah dari pemerintah, akan tetapi tanpa komitmen yang mengikat secara hukum bagi pemerintah dan lembaganya untuk membuka akses terhadap open data, data krusial ini bisa jadi tidak terakses oleh para relawan.

Di tingkat lokal, negara bagian dan propinsi, para pengambil keputusan mestinya mencontoh apa yang dilakukan oleh pemerintah kota New York dan membangun portal open data yang robust, berisi informasi yang bermanfaat bagi masyarakat di masa darurat. Negara-negara yang memiliki sarana hendaknya terus berinvestasi dalam riset dan pengembangan project data yang dapat menjadi penyelamat jiwa dalam keadaan bencana.

Seiring munculnya metode baru yang berbasiskan data, seperti misalnya penggunaan data telepon selular untuk mengawasi penyebaran Ebola di Afrika Barat, masyarakat mungkin khawatir akan resiko terganggunya privacy sehingga enggan untuk berpartisipasi. Di samping itu, negara dengan aturan privacy yang ketat mungkin tidak dapat mengikuti jejak Jepang dalam kesuksesannya memanfaatkan sistem emergency car tracking yang disebutkan di atas. Meski demikian, para pengambil keputusan memiliki tanggung jawab untuk mempertimbangkan dengan sungguh-sungguh bahwa keuntungan penggunaan teknologi yang dapat menyelamatkan jiwa ini bisa jadi jauh lebih besar dari resiko privacy yang mungkin timbul.

Meskipun bencana alam dan bencana lainnya mungkin tak dapat dihindarkan terjadinya, penggunaan data telah terbukti dapat mengurangi kerusakan dan kerugian material maupun jiwa yang ditimbulkannya. Dan dengan dukungan dari para pembuat keputusan, mestinya penggunaan data dan teknologinya akan dapat menyelamatkan jauh lebih banyak lagi jiwa.

Diterjemahkan dari : http://www.datainnovation.org/2015/07/big-data-means-big-relief-for-disaster-victims/

  • Oct 08 / 2015
  • Comments Off on Penerapan Deep Learning Dalam Mendeteksi Malware
Forum Info, Implementation, Uncategorized

Penerapan Deep Learning Dalam Mendeteksi Malware

Tim data science dari Cylance , tengah mengembangkan pendeteksi malware dengan menggunakan teknik yang disebut “Deep Learning”, sebuah subset lebih rinci dari machine learning. Teknik ini yang diklaim mampu mendeteksi dan menentukan apakah sepenggal kode mengandung malware atau tidak hanya dalam waktu 100 milidetik bahkan kurang.

Dengan peningkatan jumlah malware yang dihasilkan setiap hari, kebutuhan untuk metode yang lebih otomatis dan cerdas untuk belajar, beradaptasi, dan menangkap malware sangat penting. Cylance memiliki sampai 2 petabyte data set untuk digunakan dalam teknik machine learning.

Matt Wolf, kepala data science di Cylance, mengatakan bahwa ia dan timnya biasanya menggunakan beberapa ratus CPU yang berjalan selama berhari-hari untuk memproses dan bekerja dalam mengolah data, dan membutuhkan waktu berminggu-minggu bahkan bulanan untuk melatih mesin untuk belajar tentang hal-hal tersebut. Dibutuhkan ratusan gigabyte memori, CPU dan "mesin besar," katanya.

Menurut Wolf, premis utama di balik machine learning adalah pencocokan pola. Ketika melihat sebuah malware, mungkin tidak akan terlihat pola. Tapi ketika melihat setengah dari miliaran contoh, mungkin ada banyak sekali pola yang relatif mudah untuk dibedakan. Tujuan dari model ini adalah untuk menemukan pola-pola ini.

Konsep dalam penggunaan machine learning dan deep learning bukan merupakan suatu hal yang baru, tetapi dalam beberapa tahun terakhir hal ini menjadi lebih realistis untuk diimplementasikan. Dengan opsi komputasi awan membuat biaya komputasi big data menjadi lebih terjangkau, karena kita tidak perlu membangun data center dengan ratusan server lagi.

Sebuah sistem deep learning akhirnya bisa menggantikan alat deteksi malware yang ada saat ini, Wolff mengatakan. "Sebuah sistim machine learning lebih efektif dari mesin berbasis signature”

Untuk informasi lebih lengkap, dapat mengakases artikel Researchers Enlist Machine Learning In Malware Detection DISINI

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Oct 06 / 2015
  • Comments Off on idBigdata MeetUp #5
Forum Info, Komunitas, Uncategorized

idBigdata MeetUp #5

Setelah pada MeetUp sebelumnya idBigdata mengunjungi kota Bandung, pada MeetUp ke – 5 ini idBigdata memilih Surabaya sebagai tuan rumah. Antusiasme idBigdata-ers sudah terlihat sejak hari pertama pendaftaran dibuka. Bahkan beberapa idBigdata-ers sudah hadir di venue 1 jam sebelum acara dimulai.

MeetUp kali ini bekerjasama dengan Jurusan Sistem Informasi FTIS-ITS dan dibuka oleh Bp. Dr Eng Febriliyan Samopa, ketua Jurusan Sistem Informasi FTIF-ITS.

Acara ini terdiri dari 4 sesi, di mana pada setiap sesi disediakan waktu diskusi sehingga para peserta bisa langsung bertanya atau sharing tentang pemaparan topik yg sedang diberikan. Pada sesi pertama bapak Noor Azam dari KLAS (Kelompok Linux Arek Suroboyo) memaparkan topik khusus berjudul Open Source & Bigdata. Sesi ini berakhir bersamaan dengan masuknya waktu dzuhur dan makan siang.

Peserta berkumpul kembali di venue MeetUp pada pukul 13.00, dan sesi kedua dilanjutkan oleh ibu Nur Aini, M.Sc, Eng, ITS dengan judul yang cukup provokatif : Linked Data, Even A Cow Can Find Your Data. Topik berlanjut ke arah yg lebih teknis di sesi 3, oleh Joko Mulyono dari Solusi247 dengan tema khusus : Real Time Processing.

Topik terakhir dengan judul : Berkenalan Dengan Solr dipaparkan oleh Sigit Prasetyo dari idBigdata sekaligus menjadi penutup dari rangkaian acara MeetUp ke – 5 idBigdata di ITS kali ini.

Acara diikuti oleh berbagai kalangan mulai dari akademisi, implementor di bidang bisnis, dan juga dari pemerintahan. MeetUp ke-5 idBigdata ini juga dapat diakses secara online melalui live.idBigdata.com. Diharapkan acara MeetUp ini bisa terus berlanjut sehingga komunitas idBigdata bisa terus bersinergi, berkolaborasi, dan berinovasi.

IdBigdata-ers juga bisa mengakses seluruh rangkaian acara MeetUp sebelumnya di live.idbigdata.com

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Jun 18 / 2015
  • Comments Off on Connected Cows
Big Data, Implementation, Uncategorized

Connected Cows

Connected Cows

Fujitsu mengembang sebuah sistim untuk membantu peternak dalam mengembangbiakkan hewan ternaknya. Fujitsu menggunakan teknologi dan metode Big Data terkini untuk membantu salah satu industri tertua di dunia yaitu peternakan.

Sebuah presentasi yang sangat menarik yang dibawakan oleh Joseph Sirosh, Corporate Vice President of the Information Management and Machine Learning Microsoft, pada saat Strata+Hadoop di San Jose pada bulan Februari 2015 lalu. Ia menceritakan secara singkat mengenai sebuah sistim yang dapat membantu peternak sapi dalam memprediksi waktu yang tepat untuk melakukan inseminasi buatan, dengan memanfaatkan Komputasi Awan, IoT, Machine Learning dan Data Science.

Peternak sapi di Jepang merasa kesulitan untuk melakukan hal-hal misalnya untuk mengetahui saat yang tepat untuk melakukan inseminasi buatan. Dikarenakan tanda-tandanya sangatlah singkat dan seringkali terjadi pada saat malam hari. Hal ini cukup menyulitkan, apalagi jika sapi yang dipantau berjumlah ratusan bahkan ribuan. Belum lagi memantau penyakit yang diderita oleh sapi.

Fujitsu membuat sebuah pedometer yang digunakan untuk menghitung jumlah langkah sapi setiap saat. Pedometer ini diletakkan di kaki sapi ini memiliki baterai yang mampu bertahan sampai 5 tahun dan mampu bertahan pada kondisi yang buruk di kandang sapi. Data-data jumlah langkah sapi ini dikirimkan melalui internet dan dianalisa oleh aplikasi yang dibuat dalam platform Microsoft Azure dan notifikasi akan dikirim ke ponsel atau komputer peternak.

Metoda pendeteksian masa subur sapi dengan menggunakan pola langkah diklaim memiliki tingkat keberhasilan sebesar 95%. Selain itu, dapat ditentukan waktu inseminasi buatan yang tepat untuk menghasilkan sapi jantan atau sapi betina. Sapi untuk pedaging atau sapi untuk menghasilkan susu. Yang lebih menarik adalah dengan pola langkah dapat dideteksi 8 - 10 jenis penyakit yang diderita oleh hewan ternak tersebut.


"Connected Cows?" - Joseph Sirosh (Strata + Hadoop 2015)

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

Tertarik dengan Big Data beserta ekosistemnya? Gabung