:::: MENU ::::

Posts Categorized / Big Data

  • Oct 13 / 2015
  • Comments Off on Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa
Big Data, Forum Info, Implementation, IoT, Uncategorized

Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa

Menangani bencana alam adalah sebuah pekerjaan yang tidak mudah.Sering kali diperlukan koordinasi berlapis-lapis dan komunikasi antara berbagai organisasi bahkan berbagai negara untuk dapat memberikan bantuan dengan efektif. Permasalahan ini masih ditambah lagi dengan keadaan wilayah yang rusak setelah tertimpa bencana alam, dan putusnya jalur-jalur komunikasi akibat kerusakan infrastruktur. Di beberapa negara berkembang, infrastruktur ini tidak memadai bahkan kadang tidak tersedia sama sekali. Pemerintah biasanya memegang peranan penting dalam mengatasi tantangan-tantangan logistik semacam ini, akan tetapi beberapa tahun belakangan ini ada lagi hal penting yang terbukti sangat membantu penanganan bencana, yaitu adanya usaha pemerintah untuk mendukung kebebasan penggunaan dan penyebaran data sesudah kejadian-kejadian darurat.

Inisiatif untuk menyediakan open data dan mendukung pengembangan teknologi baru terkait data, terbukti telah menyelamatkan banyak jiwa. Mulai dari bencana gempa bumi tahun 2010 di Haiti sampai dengan gempa bumi di Nepal tahun 2015. Pembuat kebijakan di seluruh dunia perlu melihat contoh-contoh nyata tersebut untuk dapat meningkatkan dukungan mereka dalam hal penanggulangan bencana, maupun untuk lebih mempersiapkan diri menghadapi kemungkinan adanya bencana di masa yang akan datang.

Open data telah menjadi salah satu alat yang paling bermanfaat dalam membantu para relawan dan pekerja tanggap darurat, dengan memberikan informasi geospasial yang terkini dan akurat, dan memberikan informasi yang sangat diperlukan untuk melakukan perencanaan dan penentuan prioritas dalam pengambilan keputusan bagi organisasi kemanusiaan maupun pemerintah. Platform data geospasial semacam OpenStreetMap, yaitu sebuah project pemetaan yang bersifat open source, memungkinkan para relawan untuk memperkirakan tingkat kerusakan dengan cepat, dan memonitor pelaksanaan penanggulangan bencana.

Sesudah super taifun Haiyan melanda Filipina pada bulan November 2013, Palang Merah Internasional dan para relawan online berkolaborasi dalam melakukan lebih dari 1.5 juta update pada OpenStreetMap dalam waktu 6 hari saja, dengan menggabungkan laporan yang bersifat crowdsource dari berbagai pekerja lapangan dengan data dari lembaga geospasial Amerika serta data dari pemerintah Filipina.

Untuk mengantisipasi kedatangan Hurricane Sandy, pemerintah kota New York menerbitkan peta daerah evakuasi yang terbaru di portal open datanya, dan bekerja sama dengan organisasi seperti The New York Times dan Google’s Crisis Response Team untuk mengolah dan menggabungkan data dari penampungan, pusat distribusi makanan, dan jalur-jalur evakuasi. Sebuah pekerjaan yang diperkirakan memerlukan 10 kali lipat tenaga dibanding metode tradisional.

Saat ini usaha penanggulangan bencana untuk Nepal memanfaatkan Humanitarian Data Exchange, sebuah open portal yang menggabungkan data-data penting dari pemerintah, lembaga kemanusiaan, dan sumber akademik, yang sebelumnya sangat sulit atau memakan banyak waktu bagi para relawan dan pekerja sosial untuk mendapatkannya. Sebagai contoh, para relawan dapat menemukan data sebaran curah hujan dari USAID bersama dengan data batas administratif Nepal dari University of Georgia, serta data harga bahan makanan dari World Food Programme dari PBB.

Selain menyediakan data yang penting, pemerintah juga dapat berperan penting dalam mendukung inovasi teknologi yang dapat membantu para relawan. Sesudah Badai Sandy melanda New York, dilakukan upaya penanggulangan bencana menggunakan teknologi analytics yang dibuat oleh Palantir, sebuah perusahaan yang dimulai dari pendanaan CIA, untuk memprediksi lokasi-lokasi yang mungkin paling memerlukan obat-obatan, makanan, dan pakaian, serta mengkoordinasikan usaha untuk mengatasinya. Di Nepal, para relawan bencana berhasil menyelamatkan empat korban yang terjebak dalam reruntuhan dengan menggunakan sensor canggih dari NASA dan U.S. Department of Homeland Security, yang dapat mendeteksi detak jantung di balik timbunan reruntuhan. Dan baru-baru ini U.S. National Science Foundation bersama Lembaga Sains dan Teknologi Jepang menjalin kerja sama untuk mengembangkan teknologi tanggap darurat yang bersifat data-driven, mulai dari sistem penyampaian informasi yang context-aware sampai dengan algoritma pencarian yang dapat mengenali bau, untuk mendeteksi polutan dan bahan berbahaya menggunakan jaringan sensor dalam air maupun udara.

Tentunya tidak hanya pemerintah yang berperan penting dalam hal penanggulangan bencana, sektor swasta pun dapat menyumbangkan data yang penting untuk kejadian-kejadian darurat. Ketika gempa bumi dan tsunami Tohoku memporak porandakan Jepang pada 11 Maret 2011, pemerintah Jepang meminta pabrikan mobil semacam Toyota dan Honda untuk mengaktifkan GPS tracking di kendaraan yang mereka buat. Perusahaan-perusahaan ini menggunakan data perjalanan pengguna mobil mereka, yang menunjukkan di mana para pengemudi memutar arah akibat kerusakan jalan, kecelakaan dan hambatan lainnya, untuk membuat peta yang akurat tentang jalur-jalur yang aman dan masih dapat dilalui dalam waktu hanya 24 jam setelah terjadinya bencana.

Jenis-jenis data tools ini telah terbukti sangat membantu aksi tanggap darurat dan dapat menyelamatkan banyak jiwa. Dukungan yang terus menerus dari pemerintah sangat mendukung kesuksesan upaya semacam ini. Meyadari hal ini, para pembuat kebijakan hendaknya mengetahui cara-cara untuk dapat mendukung secara proaktif pengembangan dan penggunaan teknologi data bagi penanggulangan bencana, dan melakukan upaya pencegahan terhadap potensi masalah yang bisa muncul, tanpa menunggu datangnya keadaan darurat. Sebagai contoh, sebagian besar data geospasial yang sangat penting bagi kegiatan tanggap darurat sumbernya adalah dari pemerintah, akan tetapi tanpa komitmen yang mengikat secara hukum bagi pemerintah dan lembaganya untuk membuka akses terhadap open data, data krusial ini bisa jadi tidak terakses oleh para relawan.

Di tingkat lokal, negara bagian dan propinsi, para pengambil keputusan mestinya mencontoh apa yang dilakukan oleh pemerintah kota New York dan membangun portal open data yang robust, berisi informasi yang bermanfaat bagi masyarakat di masa darurat. Negara-negara yang memiliki sarana hendaknya terus berinvestasi dalam riset dan pengembangan project data yang dapat menjadi penyelamat jiwa dalam keadaan bencana.

Seiring munculnya metode baru yang berbasiskan data, seperti misalnya penggunaan data telepon selular untuk mengawasi penyebaran Ebola di Afrika Barat, masyarakat mungkin khawatir akan resiko terganggunya privacy sehingga enggan untuk berpartisipasi. Di samping itu, negara dengan aturan privacy yang ketat mungkin tidak dapat mengikuti jejak Jepang dalam kesuksesannya memanfaatkan sistem emergency car tracking yang disebutkan di atas. Meski demikian, para pengambil keputusan memiliki tanggung jawab untuk mempertimbangkan dengan sungguh-sungguh bahwa keuntungan penggunaan teknologi yang dapat menyelamatkan jiwa ini bisa jadi jauh lebih besar dari resiko privacy yang mungkin timbul.

Meskipun bencana alam dan bencana lainnya mungkin tak dapat dihindarkan terjadinya, penggunaan data telah terbukti dapat mengurangi kerusakan dan kerugian material maupun jiwa yang ditimbulkannya. Dan dengan dukungan dari para pembuat keputusan, mestinya penggunaan data dan teknologinya akan dapat menyelamatkan jauh lebih banyak lagi jiwa.

Diterjemahkan dari : http://www.datainnovation.org/2015/07/big-data-means-big-relief-for-disaster-victims/

  • Jun 18 / 2015
  • Comments Off on Connected Cows
Big Data, Implementation, Uncategorized

Connected Cows

Connected Cows

Fujitsu mengembang sebuah sistim untuk membantu peternak dalam mengembangbiakkan hewan ternaknya. Fujitsu menggunakan teknologi dan metode Big Data terkini untuk membantu salah satu industri tertua di dunia yaitu peternakan.

Sebuah presentasi yang sangat menarik yang dibawakan oleh Joseph Sirosh, Corporate Vice President of the Information Management and Machine Learning Microsoft, pada saat Strata+Hadoop di San Jose pada bulan Februari 2015 lalu. Ia menceritakan secara singkat mengenai sebuah sistim yang dapat membantu peternak sapi dalam memprediksi waktu yang tepat untuk melakukan inseminasi buatan, dengan memanfaatkan Komputasi Awan, IoT, Machine Learning dan Data Science.

Peternak sapi di Jepang merasa kesulitan untuk melakukan hal-hal misalnya untuk mengetahui saat yang tepat untuk melakukan inseminasi buatan. Dikarenakan tanda-tandanya sangatlah singkat dan seringkali terjadi pada saat malam hari. Hal ini cukup menyulitkan, apalagi jika sapi yang dipantau berjumlah ratusan bahkan ribuan. Belum lagi memantau penyakit yang diderita oleh sapi.

Fujitsu membuat sebuah pedometer yang digunakan untuk menghitung jumlah langkah sapi setiap saat. Pedometer ini diletakkan di kaki sapi ini memiliki baterai yang mampu bertahan sampai 5 tahun dan mampu bertahan pada kondisi yang buruk di kandang sapi. Data-data jumlah langkah sapi ini dikirimkan melalui internet dan dianalisa oleh aplikasi yang dibuat dalam platform Microsoft Azure dan notifikasi akan dikirim ke ponsel atau komputer peternak.

Metoda pendeteksian masa subur sapi dengan menggunakan pola langkah diklaim memiliki tingkat keberhasilan sebesar 95%. Selain itu, dapat ditentukan waktu inseminasi buatan yang tepat untuk menghasilkan sapi jantan atau sapi betina. Sapi untuk pedaging atau sapi untuk menghasilkan susu. Yang lebih menarik adalah dengan pola langkah dapat dideteksi 8 - 10 jenis penyakit yang diderita oleh hewan ternak tersebut.


"Connected Cows?" - Joseph Sirosh (Strata + Hadoop 2015)

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 16 / 2015
  • Comments Off on Mengintip Spark 1.4.0
Apache, Big Data, Hadoop, Spark

Mengintip Spark 1.4.0

spark

Tim developer Spark mengumumkan rilis keempat dari Spark versi 1. Rilis ini diklaim sebagai rilis terbesar dari Spark, yang melibatkan kontribusi dari 210 developer dan lebih dari 1000 perbaikan. Rilis ini diumumkan pada tanggal 11 Juni 2015 lalu.

Berbahagialah para penggemar R, karena pada rilis terbaru ini diperkenalkan untuk pertama kalinya SparkR yang merupakan R API untuk Spark. SparkR memungkinkan pengguna R untuk menganalisa dataset yang berjumlah besar dan menggunakan komputasi terdistribusi milik Spark untuk menjalankan proses analisa data dari shell milik R.

Spark 1.4 juga menambahkan fungsi untuk melakukan debugging secara visual dan utilitas untuk melakukan monitoring, yang didisain untuk membantu pengguna untuk memahami bagaimana aplikasi Spark berjalan.

Masih banyak lagi fitur-fitur yang ditambahkan baik dalam Spark Core, Spark SQL, Spark ML maupun Spark Stream. Untuk lebih detailnya dapat mengunjungi spark.apache.org/releases/spark-release-1-4-0.html

Sumber lain :
  1. www.databricks.com/blog/2015/06/11/announcing-apache-spark-1-4.html
  2. www.databricks.com/blog/2015/06/09/announcing-sparkr-r-on-spark.html
  3. www.zdnet.com/article/apache-spark-1-4-adds-r-language-and-hardened-machine-learning/
Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 16 / 2015
  • Comments Off on Big Data dan IoT meningkatkan layanan transportasi umum di London
Big Data, Implementation, IoT

Big Data dan IoT meningkatkan layanan transportasi umum di London

london transportation

Transportasi for London (TfL) menggunakan data transaksi pelanggan maupun data sensor untuk memberikan layanan yang lebih baik dan inovasi untuk memberikan kepuasan pada penggunanya. TfL merupakan sebuah badan pemerintah daerah yang mengelola dan mengawasi sistim transportasi bis, kereta api, taksi, jalan raya, jalur sepeda, jalan setapak dan bahkan feri yang digunakan oleh jutaan orang setiap harinya di kawasan London dan sekitarnya. Data diambil melalui sistem tiket serta sensor yang ada pada kendaraan dan sinyal lalu lintas, survei dan kelompok fokus, dan juga media sosial.

Lauren Sager-Weinstein, kepala analisis di TfL, mengatakan tentang dua prioritas utama dalam pengumpulan dan penganalisaan data yaitu layanan perencanaan perjalanan dan memberikan informasi kepada pelanggan.
"London tumbuh pada tingkat yang fenomenal," katanya.
"Populasi saat ini 8,6 juta dan diperkirakan akan mencapai 10 juta dengan cepat. Kita harus memahami bagaimana mereka berperilaku dan bagaimana mengelola kebutuhan transportasi mereka."

Data dan analisanya digunakan antara lain untuk :

  1. Pemetaan perjalanan. Data dibuat anonim dan digunakan untuk menghasilkan peta yang menunjukkan kapan dan dimana orang-orang bepergian, sehingga dapat memberikan gambaran secara keseluruhan yang lebih akurat, serta memungkinkan analisa yang lebih detail sampai pada level individu.
  2. Kejadian tak terduga. Analisa Big Data membantu TfL memberikan reaksi yang cepat ketika terjadi gangguan layanan transportasi. Seperti misalnya pada kejadian penutupan Putney Bridge yang dilintasi 870 ribu orang setiap harinya. Untuk mengatasi permasalahan semacam ini, informasi rute dan moda transportasi alternatif harus diberikan secara akurat.
  3. Berita perjalanan. Data perjalanan juga digunakan untuk mengidentifikasi pelanggan yang menggunakan rute tertentu secara rutin dan memberikan informasi terkini disesuaian dengan profile mereka.

TfL sedang berusaha untuk mengadopsi Hadoop dan solusi Open Source lainnya untuk mengatasi pertumbuhan data yang sangat cepat. Rencana kedepannya termasuk untuk meningkatkan kapasitas analisa real-time dan mengintegrasikan sumber data yang lebih banyak. TfL juga menyediakan data melalui API yang dapat digunakan oleh pengembang aplikasi lain. Semua itu bertujuan untuk memberikan layanan yang lebih baik mengenai perencanaan perjalanan dan informasi kepada pengguna jasa.

Sumber :
How Big Data and the Internet of Things improve public transport in London

Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 16 / 2015
  • Comments Off on Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan
Big Data, Implementation

Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan

ilustrasi ATC

UTC Aerospace Systems menggunakan data dari sistem onboard pesawat untuk memantau kondisi operasional dan posisi pesawat selama berada dalam rute penerbangan. Aircraft Data Management yang dimiliki oleh UTC Aerospace System menggunakan data sangat besar yang dihasilkan oleh pesawat, yang digunakan oleh awak operasi pesawat dan juga dapat digunakan secara bersamaan oleh tim operasional yang berada di darat. Penggabungkan informasi kondisi pesawat dengan informasi posisi memungkinkan operator untuk mendapatkan informasi yang jelas terhadap seluruh armada penerbangan yang ada pada waktu tertentu.

Laporan dan data dari kondisi dan posisi pesawat terintegrasi dengan berbagai jenis penyedia jasa komunikasi, termasuk SATCOM atau ACARS, yang mengintegrasikan antara sistim onboard pada pesawat dengan portal komunikasi selama penerbangan. Semua ini berkat Aircraft Interface Device (AID) yang dimiliki oleh UTC Aircraft System. Semua anomali informasi apapun harus dapat dideteksi dan dikirimkan kepada tim operasional yang berada di darat secara otomatis dan cepat, sehingga dapat meningkatkan faktor keselamatan penerbangan.

Untuk informasi selanjutnya dapat mengakses artikel Big Data helps UTC Aerospace Systems monitor health and position of aircraft in flight

Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 15 / 2015
  • Comments Off on Hive: Schema On Read
Apache, Big Data, Hadoop

Hive: Schema On Read

HIVE

Apa itu schema?

Bagi pengguna Microsoft Office Excel tentu tidak asing dengan capture tampilan di bawah ini:

Untuk mendapatkan informasi yang tepat dari capture diatas, tentunya diperlukan jawaban dari beberapa pertanyaan berikut:
  1. Berapakah jumlah item informasi dari capture di atas?
  2. Apakah yang dijelaskan oleh masing-masing item informasi yang ada?
  3. Apakah kita dapat melakukan formulasi perhitungan dari item informasi yang ada?

Pertanyaan poin.1 dapat dijelaskan dengan capture berikut:

Jumlah kolom pada Excel menjelaskan jumlah item informasi yaitu terdapat 5 Item informasi yang terdapat pada kolom "A","B","C","D","E".

Pertanyaan poin.2 dapat dijelaskan dengan capture berikut:

Informasi nama kolom "A","B","C","D","E" tidak cukup menjelaskan konten informasi yang ada, sehingga diperlukan header/title yaitu: "Nama", "Jenis Kelamin", "Tempat Lahir", "Tanggal Lahir" dan "Umur".

Pertanyaan poin.3 dapat dijelaskan dengan capture berikut:

Kolom "D" dikategorikan sebagai tipe data "DATE" dan kolom "E" dikategorikan sebagai tipe data "NUMBER". Nilai pada kolom "E" diperoleh dari perhitungan/calculation yang mungkin dilakukan pada kolom dengan Tipe Data "NUMBER".

Poin-poin pertanyaan dan jawaban diatas sudah menjelaskan apa itu "schema" yang dapat digunakan untuk mempermudah dalam mengakses dan mengolah informasi.

Schema pada RDBMS

SQL syntax sering digunakan untuk mengakses data-data yang ada di RDBMS (Database), sehingga untuk dapat mengakses data harus dilakuan proses loading data ke Database terlebih dahulu.

RDBMS bekerja dengan mekanisme "schema on write", sehingga pada saat proses loading data juga dilakukan validasi data source untuk memastikan agar data yang tersimpan di database memenuhi kriteria "schema" yang didefinisikan.

Berikut adalah contoh syntax create table pada RDBMS:

Pada perintah create table tersebut terdapat beberapa bagian yang merupakan "schema" untuk memastikan agar data yang tersimpan pada table tersebut memenuhi kriteria/batasan sebagai berikut:

  1. Nilai pada kolom "editor_key" tidak boleh kosong: not null
  2. Nilai pada kolom "editor_hire_date" harus merupakan informasi dengan format tanggal yang benar: date
  3. Nilai pada kolom "active_ck" hanya boleh memiliki salah satu dari dua nilai "Y" atau "N": check
  4. Nilai pada kolom "ed_name_un" tidak boleh ada yang sama: unique

Data yg sukses masuk ke database RDBMS hanyalah yang memenuhi kriteria "schema" yang di definisikan, data yg tdk sesuai akan ter-reject.

Tentunya RDBMS harus mengalokasikan resource tersendiri untuk menjalankan Proses validasi berdasarkan definisi "schema" pada saat loading data, hal ini menjadi tantangan tersendiri apabila data yang akan di loading dalam ukuran yang sangat besar.

RDBMS memiliki kendali sepenuhnya terhadap data yg diload ke database, sehingga untuk kebutuhan sharing data perlu dilakukan proses extract data kembali ke bentuk flatfile terlebih dahulu yang juga memerlukan alokasi resource tersendiri.

Schema pada HIVE

Akses data yang tersimpan pada environtment HADOOP (HDFS) menggunakan SQL-Like syntax dimungkinkan dengan menggunakan HIVE.

Hive bekerja dengan mekanisme "schema on read", sehingga proses upload data ke HDFS menggunakan hive tidak melalui proses validasi untuk memenuhi kriteria "schema" yang di definisikan:

Contoh perintah create table di HIVE yang berfungsi sebagai "schema":

CREATE TABLE siswa
(
nama STRING,
jenis_kelamin STRING,
tempat_lahir STRING,
tanggal_lahir TIMESTAMP
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|';
Pada contoh perintah create table diatas saya akan menggunakan kolom tanggal_lahir yang memiliki tipe data TIMESTAMP dalam menjelaskan penggunaan "schema" pada HIVE.

Bagian berikut memperlihatkan content dari file siswa.dat yang nantinya akan diakses melalui table siswa.

hive> ! head /home/impala-dev/siswa.dat;

Raisa|Perempuan|Bogor| 2005-13-01 00:00:00.0
Rafi|Laki-laki|Bekasi|2003-03-04 00:00:00.0
Rifqi|Laki-laki|Bogor|2008-11-06 00:00:00.0

Delimiter yang digunakan untuk memisahkan kolom pada content file siswa.dat adalah karakter "|", pada baris pertama kolom ke-4 sengaja digunakan data tanggal dengan informasi bulan ke-13 untuk keperluan testing.

File siswa.dat merupakan OS File yang akan diupload ke HDFS menggunakan HIVE.

Setelah table siswa ter-create, maka dilakukan upload data ke HDFS dari file siswa.dat sekaligus agar dapat diakses melalui table siswa.

hive> LOAD DATA LOCAL INPATH '/home/impala-dev/siswa.dat' INTO TABLE siswa;
Copying data from file:/home/impala-dev/siswa.dat
Copying file: file:/home/impala-dev/siswa.dat
Loading data to table lab1.siswa
Table lab1.siswa stats: [numFiles=1, numRows=0, totalSize=99, rawDataSize=0]
OK
Time taken: 0.937 seconds

Bagian berikut memperlihatkan bahwa content dari file siswa.dat sudah berhasil terupload di HDFS.

hive> ! hadoop dfs -cat /user/impala-dev/lab1/siswa/siswa.dat;

Raisa|Perempuan|Bogor|2005-13-01 00:00:00.0
Rafi|Laki-laki|Bekasi|2003-03-04 00:00:00.0
Rifqi|Laki-laki|Bogor|2008-11-06 00:00:00.0

Terlihat pada content data baris pertama bahwa meskipun nilai kolom ke-4 berupa karakter dengan nilai bulan ke-13 yang tidak memenuhi kriteria definisi kolom tanggal_lahir yang memiliki tipe TIMESTAMP pada table siswa, namun data tetap sukses terupload ke HDFS.

Bagian berikut memperlihatkan bahwa content dari file siswa.dat yang sudah berhasil ter-upload di HDFS dapat diakses menggunakan SQL-like Syntax.

hive> select * from siswa;
Raisa Perempuan Bogor NULL
Rafi Laki-laki Bekasi 2003-03-04 00:00:00
Rifqi Laki-laki Bogor 2008-11-06 00:00:00
Time taken: 0.324 seconds, Fetched: 3 row(s)

Terlihat pada baris pertama kolom ke-4 nilai "2005-13-01 00:00:00.0" tidak muncul dan digantikan dengan NULL, hal ini menjelaskan bahwa Hive bekerja dengan mekanisme "schema on read" yaitu pada saat syntax SQL-Like dijalankan HIVE melakukan validasi untuk memastikan nilai kolom yang di query harus memenuhi kriteria pada definisi "schema" (type data pada kolom tanggal_lahir yang memiliki tipe TIMESTAMP pada table siswa).

Berbeda dengan RDBMS yang memungkinkan dilakukannya validasi yang komplek pada saat loading data ke database (schema on write), hive tidak melakukan validasi yang komplek pada saat menjalakan syntax SQL (schema on read).

Mapreduce code dengan logic yang komplek untuk kebutuhan pre-process agar diperoleh output yang memenuhi kriteria definisi "schema" dapat dibuat menggunakan Tools HGrid247 yang berbasis GUI dengan design Flow Process melalui Drag & Drop.

Contributor :


Imam Turmudi
Seorang Project Manager yang gemar bersepeda lulusan Universitas Diponegoro. Pertama kali mengenal Database Tools pada saat dibangku SMA, yaitu produk DBASE III PLUS. Pernah mengenyam pengalaman membuat aplikasi menggunakan bahasa Assembler untuk microprocessor x86 dan microcontroller MCS-51. Setelah terjun ke dunia kerja cukup intens berinteraksi dengan produk RDBMS menggunakan SQL & PL-SQL. Saat ini sedang tertarik untuk mengimplementasikan pengalaman yang diperoleh di area RDBMS untuk solusi Big Data.

  • May 04 / 2015
  • Comments Off on idBigData MeetUp #3
Big Data, Forum Info, Komunitas

idBigData MeetUp #3

suasana kelas idBigData MeetUp #3

Bekerjasama dengan Departemen Teknik Elektro FTUI, kali ini idBigData mengunjungi Depok untuk mengadakan MeetUp ketiga, pada tanggal 24 april 2015 kemarin. idBigData MeetUp merupakan kegiatan rutin yang lebih dari sebagai ajang berkumpul dan saling sapa, tetapi juga untuk berbagi ilmu.

Kepala Departemen Teknik Elektro FTUI, Ir. Gunawan Wibisono, Msc, PhD, dalam sambutan pembukaan mengatakan bahwa Departemen Teknik Elektro FTUI telah menerapkan mata kuliah yang terintegrasi dengan sertifikasi. Hal ini dilakukan dalam rangka mempersiapkan sumber daya yang siap bersaing di dunia kerja Indonesia yang mulai Agustus 2015 harus terbuka dalam kerangka Masyarakat Ekonomi Asean. Sementara itu Sigit Prasetyo, sebagai kuncen idBigData, memberikan sedikit bocoran bahwa untuk tahun ini idBigData akan merencanakan konferensi bigdata Indonesia yg ke-2 sebagai rangkaian dari program berbagi pengetahuan kepada komunitas.

Pembicara pertama, Beno K Pradekso, CEO PT Dua Empat Tujuh, dengan presentasinya Big Data Boost Business Productivity, bercerita mengenai bagaimana perkembangan big data dan bagaimana pengaruhnya terhadap perkembangan teknologi yang mengikutinya. Pada kesempatan ini pula beliau memperkenalkan kembali salah satu tools Hadoop data processing yang dikembangkan oleh PT Dua Empat Tujuh, yaitu HGrid247.

MapR Technologies yang merupakan perusahaan di balik distro hadoop MapR, juga turut berpartisipasi dalam kegiatan MeetUp idBigData kali ini. Allen Day, Principal Data Scientist MapR Technologies, menjelaskan bagaimana Hadoop berperan dalam pemrosesan data genomics.

Pada sesi ke tiga Ardiansyah M.Eng, DTE FTUI, memperkenalkan  Big Data Training & Research Collaboration at DTE-FTUI. Dilanjutkan dengan sesi terakhir yang dibawakan oleh Dwika Sudrajat, Director of VIDE Freeman Consulting Group dengan topic berjudul “Solution and Business Big Data”

idBigData Meetup #3 yang dimulai pukul 14.00 WIB ini diikuti oleh berbagai kalangan mulai dari mahasiswa, dosen, penggiat open source, implementor di bidang bisnis, dan juga dari pemerintahan. Diharapkan acara MeetUp ini bisa terus berlanjut sehingga komunitas idbigdata bisa terus bersinergi, berkolaborasi, dan berinovasi. Untuk informasi kegiatan berikutnya dapat mengikuti sosmed kita di facebook, twitter dan youtube

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Apr 15 / 2015
  • Comments Off on Ambari 2.0 : Apa yang baru ?
Big Data, Hadoop

Ambari 2.0 : Apa yang baru ?

Ambari 2.0

Pada awal bulan ini, tepatnya 8 April 2015, Ambari 2.0, salah satu komponen pendukung ekosistem Hadoop, resmi diluncurkan.

Lalu, mahluk apakah Ambari ini, dan apa istimewanya angka 2.0 di belakangnya, sehingga Arun Murthy, co-founder Hortonwork, menyebut rilis Ambari 2.0 ini sama pentingnya dengan Hadoop 2.0?

Ambari adalah aplikasi untuk memudahkan melakukan provisioning, manajemen, dan monitoring terhadap Apache Hadoop clusters. Pada awalnya Ambari dikembangkan oleh Hortonworks, dan sekarang sudah menjadi salah satu project Apache.

Dengan Ambari, seorang sysadmin dapat melakukan:

  1. Provisioning sebuah Hadoop cluster
    Ambari menyediakan wizard yang menuntun langkah demi langkah dalam instalasi Hadoop service. Ambari juga menangani konfigurasi hadoop service untuk cluster tersebut.
  2. Manajemen Hadoop Cluster
  3. Ambari menyediakan tools untuk melakukan start, stop, dan rekonfigurasi hadoop service di seluruh cluster.
  4. Monitoring Hadoop Cluster

Ambari menyediakan sebuah dashboard untuk memonitor 'kesehatan' dan status sebuah cluster Hadoop. Ambari memanfaatkan Ambari metric system untuk melakukan metrics collection (pengumpulan data status cluster). Ambari juga memanfaatkan Ambari alert framework untuk sistem peringatan, dan akan mengirimkan alert jika terjadi hal-hal yang perlu diperhatikan oleh sysadmin (misalnya sebuah node mati, disk space hampir penuh, dll).

Ambari juga memungkinkan para developer dan sistem integrator untuk mengintegrasikan fasilitas provisioning, manajemen dan monitoring ini ke dalam aplikasi mereka sendiri melalui Ambari REST APIs.

Fitur yang ditambahkan pada rilis 2.0 ini diantaranya adalah:

  • Automated Rolling Update terhadap HDP stack, yang memungkinkan dilakukannya upgrade terhadap sebuah cluster Hadoop yang aktif tanpa memerlukan shutdown cluster ataupun aplikasi/job di atasnya. Dengan fitur ini diharapkan user dapat tetap menggunakan cluster tersebut selama proses upgrade berlangsung.
  • Hadoop security yang lebih komprehensif dan simpel. Ambari 2.0 membantu  provisioning, manajemen dan monitoring Hadoop cluster dengan dua cara, pertama Ambari menyederhanakan proses setup, konfigurasi dan maintenance  Kerberos untuk autentikasi dalam cluster. Kedua, Ambari menyertakan support untuk instalasi dan konfigurasi Apache Ranger, yang digunakan untuk  administrasi, autorisasi dan audit sekuriti secara terpusat.
  • Ambari alerts framework, di mana diperkenalkan sistem metrics dan monitoring Hadoop yang baru, untuk menggantikan Nagios dan Ganglia. Ide di balik sistem yang baru ini adalah memonitor Hadoop dengan Hadoop. Hasil pengukuran dan pencatatan sistem disimpan ke dalam HBase cluster, sehingga pengguna dapat menentukan sendiri berapa lama dan berapa besar data monitoring yang akan dicatat dan disimpan.

Dengan berbagai fitur tersebut, dan banyak lagi yang akan ditambahkan ke depannya, maka pantaslah jika Ambari 2.0 disebut sebagai tools open source untuk Hadoop Cluster manajemen yang paling lengkap saat ini.

Sumber :
http://hortonworks.com/blog/announcing-apache-ambari-2-0/
https://ambari.apache.org/
http://www.zdnet.com/article/hortonworks-founder-ambari-2-0-is-as-big-a-deal-as-hadoop-2-0/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Pages:1...56789101112
Tertarik dengan Big Data beserta ekosistemnya? Gabung