:::: MENU ::::

Posts By / admin

  • Jun 16 / 2015
  • Comments Off on Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan
Big Data, Implementation

Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan

ilustrasi ATC

UTC Aerospace Systems menggunakan data dari sistem onboard pesawat untuk memantau kondisi operasional dan posisi pesawat selama berada dalam rute penerbangan. Aircraft Data Management yang dimiliki oleh UTC Aerospace System menggunakan data sangat besar yang dihasilkan oleh pesawat, yang digunakan oleh awak operasi pesawat dan juga dapat digunakan secara bersamaan oleh tim operasional yang berada di darat. Penggabungkan informasi kondisi pesawat dengan informasi posisi memungkinkan operator untuk mendapatkan informasi yang jelas terhadap seluruh armada penerbangan yang ada pada waktu tertentu.

Laporan dan data dari kondisi dan posisi pesawat terintegrasi dengan berbagai jenis penyedia jasa komunikasi, termasuk SATCOM atau ACARS, yang mengintegrasikan antara sistim onboard pada pesawat dengan portal komunikasi selama penerbangan. Semua ini berkat Aircraft Interface Device (AID) yang dimiliki oleh UTC Aircraft System. Semua anomali informasi apapun harus dapat dideteksi dan dikirimkan kepada tim operasional yang berada di darat secara otomatis dan cepat, sehingga dapat meningkatkan faktor keselamatan penerbangan.

Untuk informasi selanjutnya dapat mengakses artikel Big Data helps UTC Aerospace Systems monitor health and position of aircraft in flight

Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 15 / 2015
  • Comments Off on Hive: Schema On Read
Apache, Big Data, Hadoop

Hive: Schema On Read

HIVE

Apa itu schema?

Bagi pengguna Microsoft Office Excel tentu tidak asing dengan capture tampilan di bawah ini:

Untuk mendapatkan informasi yang tepat dari capture diatas, tentunya diperlukan jawaban dari beberapa pertanyaan berikut:
  1. Berapakah jumlah item informasi dari capture di atas?
  2. Apakah yang dijelaskan oleh masing-masing item informasi yang ada?
  3. Apakah kita dapat melakukan formulasi perhitungan dari item informasi yang ada?

Pertanyaan poin.1 dapat dijelaskan dengan capture berikut:

Jumlah kolom pada Excel menjelaskan jumlah item informasi yaitu terdapat 5 Item informasi yang terdapat pada kolom "A","B","C","D","E".

Pertanyaan poin.2 dapat dijelaskan dengan capture berikut:

Informasi nama kolom "A","B","C","D","E" tidak cukup menjelaskan konten informasi yang ada, sehingga diperlukan header/title yaitu: "Nama", "Jenis Kelamin", "Tempat Lahir", "Tanggal Lahir" dan "Umur".

Pertanyaan poin.3 dapat dijelaskan dengan capture berikut:

Kolom "D" dikategorikan sebagai tipe data "DATE" dan kolom "E" dikategorikan sebagai tipe data "NUMBER". Nilai pada kolom "E" diperoleh dari perhitungan/calculation yang mungkin dilakukan pada kolom dengan Tipe Data "NUMBER".

Poin-poin pertanyaan dan jawaban diatas sudah menjelaskan apa itu "schema" yang dapat digunakan untuk mempermudah dalam mengakses dan mengolah informasi.

Schema pada RDBMS

SQL syntax sering digunakan untuk mengakses data-data yang ada di RDBMS (Database), sehingga untuk dapat mengakses data harus dilakuan proses loading data ke Database terlebih dahulu.

RDBMS bekerja dengan mekanisme "schema on write", sehingga pada saat proses loading data juga dilakukan validasi data source untuk memastikan agar data yang tersimpan di database memenuhi kriteria "schema" yang didefinisikan.

Berikut adalah contoh syntax create table pada RDBMS:

Pada perintah create table tersebut terdapat beberapa bagian yang merupakan "schema" untuk memastikan agar data yang tersimpan pada table tersebut memenuhi kriteria/batasan sebagai berikut:

  1. Nilai pada kolom "editor_key" tidak boleh kosong: not null
  2. Nilai pada kolom "editor_hire_date" harus merupakan informasi dengan format tanggal yang benar: date
  3. Nilai pada kolom "active_ck" hanya boleh memiliki salah satu dari dua nilai "Y" atau "N": check
  4. Nilai pada kolom "ed_name_un" tidak boleh ada yang sama: unique

Data yg sukses masuk ke database RDBMS hanyalah yang memenuhi kriteria "schema" yang di definisikan, data yg tdk sesuai akan ter-reject.

Tentunya RDBMS harus mengalokasikan resource tersendiri untuk menjalankan Proses validasi berdasarkan definisi "schema" pada saat loading data, hal ini menjadi tantangan tersendiri apabila data yang akan di loading dalam ukuran yang sangat besar.

RDBMS memiliki kendali sepenuhnya terhadap data yg diload ke database, sehingga untuk kebutuhan sharing data perlu dilakukan proses extract data kembali ke bentuk flatfile terlebih dahulu yang juga memerlukan alokasi resource tersendiri.

Schema pada HIVE

Akses data yang tersimpan pada environtment HADOOP (HDFS) menggunakan SQL-Like syntax dimungkinkan dengan menggunakan HIVE.

Hive bekerja dengan mekanisme "schema on read", sehingga proses upload data ke HDFS menggunakan hive tidak melalui proses validasi untuk memenuhi kriteria "schema" yang di definisikan:

Contoh perintah create table di HIVE yang berfungsi sebagai "schema":

CREATE TABLE siswa
(
nama STRING,
jenis_kelamin STRING,
tempat_lahir STRING,
tanggal_lahir TIMESTAMP
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|';
Pada contoh perintah create table diatas saya akan menggunakan kolom tanggal_lahir yang memiliki tipe data TIMESTAMP dalam menjelaskan penggunaan "schema" pada HIVE.

Bagian berikut memperlihatkan content dari file siswa.dat yang nantinya akan diakses melalui table siswa.

hive> ! head /home/impala-dev/siswa.dat;

Raisa|Perempuan|Bogor| 2005-13-01 00:00:00.0
Rafi|Laki-laki|Bekasi|2003-03-04 00:00:00.0
Rifqi|Laki-laki|Bogor|2008-11-06 00:00:00.0

Delimiter yang digunakan untuk memisahkan kolom pada content file siswa.dat adalah karakter "|", pada baris pertama kolom ke-4 sengaja digunakan data tanggal dengan informasi bulan ke-13 untuk keperluan testing.

File siswa.dat merupakan OS File yang akan diupload ke HDFS menggunakan HIVE.

Setelah table siswa ter-create, maka dilakukan upload data ke HDFS dari file siswa.dat sekaligus agar dapat diakses melalui table siswa.

hive> LOAD DATA LOCAL INPATH '/home/impala-dev/siswa.dat' INTO TABLE siswa;
Copying data from file:/home/impala-dev/siswa.dat
Copying file: file:/home/impala-dev/siswa.dat
Loading data to table lab1.siswa
Table lab1.siswa stats: [numFiles=1, numRows=0, totalSize=99, rawDataSize=0]
OK
Time taken: 0.937 seconds

Bagian berikut memperlihatkan bahwa content dari file siswa.dat sudah berhasil terupload di HDFS.

hive> ! hadoop dfs -cat /user/impala-dev/lab1/siswa/siswa.dat;

Raisa|Perempuan|Bogor|2005-13-01 00:00:00.0
Rafi|Laki-laki|Bekasi|2003-03-04 00:00:00.0
Rifqi|Laki-laki|Bogor|2008-11-06 00:00:00.0

Terlihat pada content data baris pertama bahwa meskipun nilai kolom ke-4 berupa karakter dengan nilai bulan ke-13 yang tidak memenuhi kriteria definisi kolom tanggal_lahir yang memiliki tipe TIMESTAMP pada table siswa, namun data tetap sukses terupload ke HDFS.

Bagian berikut memperlihatkan bahwa content dari file siswa.dat yang sudah berhasil ter-upload di HDFS dapat diakses menggunakan SQL-like Syntax.

hive> select * from siswa;
Raisa Perempuan Bogor NULL
Rafi Laki-laki Bekasi 2003-03-04 00:00:00
Rifqi Laki-laki Bogor 2008-11-06 00:00:00
Time taken: 0.324 seconds, Fetched: 3 row(s)

Terlihat pada baris pertama kolom ke-4 nilai "2005-13-01 00:00:00.0" tidak muncul dan digantikan dengan NULL, hal ini menjelaskan bahwa Hive bekerja dengan mekanisme "schema on read" yaitu pada saat syntax SQL-Like dijalankan HIVE melakukan validasi untuk memastikan nilai kolom yang di query harus memenuhi kriteria pada definisi "schema" (type data pada kolom tanggal_lahir yang memiliki tipe TIMESTAMP pada table siswa).

Berbeda dengan RDBMS yang memungkinkan dilakukannya validasi yang komplek pada saat loading data ke database (schema on write), hive tidak melakukan validasi yang komplek pada saat menjalakan syntax SQL (schema on read).

Mapreduce code dengan logic yang komplek untuk kebutuhan pre-process agar diperoleh output yang memenuhi kriteria definisi "schema" dapat dibuat menggunakan Tools HGrid247 yang berbasis GUI dengan design Flow Process melalui Drag & Drop.

Contributor :


Imam Turmudi
Seorang Project Manager yang gemar bersepeda lulusan Universitas Diponegoro. Pertama kali mengenal Database Tools pada saat dibangku SMA, yaitu produk DBASE III PLUS. Pernah mengenyam pengalaman membuat aplikasi menggunakan bahasa Assembler untuk microprocessor x86 dan microcontroller MCS-51. Setelah terjun ke dunia kerja cukup intens berinteraksi dengan produk RDBMS menggunakan SQL & PL-SQL. Saat ini sedang tertarik untuk mengimplementasikan pengalaman yang diperoleh di area RDBMS untuk solusi Big Data.

  • Jun 11 / 2015
  • Comments Off on idBigData MeetUp #4
Uncategorized

idBigData MeetUp #4

suasana kelas idBigData MeetUp #4

Kali ini idBigdata mengunjungi kota kembang Bandung untuk meetup ke-4 nya pada 9 Juni lalu. Bertempat di Bandung Techno Park, acara ini disambut meriah oleh teman-teman idBigdata baik yg berdomisili di Bandung maupun dari luar kota Bandung. Acara dibuka langsung oleh direktur Bandung Techno Park, Jangkung Raharjo. Acara dilanjutkan dengan pemaparan topic khusus berjudul “Endorsement Open Source” oleh Rusmanto Maryanto dari INFO LINUX, dilanjutkan kembali oleh Jangkung Raharjo dengan semangat memberikan pemaparan topic khusus berjudul “Peran (Bandung) Techno Park Dalam Meningkatkan TKTDN Produk Inovasi” yg berhasil membakar semangat teman-teman idBigdata. Selanjutnya acara di istirahatkan untuk makan siang dan sholat dzuhur.

Sesi siang dilanjutkan dengan topic “BIGDATA analytics : a social network approach” oleh Andry Alamsyah, S.Si, M.Sc dari Fakultas Ekonomi dan Bisnis, Telkom University. Di penghujung acara Imam Turmudi dari SOLUSI247 membawakan topik berjudul “HIVE : bringing a SQL like interface querying Hadoop”. Acara ditutup dengan doorprize dan sesi foto-foto bersama teman2 idBigdata.

Acara MeetUp yang diikuti oleh berbagai kalangan mulai dari akademisi, implementor di bidang bisnis, dan juga dari pemerintahan, juga dapat diakses secara online melalui live.idbigdata.com. Diharapkan acara MeetUp ini bisa terus berlanjut sehingga komunitas idBigdata bisa terus bersinergi, berkolaborasi, dan berinovasi.

Bagi yang belum sempat atau berhalangan untuk bergabung pada meetup ke-4, anda bisa menyaksikan rekaman video streaming di idBigData Channel ( http://live.idbigdata.com )

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • May 04 / 2015
  • Comments Off on idBigData MeetUp #3
Big Data, Forum Info, Komunitas

idBigData MeetUp #3

suasana kelas idBigData MeetUp #3

Bekerjasama dengan Departemen Teknik Elektro FTUI, kali ini idBigData mengunjungi Depok untuk mengadakan MeetUp ketiga, pada tanggal 24 april 2015 kemarin. idBigData MeetUp merupakan kegiatan rutin yang lebih dari sebagai ajang berkumpul dan saling sapa, tetapi juga untuk berbagi ilmu.

Kepala Departemen Teknik Elektro FTUI, Ir. Gunawan Wibisono, Msc, PhD, dalam sambutan pembukaan mengatakan bahwa Departemen Teknik Elektro FTUI telah menerapkan mata kuliah yang terintegrasi dengan sertifikasi. Hal ini dilakukan dalam rangka mempersiapkan sumber daya yang siap bersaing di dunia kerja Indonesia yang mulai Agustus 2015 harus terbuka dalam kerangka Masyarakat Ekonomi Asean. Sementara itu Sigit Prasetyo, sebagai kuncen idBigData, memberikan sedikit bocoran bahwa untuk tahun ini idBigData akan merencanakan konferensi bigdata Indonesia yg ke-2 sebagai rangkaian dari program berbagi pengetahuan kepada komunitas.

Pembicara pertama, Beno K Pradekso, CEO PT Dua Empat Tujuh, dengan presentasinya Big Data Boost Business Productivity, bercerita mengenai bagaimana perkembangan big data dan bagaimana pengaruhnya terhadap perkembangan teknologi yang mengikutinya. Pada kesempatan ini pula beliau memperkenalkan kembali salah satu tools Hadoop data processing yang dikembangkan oleh PT Dua Empat Tujuh, yaitu HGrid247.

MapR Technologies yang merupakan perusahaan di balik distro hadoop MapR, juga turut berpartisipasi dalam kegiatan MeetUp idBigData kali ini. Allen Day, Principal Data Scientist MapR Technologies, menjelaskan bagaimana Hadoop berperan dalam pemrosesan data genomics.

Pada sesi ke tiga Ardiansyah M.Eng, DTE FTUI, memperkenalkan  Big Data Training & Research Collaboration at DTE-FTUI. Dilanjutkan dengan sesi terakhir yang dibawakan oleh Dwika Sudrajat, Director of VIDE Freeman Consulting Group dengan topic berjudul “Solution and Business Big Data”

idBigData Meetup #3 yang dimulai pukul 14.00 WIB ini diikuti oleh berbagai kalangan mulai dari mahasiswa, dosen, penggiat open source, implementor di bidang bisnis, dan juga dari pemerintahan. Diharapkan acara MeetUp ini bisa terus berlanjut sehingga komunitas idbigdata bisa terus bersinergi, berkolaborasi, dan berinovasi. Untuk informasi kegiatan berikutnya dapat mengikuti sosmed kita di facebook, twitter dan youtube

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Apr 15 / 2015
  • Comments Off on Ambari 2.0 : Apa yang baru ?
Big Data, Hadoop

Ambari 2.0 : Apa yang baru ?

Ambari 2.0

Pada awal bulan ini, tepatnya 8 April 2015, Ambari 2.0, salah satu komponen pendukung ekosistem Hadoop, resmi diluncurkan.

Lalu, mahluk apakah Ambari ini, dan apa istimewanya angka 2.0 di belakangnya, sehingga Arun Murthy, co-founder Hortonwork, menyebut rilis Ambari 2.0 ini sama pentingnya dengan Hadoop 2.0?

Ambari adalah aplikasi untuk memudahkan melakukan provisioning, manajemen, dan monitoring terhadap Apache Hadoop clusters. Pada awalnya Ambari dikembangkan oleh Hortonworks, dan sekarang sudah menjadi salah satu project Apache.

Dengan Ambari, seorang sysadmin dapat melakukan:

  1. Provisioning sebuah Hadoop cluster
    Ambari menyediakan wizard yang menuntun langkah demi langkah dalam instalasi Hadoop service. Ambari juga menangani konfigurasi hadoop service untuk cluster tersebut.
  2. Manajemen Hadoop Cluster
  3. Ambari menyediakan tools untuk melakukan start, stop, dan rekonfigurasi hadoop service di seluruh cluster.
  4. Monitoring Hadoop Cluster

Ambari menyediakan sebuah dashboard untuk memonitor 'kesehatan' dan status sebuah cluster Hadoop. Ambari memanfaatkan Ambari metric system untuk melakukan metrics collection (pengumpulan data status cluster). Ambari juga memanfaatkan Ambari alert framework untuk sistem peringatan, dan akan mengirimkan alert jika terjadi hal-hal yang perlu diperhatikan oleh sysadmin (misalnya sebuah node mati, disk space hampir penuh, dll).

Ambari juga memungkinkan para developer dan sistem integrator untuk mengintegrasikan fasilitas provisioning, manajemen dan monitoring ini ke dalam aplikasi mereka sendiri melalui Ambari REST APIs.

Fitur yang ditambahkan pada rilis 2.0 ini diantaranya adalah:

  • Automated Rolling Update terhadap HDP stack, yang memungkinkan dilakukannya upgrade terhadap sebuah cluster Hadoop yang aktif tanpa memerlukan shutdown cluster ataupun aplikasi/job di atasnya. Dengan fitur ini diharapkan user dapat tetap menggunakan cluster tersebut selama proses upgrade berlangsung.
  • Hadoop security yang lebih komprehensif dan simpel. Ambari 2.0 membantu  provisioning, manajemen dan monitoring Hadoop cluster dengan dua cara, pertama Ambari menyederhanakan proses setup, konfigurasi dan maintenance  Kerberos untuk autentikasi dalam cluster. Kedua, Ambari menyertakan support untuk instalasi dan konfigurasi Apache Ranger, yang digunakan untuk  administrasi, autorisasi dan audit sekuriti secara terpusat.
  • Ambari alerts framework, di mana diperkenalkan sistem metrics dan monitoring Hadoop yang baru, untuk menggantikan Nagios dan Ganglia. Ide di balik sistem yang baru ini adalah memonitor Hadoop dengan Hadoop. Hasil pengukuran dan pencatatan sistem disimpan ke dalam HBase cluster, sehingga pengguna dapat menentukan sendiri berapa lama dan berapa besar data monitoring yang akan dicatat dan disimpan.

Dengan berbagai fitur tersebut, dan banyak lagi yang akan ditambahkan ke depannya, maka pantaslah jika Ambari 2.0 disebut sebagai tools open source untuk Hadoop Cluster manajemen yang paling lengkap saat ini.

Sumber :
http://hortonworks.com/blog/announcing-apache-ambari-2-0/
https://ambari.apache.org/
http://www.zdnet.com/article/hortonworks-founder-ambari-2-0-is-as-big-a-deal-as-hadoop-2-0/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Pages:1...56789101112
Tertarik dengan Big Data beserta ekosistemnya? Gabung