Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Meskipun Hadoop telah terbukti memberikan solusi yang scalable dan cost effective, namun banyak perusahaan yang masih belum yakin untuk mengadopsinya. Salah satu hambatan bagi perusahaan maupun organisasi yang ingin mengimplementasi Hadoop adalah kebutuhan akan sumber daya yang cukup ‘mumpuni’ untuk dapat menggunakan dan memanfaatkannya secara maksimal. Saat ini kebanyakandata analisis sudah cukup familiar dengan SQL, sehingga solusi SQL-on-Hadoop merupakan sebuah pilihan yang banyak digunakan.

Apache Hive adalah SQL engine di atas Hadoop yang muncul pertama kali, dan banyak penggunanya. Saat ini sudah banyak berkembang engine SQL lain yang dibuat untuk Hadoop dan Big Data, diantaranya adalah:

Hive on Spark
Hive on Tez
Spark SQL
Presto
Apache Drill
Apache HAWQ
Apache Impala
Apache Phoenix
MemSQL

Dengan begitu banyak pilihan, apa saja hal yang harus dipertimbangkan dalam memilih solusi SQL untuk Big Data?

Setidaknya ada 3 hal penting yang perlu diperhatikan dalam memilih solusi SQL on Hadoop, yaitu:

Kinerja dalam mengolah data besar : apakah engine dapat memproses data sampai jutaan bahkan miliaran record dengan konsisten, tanpa terjadi error, dengan waktu response yang cepat
Kecepatan dalam pengolahan data berukuran kecil : SQL engine dapat memberikan hasil query secara interaktif untuk data yang relatif kecil (ribuan sampai jutaan records)
Stabilitas untuk banyak concurrent user : tetap handal ketika diakses secara bersamaan oleh banyak pengguna (puluhan, ratusan atau bahkan ribuan), dengan load kerja yang tinggi

Di samping ketiga kriteria di atas, beberapa pertanyaan lain yang perlu kita ajukan ketika mengevaluasi solusi SQL on Hadoop adalah sebagai berikut:

Solusi proprietary atau open-source?
Bagaimana tingkat skalabilitasnya?
Solusi mana yang memberikan dukungan terlengkap untuk berbagai query SQL?
Versi SQL apa yang perlu disupport?
Bagaimana arsitektur solusinya? Di atas Hive dan MapReduce? In-memory?
Apakah solusi SQL tersebut terikat pada distribusi Hadoop yang spesifik dari vendor tertentu?
Seberapa banyak support yang tersedia?
Seberapa fleksibel jenis eksplorasi data yang perlu disupport?
Seberapa mudah dan baik solusi tersebut diintegrasikan dengan datawarehouse atau sistem lain yang sudah ada? API apa saja yang disupport? Apakah mensupport REST-ful API?
Berapa banyak training yang akan dibutuhkan user untuk dapat menggunakannya?

Referensi :
https://zdatainc.com/2016/12/sql-hadoop-paradox-choice/
http://blog.atscale.com/how-different-sql-on-hadoop-engines-satisfy-bi-workloads

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Definitioner

Tez

Disebut juga sebagai Apache Tez, adalah sebuah framework pengembangan dari MapReduce. Dirancang untuk membangun sebuah aplikasi berkinerja tinggi untuk proses batch interaktif dalam Hadoop dengan YARN sebagai koordinator. Tez dibuat untuk mendukung proses-proses yang berkarakteristik seperti sebuah DAG (Directed-Acyclic-Graph). Tez meningkatkan kecepatan secara dramatis pada MapReduce, dengan mempertahankan kemampuan MapReduce untuk memproses data berskala petabytes. Komponen penting dalam ekosistem Hadoop, seperti Apache Hive dan Apache Pig saat ini telah diimplementasikan menggunakan Tez, dan mendapatkan perbaikan kinerja sampai 100% dibanding implementasi menggunakan MapReduce.

Spark

Spark atau dikenal juga dengan nama Apache Spark merupakan open-source cluster framework computing, yang dibangun untuk pemrosesan big data dengan cepat, yang pada awalnya dikembangkan oleh AMPLab di UC Berkeley. Apache spark memiliki algoritma yang berbeda dengan Map/Reduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API pemrograman Java, Python, Scala, dan SQL, dan dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, perhitungan grafik, dan SQL.

Impala

Impala adalah sebuah query engine yang berjalan di atas Hadoop. Impala memberikan kemampuan untuk melakukan query SQL secara interaktif terhadap data yang disimpan di HDFS atau HBase, dengan menggunakan metadata, SQL syntax (HiveQL), ODBC driver dan user interface (Hue Beeswax) yang sama dengan Apache Hive.

Hive

Hive adalah framework data warehouse yang dibangun di atas Hadoop. Pada awalnya dikembangkan oleh Facebook, namun saat ini sudah banyak perusahaan besar lain yang mengembangkannya, seperti Netflix maupun Amazon. Hive menyediakan bahasa pemrograman yang mirip dengan SQL, yaitu HiveQL, yang pada eksekusinya diterjemahkan ke MapReduce. Dengan HiveQL, programmer yang tidak memiliki pengalaman menggunakan MapReduce dapat melakukan pengolahan data di Hadoop, serta memudahkan integrasi dengan tools BI maupun visualisasi seperti Tableau, Microstrategy, dll.

Hadoop

Sebuah proyek open source software yang dikelola oleh Apache Software Foundation. Apache Hadoop mendefinisikan sebagai "sebuah framework yang memungkinkan untuk pemrosesan terdistribusi pada dataset yang besar di klaster komputer menggunakan model pemrograman sederhana."

Drill

Dikenal juga sebagai Apache Drill, adalah open source, SQL query engine dengan latency rendah untuk Hadoop dan NoSQL. Apache Drill memfasilitasi query langsung pada self-describing dan data semi-terstruktur dalam file (seperti JSON, Parquet) dan tabel HBase tanpa perlu mendefinisikan dan memelihara skema terpusat seperti Hive metastore.