Glossary Big Data idBigData

a | b | c | d | e | f | g | h | i | j | k | l | m | q | r | s | t | u | w | x | y | z

ACID

Singkatan dari Atomicity, Consistency, Isolation, and Durability. Empat karakteristik yang menjamin transaksi database diproses secara reliable. Model ACID merupakan salah satu konsep tertua dan paling penting dari teori database transaksional.

Atomicity mengacu pada kemampuan database untuk menjamin bahwa baik semua bagian transaksi dilakukan atau tidak sama sekali. Jika salah satu bagian dari transaksi gagal, seluruh transaksi gagal. Consistency memastikan data dapat dikembalikan dalam keadaan sebelum transaksi dimulai, jika terjadi kegagalan. Isolation memastikan transaksi yang masih dalam proses dan belum dilakukan (committed) harus tetap terisolasi terhadap transaksi lainnya.

Durability memastikan data yang telah disimpan (committed data) disimpan oleh sistim sebagaimana keadaannya , bahkan jika dalam keadaan kegagalan sistim dan restart sistem, data tersebut tersedia dalam tahapan dan keadaan yang benar.

Algorithm

Formula matematis yang digunakan untuk melakukan pemrosesan terhadap sekumpulan data.

Ambari

Apache Ambari adalah framework untuk menambah, mengatur dan memonitor cluster Apache Hadoop. Ambari menyediakan user interface yang simple dan elegan. Dirancang untuk dapat diintegrasikan dengan tools operasional yang telah ada, seperti misalnya Microsoft System Center dan Teradata Viewpoint.

Anonymization

Anonimisasi : Menghilangkan informasi personal dari sekumpulan data untuk mencegah diketahuinya sumber data tersebut.

Apache or Apache Software Foundation (ASF)

Sebuah organisasi non-profit yang dibentuk untuk mendukung proyek-proyek perangkat lunak open source. Proyek Apache dilindungi oleh lisensi ASF yang memberikan perlindungan hukum kepada para relawan yang bekerja pada produk Apache.

Artificial Intelligence

Kecerdasan buatan : bagaimana membuat mesin yang “cerdas” dan dapat melakukan hal-hal yang sebelumnya dapat dilakukan oleh manusia, seperti misalnya mengamati lingkungan dan bertindak sesuai dengan kebutuhan dan bahkan belajar dari tindakan atau aksi tersebut.

Automatic identification and capture (AIDC)

Metode identifikasi objek secara otomatis. Mengumpulkan data mengenai objek tersebut dan menyimpannya ke dalam sistem komputerisasi tanpa keterlibatan manusia. Teknologi yang termasuk dalam AIDC di antaranya adalah barcode, Radio Frequency Identification (RFID), biometrik, pita magnetik, Optical Character Recognition (OCR), smart card, dan pengenalan suara. AIDC juga sering disebut sebagai “Automatic Identification,” “Auto-ID,” atau "Automatic Data Capture." Contoh penggunaan AIDC adalah di bidang inventory management, pengiriman barang, security, dan dokumen.

Avro

Sistem data serialization yang memungkinkan encoding skema dari file-file Hadoop. Dengan menyertakan skema dalam proses serialization, tidak lagi diperlukan code generation, tipe data static, dsb, sehingga mendukung pemrosesan data dan bahasa yang generik.
http://avro.apache.org/

Batch Processing

Proses yang dilakukan secara berkala dan otomatis. Data yang akan diproses dikumpulkan terlebih dahulu oleh sistem, kemudian pada waktu-waktu tertentu yang sudah dijadwalkan, proses dijalankan secara otomatis oleh sistem. Jenis proses lain adalah real time di mana data yang masuk langsung diproses saat itu juga, dan proses on-line atau interaktif, di mana data didapatkan dari input pengguna.

Behavioral analytics

Bagian dari bisnis analytics yang menggunakan data untuk memahami perilaku manusia/user dan memprediksi tindakan mereka selanjutnya. Data yang digunakan antara lain dari eCommerce platform, online game, media sosial, dan aplikasi web lainnya. Jenis datanya antara lain adalah user trails seperti apa saja yang mereka klik, navigation path (jalur tautan yang diikuti), data pembelian online, iklan yang dilihat, dan lain sebagainya.

Call Detail Record (CDR) analysis

CDR adalah data yang berkaitan dengan sebuah penggunaan jaringan telekomunikasi, seperti misalnya panggilan telepon, sms, maupun data service. Contoh data yang dicatat dalam CDR antara lain adalah nomor telepon, waktu, durasi, lokasi, jenis perangkat yang digunakan, dan lain sebagainya. Data ini dapat digunakan oleh perusahaan telekomunikasi untuk melakukan berbagai macam analisis.

Cascading

Cascading adalah sebuah platform untuk membangun aplikasi di atas Hadoop. Cascading menyediakan abstraksi untuk Hadoop, sehingga developer dapat mengimplementasikan jobs yang kompleks dengan lebih mudah dan cepat, dalam beberapa bahasa yang dapat dijalankan di JVM, seperti Ruby, Scala, dan lain-lain.
www.cascading.org

Cassandra

Cassandra adalah database NoSQL yang terdistribusi. Pada awalnya dikembangkan oleh Facebook, saat ini sudah menjadi open source. Strukturnya berupa key-value. http://cassandra.apache.org/

Chukwa

Chukwa adalah sebuah sub-project Hadoop yang ditujukan untuk menangani dan menganalisa log dalam skala besar. Chukwa dibangun di atas HDFS dan MapReduce, di dalamnya mencakup toolkit untuk menampilkan hasil monitoring dan analisis.

Clickstream Analytics

Analisa terhadap aktifitas pengguna web melalui item yang diklik pada sebuah halaman web.

Clojure

Clojure adalah bahasa pemrograman dinamis yang didasarkan pada LISP, yang menggunakan Java Virtual Machine (JVM). Digunakan pada pemrosesan data paralel.

Cloud

Istilah yang secara umum digunakan untuk mengacu pada layanan atau aplikasi berbasis internet yang di-hosting secara remote.

Cloud computing

A distributed computing system over a network used for storing data off-premises Istilah umum untuk penyediaan hosted services melalui internet. Merupakan gabungan pemanfaatan teknologi komputasi dengan layanan berbasis internet.

Cold data storage

Menyimpan data lama yang sudah sangat jarang digunakan di server yang kinerjanya lebih rendah. Untuk mengambil kembali data tersebut biasanya akan memerlukan waktu dan effort yang relatif lebih besar.

Columnar database or column-oriented database

Sebuah basis data yang menyimpan data dalam kolom. Jika dalam database biasa sebuah row/baris berisi nama, alamat dan nomor telepon, maka dalam database berbasis kolom, semua nama disimpan dalam sebuah kolom, semua alamat di kolom yang lain, dan seterusnya. Kelebihan columnar database adalah akses hard disk yang lebih cepat.

Complex event processing (CEP)

Penggunaan teknologi untuk memonitor dan memprediksi kejadian di tingkat yang lebih kompleks, dari sekumpulan event/kejadian yang lebih sederhana. CEP mengidentifikasi dan menganalisa hubungan sebab-akibat antar event secara real time, sehingga dapat diambil tindakan secara proaktif dan efektif. Paradigma CEP muncul pada tahun 1990an, dari sebuah project yang dikepalai oleh Dr. David Luckham di Stanford University.

Cross-channel analytics

Analisis menggunakan data dari berbagai channel, seperti misalnya sales, average order value, lifetime value.

Dashboard

Halaman atau panel yang dirancang untuk menampilkan informasi yang mudah dibaca. Biasanya terdiri dari satu halaman saja, bersifat real time, dan berisi presentasi grafis dari keadaan terkini (snapshot), dan trend historikal dari KPI sebuah organisasi/perusahaan. Digunakan untuk mendukung proses pengambilan keputusan.

Data aggregation

Proses mengumpulkan data dari berbagai sumber untuk keperluan analisis atau reporting.

Data center

Fasilitas fisik yang menjadi penyimpanan server dan perangkat penyimpan data. Data center bisa dimiliki sendiri oleh organisasi/perusahaan pemilik server, atau pihak yang menyewakan service ke banyak perusahaan/organisasi.

Data cleansing

Proses membersihkan data dari duplikasi, data yang salah, data yang tidak lengkap, dan lain-lain, untuk mendapatkan informasi yang yang lebih akurat dan konsisten. Biasanya dilakukan sebelum proses yang lain, seperti misalnya transformasi, pengayaan/enrichment, penggabungan, agregasi, dan lain sebagainya.

Data collection

Proses mengumpulkan data dari berbagai bentuk dan sumber data.

Data exhaust

Data yang dihasilkan dari berbagai kegiatan, misalnya panggilan telepon atau pencarian di internet.

Data feed

Data Feed adalah mekanisme bagi pengguna untuk menerima data terkini dari sumber data. Hal ini biasanya digunakan oleh aplikasi real-time dalam pengaturan point-to-point serta di World Wide Web. Contoh mekanisme ini termasuk RSS atau twitter.

Data governance

Sekumpulan proses atau aturan yang menjaga/menjamin integritas data dan memastikan bahwa manajemen data dilakukan dengan baik.

Data mart

Layer akses dari sebuah data warehouse yang digunakan untuk memberikan data kepada pengguna.

Data migration

Proses memindahkan data antara berbagai jenis penyimpanan dan format, atau antara sistem komputer yang berbeda.

Data mining

Proses untuk mendapatkan pola atau informasi dari sekumpulan data.

Data model, data modeling

Sebuah model data mendefinisikan struktur data untuk tujuan berkomunikasi antara orang-orang di bagian fungsional dan bagian teknis untuk menunjukkan data yang diperlukan untuk proses bisnis, atau untuk berkomunikasi rencana untuk mengembangkan bagaimana data disimpan dan diakses di antara anggota tim pengembangan aplikasi.

Data point

Data item yang ada pada grafik atau chart

Data profiling

Proses pengumpulan data statistik dan informasi tentang data di sumber data.

Data quality

Ukuran untuk menentukan kelayakan suatu data dalam pengambilan keputusan, perencanaan, atau operasi.

Data replication

Penduplikasian data. Proses berbagi informasi untuk memastikan konsistensi antara sumber dan duplikasinya.

Data repository

Lokasi data yang tersimpan secara permanen.

Data science

Sebuah istilah baru yang memiliki beberapa definisi, tetapi umumnya diterima sebagai suatu disiplin yang menggabungkan statistik, visualisasi data, pemrograman komputer, data mining, machine learning, dan teknik database untuk memecahkan masalah yang kompleks.

Data security

Praktek melindungi data dari kerusakan atau akses yang tidak sah.

Data set

Kumpulan data

Data steward

Data steward adalah orang yang bertanggung jawab atas pengelolaan elemen data, baik isi maupun metadata.

Data structure

Sebuah cara khusus untuk menyimpan dan mengatur data

Data visualization

Visualisasi data yang dirancang untuk tujuan memperoleh makna atau mengkomunikasikan informasi secara lebih efektif.

Data warehouse

Sebuah tempat dan metode untuk menyimpan data untuk tujuan pelaporan dan analisis.

Data-directed decision making

Menggunakan data untuk mendukung proses pengambilan keputusan

Database as a service (DaaS)

Database yang di-hosting di cloud, di mana penggunanya membayar biaya sesuai dengan besarnya resource yang digunakan. Beberapa contoh DaaS saat ini di antaranya adalah Heroku Postgres and Amazon RDS.

Database management system (DBMS)

Software yang mengumpulkan dan menyediakan akses ke data dalam format yang terstruktur.

De-identification

Tindakan menghapus semua data yang menghubungkan seseorang untuk bagian tertentu dari informasi.

Deep Thunder

Layanan prediksi cuaca dari IBM yang menyediakan data cuaca untuk pihak lain seperti utilitas, yang menggunakan data tersebut untuk mengoptimalkan distribusi energi.

Demographic data

Data yang berhubungan dengan karakteristik populasi manusia.

Distributed cache

Cache data yang tersebar di beberapa sistem tetapi bekerja sebagai satu kesatuan. Hal ini digunakan untuk meningkatkan kinerja.

Distributed File System

Sebuah metode untuk menyimpan dan mengakses file pada arsitektur client/server.

Distributed processing

Eksekusi proses menggunakan beberapa komputer yang terhubung dengan jaringan komputer.

Document Store Databases

Database berorientasi dokumen yang dirancang khusus untuk menyimpan, mengelola dan mengambil dokumen, juga dikenal sebagai data semi terstruktur.

Drill

Dikenal juga sebagai Apache Drill, adalah open source, SQL query engine dengan latency rendah untuk Hadoop dan NoSQL. Apache Drill memfasilitasi query langsung pada self-describing dan data semi-terstruktur dalam file (seperti JSON, Parquet) dan tabel HBase tanpa perlu mendefinisikan dan memelihara skema terpusat seperti Hive metastore.

Elasticsearch

Sebuah open source search engine yang dibangun pada Apache Lucene.

ETL

Singkatan dari Extract, Transform and Loading, adalah sebuah proses yang digunakan dalam data warehousing untuk mempersiapkan data untuk digunakan dalam pelaporan atau analisis.

Failover

Pengalihan secara otomatis ke komputer lain jika terjadi suatu kegagalan.

Falcon

Falcon menyederhanakan proses development dan manajemen sistem pemrosesan data dengan menyediakan abstraksi di tingkat yang lebih tinggi sehingga dapat mengurangi kompleksitas aplikasi data processing. Hal ini menyederhanakan konfigurasi dan pengaturan pergerakan data, disaster recovery, retensi data, archiving, data discovery, dan lain sebagainya. Dalam Hadoop stack, Falcon adalah bagian dari data lifecycle dan data governance.

Flume

Dikenal juga sebagai Apache Flume, suatu service terdistribusi untuk melakukan streaming data ke dalam HDFS. Flume digunakan untuk mengumpulkan, meng-agregasi, dan memindahkan data log yang besar secara efisien ke dalam HDFS.

Graph Databases

Graph Database adalah database yange menerapkan teori grafik untuk penyimpanan informasi tentang hubungan antara entri. Ia menggunakan struktur grafik (satu set terbatas pada pasangan yang berurut atau entities tertentu), dengan tepian, properti dan node untuk penyimpanan data. Ini memberikan kedekatan indeks bebas, yang berarti bahwa setiap elemen secara langsung terkait dengan unsur tetangganya. Contoh yang paling mudah adalah hubungan antara orang-orang dalam suatu jaringan sosial.

Grid computing

Komputasi menggunakan sumber daya dari beberapa sistem terdistribusi. Komputasi grid biasanya melibatkan file besar dan yang paling sering digunakan untuk beberapa aplikasi. Sistem yang terdiri dari jaringan komputasi grid tidak harus sama dalam desain atau di lokasi geografis yang sama.

Hadoop

Sebuah proyek open source software yang dikelola oleh Apache Software Foundation. Apache Hadoop mendefinisikan sebagai "sebuah framework yang memungkinkan untuk pemrosesan terdistribusi pada dataset yang besar di klaster komputer menggunakan model pemrograman sederhana."

Hadoop Common

Biasa digunakan oleh para programmer, Hadoop Common adalah sekumpulan utilitas umum yang berisi kode untuk mendukung modul-modul lain dalam ekosistem Hadoop. Misalnya ketika Hive atau HBase mengakses HDFS, prosesnya dilakukan dengan menggunakan JARs (Java archives), yang berupa Java code libraries dalam Hadoop Common.

Hama

Framework komputasi terdistribusi berdasarkan pada teknik Bulk Synchronous Parallel untuk komputasi saintifik berukuran besar, misalnya matrix, graph dan network algorithms. Sebuah project dibawah Apache Software Foundation.

HANA

Sebuah software/hardware platform komputasi di memori (in-memory computing) dari SAP dirancang untuk transaksi volume tinggi dan analisis real-time.

HBase

HBase adalah database non-relasional yang memungkinkan pencarian data yang bersifat singkat dan low-latency di Hadoop. HBase memungkinkan adanya operasi transaksional di Hadoop, termasuk update, insert dan delete. Facebook dan EBay banyak menggunakan HBase.

HCatalog

HCatalog adalah sistem manajemen metadata dan table untuk mendukung platform Hadoop yang lebih luas. HCatalog memungkinkan penyimpanan data dalam berbagai bentuk, tanpa mempedulikan strukturnya. Hcatalog juga memungkinkan sharing struktur data dengan sistem di luar Hadoop, termasuk tools manajemen data tradisional. Dengan kedua hal ini, berbagai tools, termasuk Pig dan Hive, dapat memproses data apapun di Hadoop tanpa harus mengetahui di mana cluster data tersebut disimpan secara fisik.

HDFS (Hadoop Distributed File System)

HDFS (Hadoop Distributed File System), layer penyimpanan data di Hadoop, adalah sebuah file system berbasis Java yang fault-tolerant, terdistribusi dan scalable, sangat sesuai untuk penyimpanan data yang sangat besar. Didesain untuk dapat diaplikasikan di atas cluster yang sangat besar, HDFS tidak hanya dapat diimplementasikan dengan server proprietary saja, namun juga server-server commodity (non-proprietary).

Hive

Hive adalah framework data warehouse yang dibangun di atas Hadoop. Pada awalnya dikembangkan oleh Facebook, namun saat ini sudah banyak perusahaan besar lain yang mengembangkannya, seperti Netflix maupun Amazon. Hive menyediakan bahasa pemrograman yang mirip dengan SQL, yaitu HiveQL, yang pada eksekusinya diterjemahkan ke MapReduce. Dengan HiveQL, programmer yang tidak memiliki pengalaman menggunakan MapReduce dapat melakukan pengolahan data di Hadoop, serta memudahkan integrasi dengan tools BI maupun visualisasi seperti Tableau, Microstrategy, dll.

Hue

Hue (Hadoop User Interface) adalah antarmuka berbasis web yang open source, dibuat untuk memudahkan penggunaan Apache Hadoop. Di antara fitur-fiturnya adalah file browser untuk HDFS, Aplikasi Oozie untuk membuat workflow dan koordinator, job desainer/browser untuk MapReduce, Hive dan Impala user interface, sebuah Shell, sekumpulan API Hadoop, dan lain sebagainya.

Impala Impala adalah sebuah query engine yang berjalan di atas Hadoop. Impala memberikan kemampuan untuk melakukan query SQL secara interaktif terhadap data yang disimpan di HDFS atau HBase, dengan menggunakan metadata, SQL syntax (HiveQL), ODBC driver dan user interface (Hue Beeswax) yang sama dengan Apache Hive.

In-database analytics

Integrasi data analytics ke dalam data warehouse.

In-memory data grid (IMDG)

Penyimpanan data ke dalam memory di banyak server untuk tujuan skalabilitas yang lebih besar dan akses lebih cepat.

In-memory database

Database yang menggunakan memory sebagai penyimpanan data.

JobTracker

Service dalam Hadoop yang mendistribusikan task MapReduce ke node tertentu dalam cluster

Kafka

Kafka (dibangun oleh LinkedIn) adalah sistem messaging terdistribusi yang mempunyai kemampuan untuk menangani aktifitas data flow di sebuah website dan memproses data tersebut. Jenis data tersebut (page view, pencarian, dan aktifitas lainnya) adalah bagian yang penting dari sosial web saat ini.

Key Value Stores

Key value stores memungkinkan aplikasi untuk menyimpan data dengan cara schema-less. Data dapat disimpan dalam bentuk objek ataupun struktur data dari sebuah bahasa pemrograman. Dengan kemampuan ini, tidak diperlukan lagi sebuah data model tertentu.

Kryo

Kryo saat ini adalah salah satu dari 2 serialization library yang disediakan Spark (http://spark.apache.org/docs/1.2.0/tuning.html). Kryo lebih cepat dan lebih ringkas daripada Java serialization (dapat mencapai 10 kalinya), namun tidak mendukung seluruh tipe dan memerlukan programmer untuk me-register kelas yang akan digunakan. Kryo dapat melakukan deep dan shallow cloning/copying secara otomatis, yaitu pengkopian dari object ke object, bukan object->bytes->object.

Latency

Keterlambatan dalam respon atau pengiriman data dari satu titik ke titik lain.

Load balancing

Proses mendistribusikan beban kerja dalam sebuah jaringan atau klaster untuk optimasi kinerja

Log file

Sebuah file yang yang dibuat secara otomatis oleh komputer atau aplikasi untuk mencatat peristiwa yang terjadi selama operasi, contohnya waktu file ketika diakses.

Machine-generated data

Setiap data yang secara otomatis dibuat dari proses komputer, aplikasi, atau sumber non-manusia lainnya.

Mahout

Apache ™ Mahout adalah library algoritma machine learning, diimplementasikan di atas Apache Hadoop® dan menggunakan paradigma MapReduce.

Metadata

Data tentang data, data yang memberikan informasi mengenai data.

Query analysis

Proses menganalisis sebuah query dalam rangka optimasi performance

R adalah bahasa pemrograman dan tools yang banyak digunakan untuk komputasi statistik dan grafis, yang merupakan bagian dari proyek GNU yang memiliki kemiripan dengan bahasa S. R menyediakan berbagai fungsi statistik (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, ...) dan teknik grafis, dan sangat extensible.

Re-identification

Penggabungan beberapa data untuk menemukan orang tertentu dalam data yang anonim

Real-time data

Data yang dibuat, diproses, disimpan, dianalisa dan divisualisasikan dalam waktu yang sangat cepat (milidetik)

Recommendation system

Sebuah sistem yang berisi algoritma untuk memprediksi apa yang disukai oleh pengguna berdasarkan data-data perilaku pengguna, seperti link yang diklik ataupun web page yang dikunjungi.

Reference data

Data yang menggambarkan objek dan sifat-sifatnya. Objek dapat bersifat fisik atau virtual.

Risk analysis

Penerapan metode statistik pada satu atau lebih dataset untuk menentukan kemungkinan risiko yang dapat terjadi dalam suatu proyek, tindakan, atau keputusan.

Root-cause analysis

Proses untuk menentukan penyebab utama dari suatu peristiwa atau masalah.

Routing analysis

Analisa untuk menentukan routing yang paling optimal dengan menggunakan banyak variabel yang berbeda untuk suatu sarana transportasi tertentu untuk mengurangi biaya bahan bakar dan meningkatkan efisiensi.

Scalability

Kemampuan sistem, jaringan, atau proses untuk menangani pertumbuhan beban pekerjaan dengan cara diperbesar untuk mengakomodasi pertumbuhan itu.

Schema

Struktur yang mendefinisikan organisasi data dalam sistem database

Search data

Data agregat tentang istilah pencarian yang digunakan dari waktu ke waktu.

Semi-structured data

Data yang tidak terstruktur dengan model data formal, tetapi menyediakan cara lain untuk menggambarkan dan membaca data serta hirarkinya.

Sentiment analysis

Penerapan fungsi statistik pada komentar orang yang dibuat di web atau melalui sosial media untuk menentukan bagaimana perasaan mereka tentang suatu produk, perusahaan ataupun isu tertentu.

Serialization (Data Serialization)

Proses menerjemahkan struktur data atau status sebuah object ke dalam sebuah format yang dapat disimpan (misalnya ke dalam file atau memory buffer, atau dikirim melalui koneksi jaringan) dan direkonstruksi/dibentuk kembali seperti semula.

Software as a service (SaaS)

Software as a Service (SaaS) adalah model distribusi perangkat lunak di mana aplikasi yang di-host oleh vendor atau penyedia layanan dan diakses pelanggan melalui jaringan, biasanya Internet. Berbeda dengan model tradisional distribusi software, biasanya software dibeli dan diinstal pada PC pengguna, kadang-kadang disebut juga sebagai software as a product

Spark

Spark atau dikenal juga dengan nama Apache Spark merupakan open-source cluster framework computing, yang dibangun untuk pemrosesan big data dengan cepat, yang pada awalnya dikembangkan oleh AMPLab di UC Berkeley. Apache spark memiliki algoritma yang berbeda dengan Map/Reduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API pemrograman Java, Python, Scala, dan SQL, dan dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, perhitungan grafik, dan SQL.

Spatial analysis

Proses pemeriksaan data geografis atau data topologi melalui overlay dan teknik analisis lainnya untuk menjawab pertanyaan atau mendapatkan informasi. Analisis spasial biasnya mengekstrak atau menciptakan informasi baru dari data spasial.

Sqoop

Disebut juga sebagai Apache Sqoop, adalah tools atau aplikasi yang dirancang untuk mentransfer data secara efisien dari aplikasi penyimpanan non Hadoop, seperti database, ke dalam Hadoop

Storm

Disebut juga sebagai Apache Storm, adalah sistem komputasi real-time terdistribusi, open source dan gratis, yang pada awalnya dibangun oleh Twitter. Storm didisain memudahkan mengolah data secara realtime, sementara Hadoop untuk pemrosesan secara batch.

Structured Query Language (SQL)

Sebuah bahasa pemrograman untuk mengambil data dari sebuah database relasional

Text analytics

Penerapan teknik statistik, linguistik, dan machine learning pada sumber data berbasis teks untuk memperoleh makna atau nilai yang terkandung didalamnya.

Tez

Disebut juga sebagai Apache Tez, adalah sebuah framework pengembangan dari MapReduce. Dirancang untuk membangun sebuah aplikasi berkinerja tinggi untuk proses batch interaktif dalam Hadoop dengan YARN sebagai koordinator. Tez dibuat untuk mendukung proses-proses yang berkarakteristik seperti sebuah DAG (Directed-Acyclic-Graph). Tez meningkatkan kecepatan secara dramatis pada MapReduce, dengan mempertahankan kemampuan MapReduce untuk memproses data berskala petabytes. Komponen penting dalam ekosistem Hadoop, seperti Apache Hive dan Apache Pig saat ini telah diimplementasikan menggunakan Tez, dan mendapatkan perbaikan kinerja sampai 100% dibanding implementasi menggunakan MapReduce.

Thrift

Thrift adalah framework yang digunakan untuk mendeskripsikan antarmuka dan protokol komunikasi biner, digunakan untuk mendefinisikan dan membuat services dalam berbagai bahasa pemrograman. Thrift menyediakan framework perangkat lunak untuk "scalable cross-language services development". Ia menggabungkan software stack dengan kemampuan menghasilkan kode untuk membangun layanan yang bekerja secara efisien dan baik antara C ++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C #, Cocoa, Smalltalk, dan OCaml. Semula dikembangkan di Facebook, dan sekarang telah menjadi proyek open source di Apache Software Foundation.

Unstructured data

Data yang tidak memiliki struktur-untuk diidentifikasi, contohnya email.

WebHDFS

WebHDFS adalah akses ke HDFS melalui protokol HTTP REST API. Disamping mengambil keuntungan dari sistim parallel yang ada pada Hadoop, WebHDFS juga mempertahankan keamanan yang digunakan oleh protokol pada Hadoop.

Whirr

Sekumpulan library untuk menjalankan cloud services. Ideal untuk menjalankan cluster Hadoop yang bersifat temporary, misalnya untuk POC (proof of concept) atau menjalankan pekerjaan-pekerjaan yang sekali waktu saja.

XML Databases

Database XML memungkinkan data yang akan disimpan dalam format XML. Database XML sering dikaitkan dengan database berorientasi dokumen. Data yang disimpan dalam database XML dapat dilihat, diekspor dan disimpan ke format yang diperlukan.

YARN

YARN (Yet Another Resource Negotiator) adalah teknologi manajemen cluster, yang merupakan salah satu fitur penting dalam generasi kedua Hadoop. Disebut juga MapReduce 2.0. YARN memisahkan manajemen sumber data pada MapReduce dan kemampuan penjadwalan dari komponen pengolahan data, dan memungkinkan Hadoop untuk mendukung pendekatan pengolahan yang lebih bervariasi dan aplikasi yang lebih beragam.

ZooKeeper

Zookeeper merupakan proyek perangkat lunak dari Apache yang menyediakan konfigurasi terpusat untuk sistem terdistribusi yang besar. Zookeeper mendukung layanan operasional untuk cluster Hadoop. Zookeeper menyediakan konfigurasi, sinkronisasi dan naming registry untuk sistem terdistribusi. Aplikasi menyimpan dan melakukan update untuk konfigurasi-konfigurasi penting dengan memanfaatkan ZooKeeper.