Singkatan dari Atomicity, Consistency, Isolation, and Durability. Empat karakteristik yang menjamin transaksi database diproses secara reliable. Model ACID merupakan salah satu konsep tertua dan paling penting dari teori database transaksional.
Atomicity mengacu pada kemampuan database untuk menjamin bahwa baik semua bagian transaksi dilakukan atau tidak sama sekali. Jika salah satu bagian dari transaksi gagal, seluruh transaksi gagal. Consistency memastikan data dapat dikembalikan dalam keadaan sebelum transaksi dimulai, jika terjadi kegagalan. Isolation memastikan transaksi yang masih dalam proses dan belum dilakukan (committed) harus tetap terisolasi terhadap transaksi lainnya.
Durability memastikan data yang telah disimpan (committed data) disimpan oleh sistim sebagaimana keadaannya , bahkan jika dalam keadaan kegagalan sistim dan restart sistem, data tersebut tersedia dalam tahapan dan keadaan yang benar.
Formula matematis yang digunakan untuk melakukan pemrosesan terhadap sekumpulan data.
Apache Ambari adalah framework untuk menambah, mengatur dan memonitor cluster Apache Hadoop. Ambari menyediakan user interface yang simple dan elegan. Dirancang untuk dapat diintegrasikan dengan tools operasional yang telah ada, seperti misalnya Microsoft System Center dan Teradata Viewpoint.
Anonimisasi : Menghilangkan informasi personal dari sekumpulan data untuk mencegah diketahuinya sumber data tersebut.
Sebuah organisasi non-profit yang dibentuk untuk mendukung proyek-proyek perangkat lunak open source. Proyek Apache dilindungi oleh lisensi ASF yang memberikan perlindungan hukum kepada para relawan yang bekerja pada produk Apache.
Kecerdasan buatan : bagaimana membuat mesin yang “cerdas” dan dapat melakukan hal-hal yang sebelumnya dapat dilakukan oleh manusia, seperti misalnya mengamati lingkungan dan bertindak sesuai dengan kebutuhan dan bahkan belajar dari tindakan atau aksi tersebut.
Metode identifikasi objek secara otomatis. Mengumpulkan data mengenai objek tersebut dan menyimpannya ke dalam sistem komputerisasi tanpa keterlibatan manusia. Teknologi yang termasuk dalam AIDC di antaranya adalah barcode, Radio Frequency Identification (RFID), biometrik, pita magnetik, Optical Character Recognition (OCR), smart card, dan pengenalan suara. AIDC juga sering disebut sebagai “Automatic Identification,” “Auto-ID,” atau "Automatic Data Capture." Contoh penggunaan AIDC adalah di bidang inventory management, pengiriman barang, security, dan dokumen.
Sistem data serialization yang memungkinkan encoding skema dari file-file Hadoop. Dengan menyertakan skema dalam proses serialization, tidak lagi diperlukan code generation, tipe data static, dsb, sehingga mendukung pemrosesan data dan bahasa yang generik.
http://avro.apache.org/
Proses yang dilakukan secara berkala dan otomatis. Data yang akan diproses dikumpulkan terlebih dahulu oleh sistem, kemudian pada waktu-waktu tertentu yang sudah dijadwalkan, proses dijalankan secara otomatis oleh sistem. Jenis proses lain adalah real time di mana data yang masuk langsung diproses saat itu juga, dan proses on-line atau interaktif, di mana data didapatkan dari input pengguna.
Bagian dari bisnis analytics yang menggunakan data untuk memahami perilaku manusia/user dan memprediksi tindakan mereka selanjutnya. Data yang digunakan antara lain dari eCommerce platform, online game, media sosial, dan aplikasi web lainnya. Jenis datanya antara lain adalah user trails seperti apa saja yang mereka klik, navigation path (jalur tautan yang diikuti), data pembelian online, iklan yang dilihat, dan lain sebagainya.
CDR adalah data yang berkaitan dengan sebuah penggunaan jaringan telekomunikasi, seperti misalnya panggilan telepon, sms, maupun data service. Contoh data yang dicatat dalam CDR antara lain adalah nomor telepon, waktu, durasi, lokasi, jenis perangkat yang digunakan, dan lain sebagainya. Data ini dapat digunakan oleh perusahaan telekomunikasi untuk melakukan berbagai macam analisis.
Cascading adalah sebuah platform untuk membangun aplikasi di atas Hadoop. Cascading menyediakan abstraksi untuk Hadoop, sehingga developer dapat mengimplementasikan jobs yang kompleks dengan lebih mudah dan cepat, dalam beberapa bahasa yang dapat dijalankan di JVM, seperti Ruby, Scala, dan lain-lain.
www.cascading.org
Cassandra adalah database NoSQL yang terdistribusi. Pada awalnya dikembangkan oleh Facebook, saat ini sudah menjadi open source. Strukturnya berupa key-value. http://cassandra.apache.org/
Chukwa adalah sebuah sub-project Hadoop yang ditujukan untuk menangani dan menganalisa log dalam skala besar. Chukwa dibangun di atas HDFS dan MapReduce, di dalamnya mencakup toolkit untuk menampilkan hasil monitoring dan analisis.
Analisa terhadap aktifitas pengguna web melalui item yang diklik pada sebuah halaman web.
Clojure adalah bahasa pemrograman dinamis yang didasarkan pada LISP, yang menggunakan Java Virtual Machine (JVM). Digunakan pada pemrosesan data paralel.
Istilah yang secara umum digunakan untuk mengacu pada layanan atau aplikasi berbasis internet yang di-hosting secara remote.
A distributed computing system over a network used for storing data off-premises Istilah umum untuk penyediaan hosted services melalui internet. Merupakan gabungan pemanfaatan teknologi komputasi dengan layanan berbasis internet.
Menyimpan data lama yang sudah sangat jarang digunakan di server yang kinerjanya lebih rendah. Untuk mengambil kembali data tersebut biasanya akan memerlukan waktu dan effort yang relatif lebih besar.
Sebuah basis data yang menyimpan data dalam kolom. Jika dalam database biasa sebuah row/baris berisi nama, alamat dan nomor telepon, maka dalam database berbasis kolom, semua nama disimpan dalam sebuah kolom, semua alamat di kolom yang lain, dan seterusnya. Kelebihan columnar database adalah akses hard disk yang lebih cepat.
Penggunaan teknologi untuk memonitor dan memprediksi kejadian di tingkat yang lebih kompleks, dari sekumpulan event/kejadian yang lebih sederhana. CEP mengidentifikasi dan menganalisa hubungan sebab-akibat antar event secara real time, sehingga dapat diambil tindakan secara proaktif dan efektif. Paradigma CEP muncul pada tahun 1990an, dari sebuah project yang dikepalai oleh Dr. David Luckham di Stanford University.
Analisis menggunakan data dari berbagai channel, seperti misalnya sales, average order value, lifetime value.
Halaman atau panel yang dirancang untuk menampilkan informasi yang mudah dibaca. Biasanya terdiri dari satu halaman saja, bersifat real time, dan berisi presentasi grafis dari keadaan terkini (snapshot), dan trend historikal dari KPI sebuah organisasi/perusahaan. Digunakan untuk mendukung proses pengambilan keputusan.
Proses mengumpulkan data dari berbagai sumber untuk keperluan analisis atau reporting.
Fasilitas fisik yang menjadi penyimpanan server dan perangkat penyimpan data. Data center bisa dimiliki sendiri oleh organisasi/perusahaan pemilik server, atau pihak yang menyewakan service ke banyak perusahaan/organisasi.
Proses membersihkan data dari duplikasi, data yang salah, data yang tidak lengkap, dan lain-lain, untuk mendapatkan informasi yang yang lebih akurat dan konsisten. Biasanya dilakukan sebelum proses yang lain, seperti misalnya transformasi, pengayaan/enrichment, penggabungan, agregasi, dan lain sebagainya.
Proses mengumpulkan data dari berbagai bentuk dan sumber data.
Data yang dihasilkan dari berbagai kegiatan, misalnya panggilan telepon atau pencarian di internet.
Data Feed adalah mekanisme bagi pengguna untuk menerima data terkini dari sumber data. Hal ini biasanya digunakan oleh aplikasi real-time dalam pengaturan point-to-point serta di World Wide Web. Contoh mekanisme ini termasuk RSS atau twitter.
Sekumpulan proses atau aturan yang menjaga/menjamin integritas data dan memastikan bahwa manajemen data dilakukan dengan baik.
Layer akses dari sebuah data warehouse yang digunakan untuk memberikan data kepada pengguna.
Proses memindahkan data antara berbagai jenis penyimpanan dan format, atau antara sistem komputer yang berbeda.
Proses untuk mendapatkan pola atau informasi dari sekumpulan data.
Sebuah model data mendefinisikan struktur data untuk tujuan berkomunikasi antara orang-orang di bagian fungsional dan bagian teknis untuk menunjukkan data yang diperlukan untuk proses bisnis, atau untuk berkomunikasi rencana untuk mengembangkan bagaimana data disimpan dan diakses di antara anggota tim pengembangan aplikasi.
Data item yang ada pada grafik atau chart
Proses pengumpulan data statistik dan informasi tentang data di sumber data.
Ukuran untuk menentukan kelayakan suatu data dalam pengambilan keputusan, perencanaan, atau operasi.
Penduplikasian data. Proses berbagi informasi untuk memastikan konsistensi antara sumber dan duplikasinya.
Lokasi data yang tersimpan secara permanen.
Sebuah istilah baru yang memiliki beberapa definisi, tetapi umumnya diterima sebagai suatu disiplin yang menggabungkan statistik, visualisasi data, pemrograman komputer, data mining, machine learning, dan teknik database untuk memecahkan masalah yang kompleks.
Praktek melindungi data dari kerusakan atau akses yang tidak sah.
Kumpulan data
Data steward adalah orang yang bertanggung jawab atas pengelolaan elemen data, baik isi maupun metadata.
Sebuah cara khusus untuk menyimpan dan mengatur data
Visualisasi data yang dirancang untuk tujuan memperoleh makna atau mengkomunikasikan informasi secara lebih efektif.
Sebuah tempat dan metode untuk menyimpan data untuk tujuan pelaporan dan analisis.
Menggunakan data untuk mendukung proses pengambilan keputusan
Database yang di-hosting di cloud, di mana penggunanya membayar biaya sesuai dengan besarnya resource yang digunakan. Beberapa contoh DaaS saat ini di antaranya adalah Heroku Postgres and Amazon RDS.
Software yang mengumpulkan dan menyediakan akses ke data dalam format yang terstruktur.
Tindakan menghapus semua data yang menghubungkan seseorang untuk bagian tertentu dari informasi.
Layanan prediksi cuaca dari IBM yang menyediakan data cuaca untuk pihak lain seperti utilitas, yang menggunakan data tersebut untuk mengoptimalkan distribusi energi.
Data yang berhubungan dengan karakteristik populasi manusia.
Cache data yang tersebar di beberapa sistem tetapi bekerja sebagai satu kesatuan. Hal ini digunakan untuk meningkatkan kinerja.
Sebuah metode untuk menyimpan dan mengakses file pada arsitektur client/server.
Eksekusi proses menggunakan beberapa komputer yang terhubung dengan jaringan komputer.
Database berorientasi dokumen yang dirancang khusus untuk menyimpan, mengelola dan mengambil dokumen, juga dikenal sebagai data semi terstruktur.
Dikenal juga sebagai Apache Drill, adalah open source, SQL query engine dengan latency rendah untuk Hadoop dan NoSQL. Apache Drill memfasilitasi query langsung pada self-describing dan data semi-terstruktur dalam file (seperti JSON, Parquet) dan tabel HBase tanpa perlu mendefinisikan dan memelihara skema terpusat seperti Hive metastore.
Sebuah open source search engine yang dibangun pada Apache Lucene.
Singkatan dari Extract, Transform and Loading, adalah sebuah proses yang digunakan dalam data warehousing untuk mempersiapkan data untuk digunakan dalam pelaporan atau analisis.
Pengalihan secara otomatis ke komputer lain jika terjadi suatu kegagalan.
Falcon menyederhanakan proses development dan manajemen sistem pemrosesan data dengan menyediakan abstraksi di tingkat yang lebih tinggi sehingga dapat mengurangi kompleksitas aplikasi data processing. Hal ini menyederhanakan konfigurasi dan pengaturan pergerakan data, disaster recovery, retensi data, archiving, data discovery, dan lain sebagainya. Dalam Hadoop stack, Falcon adalah bagian dari data lifecycle dan data governance.
Dikenal juga sebagai Apache Flume, suatu service terdistribusi untuk melakukan streaming data ke dalam HDFS. Flume digunakan untuk mengumpulkan, meng-agregasi, dan memindahkan data log yang besar secara efisien ke dalam HDFS.
Graph Database adalah database yange menerapkan teori grafik untuk penyimpanan informasi tentang hubungan antara entri. Ia menggunakan struktur grafik (satu set terbatas pada pasangan yang berurut atau entities tertentu), dengan tepian, properti dan node untuk penyimpanan data. Ini memberikan kedekatan indeks bebas, yang berarti bahwa setiap elemen secara langsung terkait dengan unsur tetangganya. Contoh yang paling mudah adalah hubungan antara orang-orang dalam suatu jaringan sosial.
Komputasi menggunakan sumber daya dari beberapa sistem terdistribusi. Komputasi grid biasanya melibatkan file besar dan yang paling sering digunakan untuk beberapa aplikasi. Sistem yang terdiri dari jaringan komputasi grid tidak harus sama dalam desain atau di lokasi geografis yang sama.
Sebuah proyek open source software yang dikelola oleh Apache Software Foundation. Apache Hadoop mendefinisikan sebagai "sebuah framework yang memungkinkan untuk pemrosesan terdistribusi pada dataset yang besar di klaster komputer menggunakan model pemrograman sederhana."
Biasa digunakan oleh para programmer, Hadoop Common adalah sekumpulan utilitas umum yang berisi kode untuk mendukung modul-modul lain dalam ekosistem Hadoop. Misalnya ketika Hive atau HBase mengakses HDFS, prosesnya dilakukan dengan menggunakan JARs (Java archives), yang berupa Java code libraries dalam Hadoop Common.
Framework komputasi terdistribusi berdasarkan pada teknik Bulk Synchronous Parallel untuk komputasi saintifik berukuran besar, misalnya matrix, graph dan network algorithms. Sebuah project dibawah Apache Software Foundation.
Sebuah software/hardware platform komputasi di memori (in-memory computing) dari SAP dirancang untuk transaksi volume tinggi dan analisis real-time.
HBase adalah database non-relasional yang memungkinkan pencarian data yang bersifat singkat dan low-latency di Hadoop. HBase memungkinkan adanya operasi transaksional di Hadoop, termasuk update, insert dan delete. Facebook dan EBay banyak menggunakan HBase.
HCatalog adalah sistem manajemen metadata dan table untuk mendukung platform Hadoop yang lebih luas. HCatalog memungkinkan penyimpanan data dalam berbagai bentuk, tanpa mempedulikan strukturnya. Hcatalog juga memungkinkan sharing struktur data dengan sistem di luar Hadoop, termasuk tools manajemen data tradisional. Dengan kedua hal ini, berbagai tools, termasuk Pig dan Hive, dapat memproses data apapun di Hadoop tanpa harus mengetahui di mana cluster data tersebut disimpan secara fisik.
HDFS (Hadoop Distributed File System), layer penyimpanan data di Hadoop, adalah sebuah file system berbasis Java yang fault-tolerant, terdistribusi dan scalable, sangat sesuai untuk penyimpanan data yang sangat besar. Didesain untuk dapat diaplikasikan di atas cluster yang sangat besar, HDFS tidak hanya dapat diimplementasikan dengan server proprietary saja, namun juga server-server commodity (non-proprietary).
Hive adalah framework data warehouse yang dibangun di atas Hadoop. Pada awalnya dikembangkan oleh Facebook, namun saat ini sudah banyak perusahaan besar lain yang mengembangkannya, seperti Netflix maupun Amazon. Hive menyediakan bahasa pemrograman yang mirip dengan SQL, yaitu HiveQL, yang pada eksekusinya diterjemahkan ke MapReduce. Dengan HiveQL, programmer yang tidak memiliki pengalaman menggunakan MapReduce dapat melakukan pengolahan data di Hadoop, serta memudahkan integrasi dengan tools BI maupun visualisasi seperti Tableau, Microstrategy, dll.
Hue (Hadoop User Interface) adalah antarmuka berbasis web yang open source, dibuat untuk memudahkan penggunaan Apache Hadoop. Di antara fitur-fiturnya adalah file browser untuk HDFS, Aplikasi Oozie untuk membuat workflow dan koordinator, job desainer/browser untuk MapReduce, Hive dan Impala user interface, sebuah Shell, sekumpulan API Hadoop, dan lain sebagainya.
Integrasi data analytics ke dalam data warehouse.
Penyimpanan data ke dalam memory di banyak server untuk tujuan skalabilitas yang lebih besar dan akses lebih cepat.
Database yang menggunakan memory sebagai penyimpanan data.
Service dalam Hadoop yang mendistribusikan task MapReduce ke node tertentu dalam cluster
Kafka (dibangun oleh LinkedIn) adalah sistem messaging terdistribusi yang mempunyai kemampuan untuk menangani aktifitas data flow di sebuah website dan memproses data tersebut. Jenis data tersebut (page view, pencarian, dan aktifitas lainnya) adalah bagian yang penting dari sosial web saat ini.
Key value stores memungkinkan aplikasi untuk menyimpan data dengan cara schema-less. Data dapat disimpan dalam bentuk objek ataupun struktur data dari sebuah bahasa pemrograman. Dengan kemampuan ini, tidak diperlukan lagi sebuah data model tertentu.
Kryo saat ini adalah salah satu dari 2 serialization library yang disediakan Spark (http://spark.apache.org/docs/1.2.0/tuning.html). Kryo lebih cepat dan lebih ringkas daripada Java serialization (dapat mencapai 10 kalinya), namun tidak mendukung seluruh tipe dan memerlukan programmer untuk me-register kelas yang akan digunakan. Kryo dapat melakukan deep dan shallow cloning/copying secara otomatis, yaitu pengkopian dari object ke object, bukan object->bytes->object.
Keterlambatan dalam respon atau pengiriman data dari satu titik ke titik lain.
Proses mendistribusikan beban kerja dalam sebuah jaringan atau klaster untuk optimasi kinerja
Sebuah file yang yang dibuat secara otomatis oleh komputer atau aplikasi untuk mencatat peristiwa yang terjadi selama operasi, contohnya waktu file ketika diakses.
Setiap data yang secara otomatis dibuat dari proses komputer, aplikasi, atau sumber non-manusia lainnya.
Apache ™ Mahout adalah library algoritma machine learning, diimplementasikan di atas Apache Hadoop® dan menggunakan paradigma MapReduce.
Data tentang data, data yang memberikan informasi mengenai data.
Proses menganalisis sebuah query dalam rangka optimasi performance
R adalah bahasa pemrograman dan tools yang banyak digunakan untuk komputasi statistik dan grafis, yang merupakan bagian dari proyek GNU yang memiliki kemiripan dengan bahasa S. R menyediakan berbagai fungsi statistik (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, ...) dan teknik grafis, dan sangat extensible.
Penggabungan beberapa data untuk menemukan orang tertentu dalam data yang anonim
Data yang dibuat, diproses, disimpan, dianalisa dan divisualisasikan dalam waktu yang sangat cepat (milidetik)
Sebuah sistem yang berisi algoritma untuk memprediksi apa yang disukai oleh pengguna berdasarkan data-data perilaku pengguna, seperti link yang diklik ataupun web page yang dikunjungi.
Data yang menggambarkan objek dan sifat-sifatnya. Objek dapat bersifat fisik atau virtual.
Penerapan metode statistik pada satu atau lebih dataset untuk menentukan kemungkinan risiko yang dapat terjadi dalam suatu proyek, tindakan, atau keputusan.
Proses untuk menentukan penyebab utama dari suatu peristiwa atau masalah.
Analisa untuk menentukan routing yang paling optimal dengan menggunakan banyak variabel yang berbeda untuk suatu sarana transportasi tertentu untuk mengurangi biaya bahan bakar dan meningkatkan efisiensi.
Kemampuan sistem, jaringan, atau proses untuk menangani pertumbuhan beban pekerjaan dengan cara diperbesar untuk mengakomodasi pertumbuhan itu.
Struktur yang mendefinisikan organisasi data dalam sistem database
Data agregat tentang istilah pencarian yang digunakan dari waktu ke waktu.
Data yang tidak terstruktur dengan model data formal, tetapi menyediakan cara lain untuk menggambarkan dan membaca data serta hirarkinya.
Penerapan fungsi statistik pada komentar orang yang dibuat di web atau melalui sosial media untuk menentukan bagaimana perasaan mereka tentang suatu produk, perusahaan ataupun isu tertentu.
Proses menerjemahkan struktur data atau status sebuah object ke dalam sebuah format yang dapat disimpan (misalnya ke dalam file atau memory buffer, atau dikirim melalui koneksi jaringan) dan direkonstruksi/dibentuk kembali seperti semula.
Software as a Service (SaaS) adalah model distribusi perangkat lunak di mana aplikasi yang di-host oleh vendor atau penyedia layanan dan diakses pelanggan melalui jaringan, biasanya Internet. Berbeda dengan model tradisional distribusi software, biasanya software dibeli dan diinstal pada PC pengguna, kadang-kadang disebut juga sebagai software as a product
Spark atau dikenal juga dengan nama Apache Spark merupakan open-source cluster framework computing, yang dibangun untuk pemrosesan big data dengan cepat, yang pada awalnya dikembangkan oleh AMPLab di UC Berkeley. Apache spark memiliki algoritma yang berbeda dengan Map/Reduce, tetapi dapat berjalan diatas Hadoop melalui YARN. Spark menyediakan API pemrograman Java, Python, Scala, dan SQL, dan dapat digunakan untuk menjalankan berbagai jenis proses secara efisien, termasuk proses ETL, data streaming, machine learning, perhitungan grafik, dan SQL.
Proses pemeriksaan data geografis atau data topologi melalui overlay dan teknik analisis lainnya untuk menjawab pertanyaan atau mendapatkan informasi. Analisis spasial biasnya mengekstrak atau menciptakan informasi baru dari data spasial.
Disebut juga sebagai Apache Sqoop, adalah tools atau aplikasi yang dirancang untuk mentransfer data secara efisien dari aplikasi penyimpanan non Hadoop, seperti database, ke dalam Hadoop
Disebut juga sebagai Apache Storm, adalah sistem komputasi real-time terdistribusi, open source dan gratis, yang pada awalnya dibangun oleh Twitter. Storm didisain memudahkan mengolah data secara realtime, sementara Hadoop untuk pemrosesan secara batch.
Sebuah bahasa pemrograman untuk mengambil data dari sebuah database relasional
Penerapan teknik statistik, linguistik, dan machine learning pada sumber data berbasis teks untuk memperoleh makna atau nilai yang terkandung didalamnya.
Disebut juga sebagai Apache Tez, adalah sebuah framework pengembangan dari MapReduce. Dirancang untuk membangun sebuah aplikasi berkinerja tinggi untuk proses batch interaktif dalam Hadoop dengan YARN sebagai koordinator. Tez dibuat untuk mendukung proses-proses yang berkarakteristik seperti sebuah DAG (Directed-Acyclic-Graph). Tez meningkatkan kecepatan secara dramatis pada MapReduce, dengan mempertahankan kemampuan MapReduce untuk memproses data berskala petabytes. Komponen penting dalam ekosistem Hadoop, seperti Apache Hive dan Apache Pig saat ini telah diimplementasikan menggunakan Tez, dan mendapatkan perbaikan kinerja sampai 100% dibanding implementasi menggunakan MapReduce.
Thrift adalah framework yang digunakan untuk mendeskripsikan antarmuka dan protokol komunikasi biner, digunakan untuk mendefinisikan dan membuat services dalam berbagai bahasa pemrograman. Thrift menyediakan framework perangkat lunak untuk "scalable cross-language services development". Ia menggabungkan software stack dengan kemampuan menghasilkan kode untuk membangun layanan yang bekerja secara efisien dan baik antara C ++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C #, Cocoa, Smalltalk, dan OCaml. Semula dikembangkan di Facebook, dan sekarang telah menjadi proyek open source di Apache Software Foundation.
Data yang tidak memiliki struktur-untuk diidentifikasi, contohnya email.
WebHDFS adalah akses ke HDFS melalui protokol HTTP REST API. Disamping mengambil keuntungan dari sistim parallel yang ada pada Hadoop, WebHDFS juga mempertahankan keamanan yang digunakan oleh protokol pada Hadoop.
Sekumpulan library untuk menjalankan cloud services. Ideal untuk menjalankan cluster Hadoop yang bersifat temporary, misalnya untuk POC (proof of concept) atau menjalankan pekerjaan-pekerjaan yang sekali waktu saja.
Database XML memungkinkan data yang akan disimpan dalam format XML. Database XML sering dikaitkan dengan database berorientasi dokumen. Data yang disimpan dalam database XML dapat dilihat, diekspor dan disimpan ke format yang diperlukan.
YARN (Yet Another Resource Negotiator) adalah teknologi manajemen cluster, yang merupakan salah satu fitur penting dalam generasi kedua Hadoop. Disebut juga MapReduce 2.0. YARN memisahkan manajemen sumber data pada MapReduce dan kemampuan penjadwalan dari komponen pengolahan data, dan memungkinkan Hadoop untuk mendukung pendekatan pengolahan yang lebih bervariasi dan aplikasi yang lebih beragam.
Zookeeper merupakan proyek perangkat lunak dari Apache yang menyediakan konfigurasi terpusat untuk sistem terdistribusi yang besar. Zookeeper mendukung layanan operasional untuk cluster Hadoop. Zookeeper menyediakan konfigurasi, sinkronisasi dan naming registry untuk sistem terdistribusi. Aplikasi menyimpan dan melakukan update untuk konfigurasi-konfigurasi penting dengan memanfaatkan ZooKeeper.