Penerapan teknik statistik, linguistik, dan machine learning pada sumber data berbasis teks untuk memperoleh makna atau nilai yang terkandung didalamnya.
Disebut juga sebagai Apache Tez, adalah sebuah framework pengembangan dari MapReduce. Dirancang untuk membangun sebuah aplikasi berkinerja tinggi untuk proses batch interaktif dalam Hadoop dengan YARN sebagai koordinator. Tez dibuat untuk mendukung proses-proses yang berkarakteristik seperti sebuah DAG (Directed-Acyclic-Graph). Tez meningkatkan kecepatan secara dramatis pada MapReduce, dengan mempertahankan kemampuan MapReduce untuk memproses data berskala petabytes. Komponen penting dalam ekosistem Hadoop, seperti Apache Hive dan Apache Pig saat ini telah diimplementasikan menggunakan Tez, dan mendapatkan perbaikan kinerja sampai 100% dibanding implementasi menggunakan MapReduce.
Thrift adalah framework yang digunakan untuk mendeskripsikan antarmuka dan protokol komunikasi biner, digunakan untuk mendefinisikan dan membuat services dalam berbagai bahasa pemrograman. Thrift menyediakan framework perangkat lunak untuk "scalable cross-language services development". Ia menggabungkan software stack dengan kemampuan menghasilkan kode untuk membangun layanan yang bekerja secara efisien dan baik antara C ++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C #, Cocoa, Smalltalk, dan OCaml. Semula dikembangkan di Facebook, dan sekarang telah menjadi proyek open source di Apache Software Foundation.