Sebuah proyek open source software yang dikelola oleh Apache Software Foundation. Apache Hadoop mendefinisikan sebagai "sebuah framework yang memungkinkan untuk pemrosesan terdistribusi pada dataset yang besar di klaster komputer menggunakan model pemrograman sederhana."
Biasa digunakan oleh para programmer, Hadoop Common adalah sekumpulan utilitas umum yang berisi kode untuk mendukung modul-modul lain dalam ekosistem Hadoop. Misalnya ketika Hive atau HBase mengakses HDFS, prosesnya dilakukan dengan menggunakan JARs (Java archives), yang berupa Java code libraries dalam Hadoop Common.
Framework komputasi terdistribusi berdasarkan pada teknik Bulk Synchronous Parallel untuk komputasi saintifik berukuran besar, misalnya matrix, graph dan network algorithms. Sebuah project dibawah Apache Software Foundation.
Sebuah software/hardware platform komputasi di memori (in-memory computing) dari SAP dirancang untuk transaksi volume tinggi dan analisis real-time.
HBase adalah database non-relasional yang memungkinkan pencarian data yang bersifat singkat dan low-latency di Hadoop. HBase memungkinkan adanya operasi transaksional di Hadoop, termasuk update, insert dan delete. Facebook dan EBay banyak menggunakan HBase.
HCatalog adalah sistem manajemen metadata dan table untuk mendukung platform Hadoop yang lebih luas. HCatalog memungkinkan penyimpanan data dalam berbagai bentuk, tanpa mempedulikan strukturnya. Hcatalog juga memungkinkan sharing struktur data dengan sistem di luar Hadoop, termasuk tools manajemen data tradisional. Dengan kedua hal ini, berbagai tools, termasuk Pig dan Hive, dapat memproses data apapun di Hadoop tanpa harus mengetahui di mana cluster data tersebut disimpan secara fisik.
HDFS (Hadoop Distributed File System), layer penyimpanan data di Hadoop, adalah sebuah file system berbasis Java yang fault-tolerant, terdistribusi dan scalable, sangat sesuai untuk penyimpanan data yang sangat besar. Didesain untuk dapat diaplikasikan di atas cluster yang sangat besar, HDFS tidak hanya dapat diimplementasikan dengan server proprietary saja, namun juga server-server commodity (non-proprietary).
Hive adalah framework data warehouse yang dibangun di atas Hadoop. Pada awalnya dikembangkan oleh Facebook, namun saat ini sudah banyak perusahaan besar lain yang mengembangkannya, seperti Netflix maupun Amazon. Hive menyediakan bahasa pemrograman yang mirip dengan SQL, yaitu HiveQL, yang pada eksekusinya diterjemahkan ke MapReduce. Dengan HiveQL, programmer yang tidak memiliki pengalaman menggunakan MapReduce dapat melakukan pengolahan data di Hadoop, serta memudahkan integrasi dengan tools BI maupun visualisasi seperti Tableau, Microstrategy, dll.
Hue (Hadoop User Interface) adalah antarmuka berbasis web yang open source, dibuat untuk memudahkan penggunaan Apache Hadoop. Di antara fitur-fiturnya adalah file browser untuk HDFS, Aplikasi Oozie untuk membuat workflow dan koordinator, job desainer/browser untuk MapReduce, Hive dan Impala user interface, sebuah Shell, sekumpulan API Hadoop, dan lain sebagainya.