Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 1]

Banyak tantangan-tantangan Big Data di berbagai bidang yang dapat diselesaikan dengan Hadoop, tak terkecuali pada bidang BioInformatika. DNA Sequence aligment yang merupakan salah satu area dalam bioinformatika, adalah sebuah proses untuk membandingkan dua atau lebih DNA sequence yang berbeda dengan cara mencari kesesuaian pola karakter pada suatu urutan yang sama. Berikut ini merupakan sebuah studi kasus dalam penerapan algoritma DNA sequence menggunakan MapReduce, yang disarikan dari sebuah tugas akhir berjudul SEQUENCE ALIGNMENT SECARA PARALEL MENGGUNAKAN MAPREDUCE DI ATAS HADOOP DISTRIBUTED FILE SYSTEM (HDFS) karya Rusnah Setiani, dari Program Studi Teknik Informatika Fakultas Sains dan Teknologi, Universitas Al Azhar Indonesia.

Masalah

Salah satu kegiatan yang dilakukan dalam bidang bioinformatika adalah pembentukan phylogenetic tree, yaitu sebuah diagram yang menunjukkan hubungan evolusi antar organisme. Hubungan evolusi organisme tersebut diperoleh dengan menganalisis hubungan antara leluhur dan keturunannya dengan cara membandingkan gen yang berasal dari spesies yang akan diteliti.

Saat ini Universitas Al Azhar Indonesia melakukan penelitian mengenai pairwise sequence alignment yang merupakan tahap untuk membentuk phylogenetic tree.

Salah satu permasalahan yang dihadapi dalam penelitian tersebut ditemui dalam pemrosesan sequence alignment. Proses ini dilakukan dengan cara memilih dua sekuens yang terdapat pada genbank Universitas Al Azhar Indonesia, dan dilakukan dengan single processing.Keterbatasan penelitian tersebut yaitu untuk memproses sekuens yang memiliki panjang 214 residu untuk sekuens pertama dan 208 residu untuk sekuens kedua, dengan scoring scheme untuk gap bernilai 0, program tidak dapat berjalan dikarenakan adanya stack overflow. Terdapat dua penyebab terjadinya stack overflow, yaitu banyaknya recursive yang dilakukan dan banyaknya nilai yang disimpan pada stack.

Untuk mengatasinya, penulis mengembangkan penelitian tersebut dengan melakukan proses sequence alignment secara paralel menggunakan MapReduce di atas Hadoop distributed system. Di samping mengatasi keterbatasan di atas, pemrosesan secara paralel juga memungkinkan proses alignment tidak terbatas hanya membandingkan 2 sekuens saja (pairwise alignment). Proses alignment dapat dilakukan dengan membandingkan input sekuens dengan semua data yang terdapat dalam genbank, yang disebut dengan multipairwise alignment.

Solusi/Metodologi

Pembuatan sequence alignment untuk sekuens DNA dengan pendekatan pemograman dinamik secara iteratif menggunakan algoritma Needleman- Wunsch, yang menghasilkan global alignment. Input file yang akan dilakukan proses alignment dalam format FASTA. Output file disimpan ke dalam Hadoop Distributed File System (HDFS).

Data Reference

Sebagai data reference, dibuat sebuah genbank yang disimpan di dalam HDFS. Data diambil dari NCBI (National Center for Biotechnology Information). Data ini yang nantinya akan digunakan sebagai pembanding untuk sequence yang akan di-align.

Bagian Implementasi dan Ujicoba akan di lanjutkan pada Bagian dua, jangan sampai terlewatkan ya 🙂