Persejajaran sekuen jamak

Penyejajaran sekuens jamak menggunakan ClustalW

Penyejajaran sekuens jamak (bahasa Inggris: multiple sequence alignment) merupakan penyejajaran tiga atau lebih sekuens asam nukleat, protein, atau RNA.[1] Persejajaran ini dapat digunakan untuk melihat homologi baik secara keseluruhan ataupun parsial, yang nanti datanya dapat digunakan untuk melihat kekerabatan antara spesies.[1]

Kegunaan

Kegunaan persejajaran sekuen jamak antara lain:

  1. Dapat melihat hubungan evolusi antar sekuen.[1]
  2. Melihat area yang berulang pada sekuen yang berbeda. Contoh pada sekuen asam amino yang memiliki area yang berulang pada sekuen yang berbeda maka dapat diprediksi memiliki struktur yang mirip. Pada DNA dapat digunakan untuk mencari sekuen regulator.[1]
  3. Dapat menyusun proba atau primer DNA yang dapat digunakan untuk penelitian biologi molekular seperti reaksi berantai polimerase.[1]

Tantangan

Dalam persejajaran sekuen jamak terdapat sejumlah tantangan, yaitu:

  • Pencarian nilai persejajaran yang paling optimum.[1]
Untuk mencari persejajaran yang paling optimum terdapat empat jenis pendekatan yaitu:
  1. Persejajaran progresif global.[1]
  2. Metode iterasi.[1]
  3. Persejajaran yang berdasarkan daerah lokal yang berulang.[1]
  4. Metode statistik dan model kemungkinan atau probabilitas.[1]
  • Mengidentifikasi metode yang logis untuk memperoleh nilai kumulatif untuk substitusi dalam kolom persejajaran.[1]
  • Peletakan dan penilaian dari elemen (asam amino, protein atau RNA) yang senjang (gap) pada sekuen yang bervariasi.[1]

Pemograman dinamis

Teknik ini digunakan untuk mencari persejajaran yang terbaik dari sekuen yang ada dengan menggunakan persejajaran global.[1] Terdapat dua jenis teknik dalam menilai hasil dari pemograman dinamis:

  1. Weighted sum: jumlah sekuen yang dianalisis bergantung pada tahap komputasi dan kemampuan memori komputer, sehingga jumlah sekuen yang dianalisis tidak bisa dalam jumlah besar.[1] Contoh bila terdapat tiga sekuen, maka komputer akan memprediksikan dalam bentuk tiga dimensi.[1] Bila terdapat empat sekuen, maka komputer akan memprediksikan dalam bentuk empat dimensi, dan seterusnya.[1]
  2. Sum of Pair: karena teknik sebelumnya yang sulit untuk digunakan, maka Carrillo dan Lipman (1988) menemukan teknik sum of pair.[1] Metode ini menghitung menggunakan matriks PAM (Percent Accepted Mutation) dan BLOSUM (Blocks Amino Acid Substitution Matrices).[1] Masalah yang terjadi pada teknik ini adalah mutasi dari satu jenis asam amino saja dapat mengubah skor secara signifikan.[1]

Metode progresif

Jika metode sebelumnya digunakan hanya untuk tiga sekuen atau sekuen pendek (sekitar enam hingga delapan asam amino),[1] maka metode ini juga menggunakan pemograman dinamik, lalu secara progresif menambahkan sekuen yang tidak terlalu berhubungan.[1] Hubungan antar sekuen dimodelkan dalam pohon filogenetika; cabang dan daunnya adalah hasil dari persejajaran sekuen.[1] Algoritme yang biasa digunakan adalah Feng Doolittle, ditemukan oleh Da-Fei Feng dan Russel Doolittle.[2] Program yang menggunakan metode ini salah satunya adalah ClustalW.[1] Clustal telah lama ada, sudah lebih dari sepuluh tahun dan Clustal membuat persejajaran global-jamak.[1] Huruf W dari ClustalW memiliki kepanjangan yaitu weighting yang berarti memiliki kemampuan untuk menyediakan bobot pada sekuen dan parameter program.[1] ClustalW akan memberikan hasil yang baik bila sekuen memiliki kemiripan lebih dari 6σ.[3] Tahap pengerjaan mencakup: membuat persejajaran berpasangan dari semua sekuen, menggunakan skor persejajaran untuk membuat pohon filogenetika, dan mensejajarkan progresif sekuens jamak yang mengacu pada pohon filogenetika, sehingga sekuen yang paling mirip akan disejajarkan terlebih dahulu.[1] Dalam pembuatan pohon filogenetika, jarak genetika antar sekuen diperlukan.[1] Jarak genetika adalah jumlah posisi yang tidak berpasangan dibagi dengan posisi yang berpasangan.[1] Clustal W juga memiliki pilihan untuk menambah satu atau lebih sekuen dengan bobot atau persejajaran yang sudah ada.[1] Ketika satu pohon filogenetika telah dibuat, dengan tambahan tersebut dapat memungkinkan terjadi perubahan jamak.[1] Hal yang harus diperhatikan adalah sekuen pertama yang disejajarkan harus paling dekat dengan pohon sekuen, maka kejanggalan yang dihasilkan tidak akan banyak.[1]

Metode iteratif

Metode ini menghitung terlebih dahulu hal yang membuat persejajaran tersebut lebih baik, lalu diulang terus menerus hingga mendapatkan nilai persejajaran yang lebih tinggi.[1]

Persejajaran secara lokal

Jika metode-metode sebelumnya menjelaskan persejajaran secara global.[1] Ketika analisis secara global banyak ditemukan kesenjangan, dan telah dapat disubstitusi, sehingga persejajaran dari area tersebut menjadi sebuah sekuen baru yang dapat ditentukan.[1] Area baru tanpa kesenjangan disebut blok, dan blok ini dapat dipakai dalam persejajaran sekuen.[1] Teknik persejajaran secara lokal dapat dilakukan dengan analisis profil, analisis blok, ekstraksi blok dari persejajaran secara global dan lokal, pencarian pola (pattern), blok yang diproduksi oleh server BLOCKS dari sekuen yang belum disejajarkan, metode emotif dari analisis motif.[1]

Analisis profil

Hal yang pertama kali dilakukan adalah menganalisis secara global, lalu pada bagian yang sangat mirip (highly conserved) dari semua sekuen yang dianalisis dihapus, sehingga terbentuk sekuen yang lebih pendek.[1] Kelemahannya adalah hanya merepresentasikan variasi dari famili sekuen. Jika beberapa sekuen memiliki elemen yang mirip maka akan menjadi bias.[1]

Analisis blok

Proses ini memakai bagian yang mirip (conserved), karena pada bagian ini sedikit sekali elemen yang mengalami insersi dan delesi, tetapi hal yang ditampilkan dari sekuen-sekuen tersebut adalah elemen yang cocok dan tidak cocok.[1] Penggunaan statistika dan statistika Bayessian dapat menunjukkan area yang memiliki bagian yang mirip.[1] Melalui analisis blok, pohon filogenetika dapat dibentuk.[1] Metode ini tidak menggunakan matriks PAM dan BLOSUM, sehingga mereka akan mencari pasangan yang cocok yang sedikit input.[1]

Ekstraksi blok dari persejajaran secara global dan lokal

Bagian yang tidak senjang dapat diekstraksi dan digunakan untuk memproduksi blok baru.[1] Blok yang dihasilkan akan bagus bisa sumber ekstraksinya juga bagus.[1]

Pencarian pola

Pola suatu area dari berbagai sekuen dapat diacu dari sebuah katalog. Pola tersebut dapat menyatakan fungsi yang mirip dari sekuen yang dianalisis.[1] Contoh, suatu protein A memiliki pola yang mirip dengan enzim tertentu, sehingga dapat diprediksikan fungsi protein A mirip dengan enzim tersebut.[1]

Blok yang diproduksi oleh server BLOCKS dari sekuen yang belum disejajarkan

Server BLOCKS dapat mengekstraksi area yang mirip dan tidak senjang untuk membuat sebuah blok.[1] Server yang sama dapat juga mencari blok pada set dari sekuen yang belum disejajarkan, input sekuen-sekuen, dan menjaga database blok yang besar.[1]

Metode emotif dari analisis motif

Metode ini sangat berbeda tetapi sangat berguna untuk mengidentifikasi motif dalam sekuen protein.[1] Dari database BLOCKS dan database HSSP, set dari karakteristik substitusi asam amino dari persejajaran ditemukan.[1]

Metode statistik untuk membantu persejajaran

  • Memaksimumkan algoritme
Algoritme telah digunakan untuk mengidentifikasi daerah yang mirip dari protein yang belum disejajarkan dan situs pengikatan protein pada sekuen DNA yang belum disejajarkan, termasuk area yang mungkin mengandung senjang.[1] Sebuah teknik yang digunakan untuk sekuensing protein telah ditemukan dalam program SAGA (Sequence Alignment by Genetic Algorithm).[4]
  • Gibbs Sampler
Gibss Sampler mencari motif yang paling mungkin dan dapat mencari kedalaman yang optimal dan angka dari motif-motif dari setiap sekuen.[1] Pendekatan kombinatorial dari Gibbs Sampler dapat digunakan untuk membuat blok.[1]
  • Model Markov Tersembunyi
Model Markov tersembunyi merupakan model statistik yang menggunakan semua kombinasi yang munkin dari elemen yang cocok, tidak cocok dan senjang untuk mendapatkan persejajaran dari sebuah sekuen.[1] Sebuah model dari sekuen famili pertama kali dibuat dan diinisialisasi dengan informasi mengenai sekuen.[1] Model Markov tersembunyi telah diaplikasikan dalam pengenalan struktur protein, yang telah ada dalam program CASP.[5]

Referensi

  1. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc (Inggris) Mount DW. 2004. Bioinformatics: Sequence and Genome Analysis. New York: Cold Spring Harbor Laboratory.
  2. ^ (Inggris) Pevsner J. 2009. Bioinformatics and Functional Genomics. Hoboken: Wiley & Blackwell.
  3. ^ (Inggris) Baxevanis AD, Oullette BFF. 2001. Bioinformatics: A Practical Guides to Analysis of Genes and Proteins. New York: John Wiley & Sons.
  4. ^ (Inggris) Notredame C, Higgins DG. 1996. SAGA: Sequence Alignment by Genetic Algortihm. Nucleic Acid Res 24(8): 1515-1524.
  5. ^ (Inggris) Lesk AM. 2002. Introduction to Bioinformatics. New York: Oxford University Press.