Türkçe Bilgi: Çoklu dizi hizalaması

Çoklu dizi hizalaması, üç ya da çok biyolojik dizinin (genelde protein, DNA veya RNA dizisinin) dizi hizalamasıdır. Çoğu durumda, girdi kümesindeki sorgu dizilerinin evrimsel bir ilişkiye sahip olduğu, yani ortak bir ataya sahip oldukları varsayılır. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır. Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi için berimsel (hesaplamalı) algoritmalar kullanılır. ÇDH'ler ikili dizi hizalamasından daha ileri yöntemlerin kullanımını gerektirir çünkü berimsel olarak karmaşıktırlar. Nispeten kısa birkaç diziden fazlasının optimal hizalamasını bulmak berimsel bakımdan çok pahalıdır, bu yüzden çoğu çoklu dizileme programları global optimizasyon yerine höristik yöntemler kullanır. Dinamik programlama ve berimsel karmaşıklık Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem iki parametre grubu kullanılır: bir boşluk cezası ve bir substitusyon matrisi. Substitusyon matrisi, her bir amino asit çiftinin birbiriyle hizalanmasına karşılık gelen bir puan (skor) veya olasılık değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır ama substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma veya olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir veya hem pozitif hem negatif değerler içerebilirler, ama lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır. İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın toy (saf) bir yolu olur. Bu yaklaşımın sonucu arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da kuvvetle bağımlıdır. Berimsel karmaşıklığı ölçmekte kullanılan büyük O notasyonu ile ifade edilirse, toy yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukⁿ) sürede tamamlanır. Bu n dizi için global optimumu bulmanın NP-tam problem olduğu gösterilmiştir. Altschul, 1989'da, Carrillo-Lipman Algorithmasını kullanarak, n-boyutlu arama uzayının ikili hizalamalar yaparak sınırlanabileceğini göstermiştir. Bu yaklaşım ile, sorgu kümesindeki her bir dizi çifti için dinzmik programlama hizalamaları yapılır, sonra bu hizalamaların n-boyutlu kesişimi civarında n-li hizalama için arama yapılır. Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. Algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur. İlerleyici hizalama inşası Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik veya ağaç yöntemi olarak da bilinir) bir buluşsal (höristik) aramadır. Bu yöntemde, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama yöntemlerinin hepsi iki aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaç denen bir filogenetik ağaç olarak gösterildiği birinci aşama; ve büyüyen ÇDH'ye dizilerin sırayla eklenerek ÇDH'nin inşa edildiği bir ikinci aşama. İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) yöntemi kullanılır (komşu birleştirme veya UPGMA gibi). Kümelemede uzaklık değeri olarak aynı iki harfli altdizilerin sayısı kullanılabilir (FASTA programında olduğu gibi). İlerleyici hizalamalar global optimal olamaz. Temel sorun, ÇDH oluşturulurken yapılan hataların nihai sonuca kadar taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı özellikle kötüdür. Çoğu modern ilerleyici yöntemler, sorgu kümesinin her bir üyesi için skor fonksiyonlarını değiştirir. Bu değişken skor, dizilerin en yakın komşularına olan genetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonuyla hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir şekilde seçmesinin etkisi düzeltilmiş olur. özellikle ağırlıklı versiyonu olan clustalW bunlara çeşitli Web portallerindan erişilebilir ( GenomeNet, EBI, and EMBNet dahil olmak üzere). Farklı portaller veya uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler bakımından faklılık gösterebilirler. ClustalW'nun doğrudan filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık ikazlarına rağmen, programın çıktıları bu amaç için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi ile protein yapı öndeyisine girdi olarak da kullanılmamalıdır. T-Coffee olarak adlandırılan bir diğer yaygın ilerleyici hizalama yöntemi, Clustal ve onun türevlerinden daha yavaştır ama birbiriyle uzaktan ilişkili diziler için daha doğru hizalamalar üretir. İkili hizalamalar hesaplamak için T-Coffee iki farklı yöntemle elde edilen hizalamaları birleştirir: çiftin doğrudan hizalaması ve, çiftteki her diziyi üçüncü bir dizi ile hizalanması ile elde edilen, indirekt hizalamalar. Bu program, hem Clustal çıktısını, hem de başka bir lokal hizalama programı olan ve iki dizideki çoklu lokal hizalanma bölgeleri bulan LALIGN programını kullanır. Elde edilen hizalama ve filogenetik ağaç, yeni ve daha doğru ağırlık faktörleri üretmek için kullanılır. İleleyici yöntemler buluşsal oldukları için, global bir optimuma yakınsama garantileri yoktur, hizalamanın kalitesini değerlendirmek zor olabilir ve gerçek biyolojik anlamı belirsiz olabilir. Tekrarlayıcı yöntemler ÇDH üretip, ilerleyici yöntemlere özgü hataları azaltan bir yöntemler grubu "tekrarlayıcı" (iterative) olarak sınıflandırılmıştır, çünkü bunlar ilerleyici yöntemlere benzer olarak çalışmakla beraber, büyüyen ÇDH'ye yeni diziler eklerken ilk dizileri tekrar tekrar hizalamaya devam eder. İlerleyici yöntemlerin yüksek kaliteli ilk hizalamalara muhtaç olmalarının nedeni, bu hizalamaların hep nihai sonuçta yer almasıdır. Yani bir dizi bir ÇDH içinde yerini aldıktan sonra onun hizalaması tekrar gözden geçirilmez. Bu yaklaşıklık (approximation) berimsel hızı artırır ama doğruluktan kaybetme pahasına. Buna karşın, tekrarlayıcı yöntemler, daha önce hesaplanmış ikili hizalamalara veya sorgu dizisini içeren alt-ÇDH'ler geri gelebilirler. Bu sayede, yüksek kaliteli bir hizalama skoru elde etmeyi sağlayacak bir genel objektif fonksiyon optimize edilebilir. PRRN/PRRP adlı yazılım paketi bir tepe tırmanma algoritması kullanır, ÇDH hizalama skorunu optimize etmek için. büyüyen ÇDH'nin hem hizalama ağırlıklarını hem de yerel olarak ıraksamış veya "boşluklu" bölgelerini tekrarlayan bir şekilde düzeltir. PRRP, daha hızlı bir yöntemle inşa edilmiş bir hizalamayı iyileştirmede kullanıldığında en iyi performans gösterir. İkili hizalama yapmakta kullanılan bir nokta matris grafiğine benzer bir matris gösterimi kullanılarak bireysel motifler hizalanır. Yavaş bir global hizalama için hızlı lokal hizalamaları birer "tohum" olarak kullanan bir alternatif yöntem CHAOS/DIALIGN paketinde kullanılır. Uzaklık ölçütü, tekrarlama aşamaları arasında yenilenir. Gizli Markov modelleri

Gizli Markov modelleri

(GMM), boşluk, uyuşma ve uyuşmamaların tüm kombinasyonlarına bir olasılık değeri atayan olasılıksal modellerdir. GMMler yüksek skorlu bir çıktı verebilirler ama ayrıca bir olasıl hizalamalar ailesi de üretebilirler, bunlar sonradan biyolojik anlamlılıkları bakımından değerlendirilebilir. GMM-temelli yöntemler nipeten yakın zamanda geliştirilmiş olmalarına rağmen, berimsel hızda önemli iyileşme göstermişlerdir, özellikle örtüşen bölgelere sahip dizilerde. Bu yöntem, ilerleyici hizalama yönteminden farklıdır çünkü her yeni dizi eklenmesinde evvelki dizilerin hizalaması da yenilenir. Ancak, ilerleyici yöntemlerde olduğu gibi, bu yöntem de sorgu kümesindeki dizilerin hizalamaya katılmasının sırasına bağlı sonuç verebilir, özellikle diziler uzak ilişkilyse.; , Benzer ama daha genelleştirilmiş bir yöntem SAM (Sequence Alignment and Modeling System Dizi hizalama ve modelleme sistemi)'dır. ve HMMER'dir. SAM, protein yapı öndeyisi yapmak için hizalama kaynağı olarak ve S. cerevisiae mayasında protein kodlayıcı öndeyili diziler içeren bir veri tabanı geliştirmek için kullanılmıştır. HHsearch GMMlerin ikili karşılaştırması ile uzak ilişkili protein dizilerinin tespiti için bir yazılımdır. HHsearch (HHpred) çalıştıran bir sunucu CASP7 and CASP8 yapı öndeyi yarışmasındaki en iyi 10 otomatik protein yapı öndeyi sunucularının en hızlısıydı. Genetik algoritmalar ve benzetmeli tavlama Bilgisayar bilimlerindeki standart optimizasyon teknikleri, kaliteli ÇDH üretimi için kullanılmıştır. Bu yöntemlerden biri olan genetik algoritmalar, sorgu kümesindeki dizileri meydana getiren evrimsel süreci ana hatlarıyla benzeterek (simüle ederek) ÇDH üretimi için kullanılmıştır. Bu yöntemde, bir seri olasıl ÇDH, kısa parçalara bölünür, ve bunların içinde çeşitli yerlere boşluklar konarak tekrar tekrar diziler düzenlenir. Genel bir objektif fonksiyon, (en yaygın olarak dinamik programlama ile ÇDH yöntemlerinde kullanılan "çiftler toplamı" maksimizasyon fonksiyonu) bu simülasyon sırasında optimize edilir. Protein dizileri için bir teknik, SAGA (Sequence Alignment by Genetic Algorithm Genetik algoritma ile dizi hizalaması) ve RNA iiçin onun karşılığı olan RAGA. adlı yazılım programlarında uygulanmıştır. Benzetilmiş tavlama tekniğinde, başka bir yöntemle elde edilmiş mevcut bir ÇDH, bir seri yeniden düzenleme yoluyla iyileştilir. Hizalama uzayında başlangış hizalamasından daha optimal bölgeler bulunmaya çalışılır. Genetik algoritmada olduğu gibi benzetilmiş tavlama da çiftler toplamı gibi bir objektif fonksiyonu maksimize etmeye çalışır. Benzetilmiş tavlamada, mecazi bir "sıcaklık faktörü", değişimlerin meydana gelme hızını ve her bir değişimin olasılığını belirler; tipik kullanımda farklı özelliklere sahip olan iki tip evre vardır: yüksek değişim hızı ve nispeten düşük olasılıklara sahip evreler ile (hizalama uzayının uzak bölgelerini araştırmak için) düşük hız ve yüksek olasılıklı evreler (yeni varılmış bir bölgedeki lokal minimumları daha ayrıntılı olarak keşif yapmak için) birbirini takip eder. Bu yaklaşım MSASA (Multiple Sequence Alignment by Simulated Annealing) programında uygulanmıştır. Motif bulma Motif bulmak veya bir diğer adıyla profil analizi, global ÇDH'de dizi motifi bulma yöntemidir. Hem daha iyi ÇDH üretmeye hem de benzer motifler içeren başka benzer diziler bulmak için bir skor matrisi üretmeye yarar. Motifleri bulmak için çeşitli yöntemler geliştirilmiştir, bunların hepsi, büyük bir hizalama içinde yer alan, çok korunmuş, kısa dizi örüntüleri (motifleri) bulmaya, sonra da bulunan motifin her pozisyonundaki nükleotit veya amino asit bileşimini yansıtan, substitusyon matrisine benzer bir matris inşasına dayalıdır. Bu matrisler kullanılarak hizalama daha da iyileştirilebilir. Standart profil analizinde, matriste her karakter ve ayrıca boşluk için değerler bulunur. Blok skorlaması genelde yüksek frekanslı karakterlerin arasındaki uzaklığa dayalıdır, bir substitusyon matrisinin hesaplanması yerine. BLOCKS sunucusu hizalanmamış dizilerde bu tür motiflerin bulunması için enteraktif bir yöntem sağlar. İstatistik örüntü eşleme (pattern-matching), hem beklenti maksimizasyon algoritması hem de Gibbs örnekleyicisi için uygulanmıştır. En yaygın motif bulma araçlarından biri olan MEME, motif bulmak için beklenti maksimizasyon ve gizli Markov modelleri kullanır, bu motifler sonra MEME/MAST paketindeki yardımcı program MAST tarafından arama aracı olarak kullanılır. Görselleme ve düzeltim (editing) araçları Çoklu dizi hizalamasında buluşsal (höristik) yöntemlerin kullanılması, herhangi bir grup protein dizilerinin hizalamasında hata olma olasılığının yüksek olacağı anlamını taşır. Evrim sırasında dizilerden bir veya birkaçına rastgele bir insersiyon olması, veya daha karmaşık bir evrimsel süreç sonucu dizi analizi ile kolayca hizalanamayan proteinler meydana gelmesi bu tür hatalar medana gelebilir. Çoklu dizi hizalama görüntüleyicileri hizalamaların görsel şekilde kontrolüne olanak verir. İki veya daha çok dizide tanımlanmış olan işlevsel konumlara bakılarak hizalama kalitesi anlaşılabilir. Bu programların çoğu, bu tür (genelde ufak) hataların düzeltilmesini de sağlar, böylece filogenetik analiz veya karşılaştırmalı modelleme için uygun, optimal, bir uzman tarafından düzenlenmiş (curated) hizalama elde edilmiş olur. Filogenetikteki kullanımı Çoklu dizi hizalamaları filogenetik ağaç üretmekte kullanılabilir. Bunun iki nedeni vardır. Birincisi, açıklamalı (annotated) dizilerdeki işlevsel protein bölgeleri bilinmeyen protein bölgelerinin hizalanmasında kullanılabilir. Öbür neden ise işlevsel olarak önemli olan korunmuş bölgeler bu yolla bulunabilir. Çoklu dizi hizalamaları kullanılarak, diziler arasında homolojiden yararlanarak evrimsel ilişkiler bulunabilir. Nokta mutasyonlar ve delesyonlar (indel olarak adlandırılır) tespit edilebilir. Çoklu dizi hizalamaları işlevsel olarak önemli konumların tespit edilmesinde kullanılabilir. Korunmuş bölgeler sayesinde örneğin, bağlanma bölgeleri, aktif bölgeler, veya diğer anahtar fonksiyonlara karşılık gelen konumlar bulunabilir. Çoklu dizi hizalamalarına bakarken, dizileri kıyaslamakta farklı özellikleri göz önüne almak yararlı olabilir. Bu özelliklerin arasında aynılık, benzerlik, ve homoloji sayılabilir. Aynılık, dizilerin birbirine karşılık gelen pozisyonlarında aynı kalıntıya (rezidüye) sahip olmasıdır. Buna karşın, benzerlik, karşılaştırılan dizilerin nitel olarak benzer kimyasal kalıntılara sahip olmasıdır. Örneğin, nükleotit dizilerinde, pirimidinler birbirine, pürinler de birbirine benzer sayılırlar. Benzerlik sonunda homolojiye varır, diziler ne kadar birbirlerine benzerse homolog olmaya o kadar yakındırlar. Dizilerde homoloji, ortak ataları bulmaya yardımcı olur. Ayrıca bakınız * Kladistik * Filogenetik * Dizi izalama yazılımı * Çoklu Dizi Hizalam görüntüleycileri * Yapısal hizalama

İnceleme makaleleri

* * * * * Dış bağlantılar * ExPASy dizi hizalama araçları * Multiple Alignment Resource Page — from the Virtual School of Natural Sciences * Tools for Multiple Alignments — from Pôle Bioinformatique Lyonnais * An entry point to clustal servers and information * An entry point to the main T-Coffee servers * European Bioinformatics Institute servers: ** ClustalW2 — general purpose multiple sequence alignment program for DNA or proteins. ** Muscle — MUltiple Sequence Comparison by Log-Expectation ** T-coffee — multiple sequence alignment. ** MAFFT — Multiple Alignment using Fast Fourier Transform ** KALIGN — a fast and accurate multiple sequence alignment algorithm.

Lecture notes, tutorials, and courses

* Multiple sequence alignment lectures — from the Max Planck Institute for Molecular Genetics * notes and practical exercises on multiple sequences alignments at the EMBL * Molecular Bioinformatics Lecture Notes * Molecular Evolution and Bioinformatics Lecture Notes

Kaynaklar

Vikipedi

Çoklu Dizi Hizalaması

Çoklu Dizi Hizalaması Hakkında Detaylı Bilgi

Gizli Markov modelleri

İnceleme makaleleri

Lecture notes, tutorials, and courses

Kaynaklar

Görüşler ve Yorumlar