Zadania Bioinformatyki




Technologia bioinformatyczna umożliwia odkrywanie i szczegółową analizę informacji, które mogą być przydatne w badaniach klinicznych, wprowadzaniu nowych, komercyjnych środków farmakologicznych, biotechnologii rolnej i przemysłowej oraz innych zastosowaniach. Aktualnie technologia ta obejmuje trzy obszary: narzędzia, które wspierają eksperymenty laboratoryjne (na przykład specjalistyczne oprogramowania komputerowe); projektowanie, wdrażanie nowej technologii i integrację biologicznych baz danych oraz różne narzędzia analityczne umożliwiające określenie położenia genu w granicach chromosomu, znajdowanie podobnych genów lub białek u różnych gatunków, określenie struktury trójwymiarowej i funkcji różnych białek. Bioinformatyka znajduje zastosowanie w niezliczonej ilości zadań, jednak do najważniejszych należy zaliczyć:

  1. Wyszukiwanie homologii genów między nowo odczytanymi odcinkami DNA a zsekwencjonowanymi wcześniej fragmentami nici DNA innych organizmów np.: dla genu ryżu wyszukano gen Arabidopsis, który został już wcześniej scharakteryzowany [10,28,30].

  2. Porównanie podobieństwa między dwoma lub więcej sekwencjami genów, w celu określenia stopnia ich pokrewieństwa. Badane geny grupowane są w podzespoły (ortologiczne, paralogiczne), które mogą wskazywać na ich funkcję lub aktywność. Podzespoły te oparte są na znanych, odkodowanych wcześniej białkach. Porównanie sekwencji pozwala przeanalizować ich systematykę, ewolucję, jak również wejrzeć w strukturę drzewa filogenetycznego [28;30].

  3. Projektowanie starterów PCR. Narzędzia dostępne w sieci Internet, w trybie on-line i off-line, pozwalają zaprojektować komputerowo tysiące starterów. Następnie, mogą one zostać użyte do sekwencjonowania i amplifikacji sekwencji genów. Startery do reakcji PCR nie powinny wchodzić w oddziaływania z innymi starterami, ani tworzyć z nimi niepożądanych dimerów - zjawiska te program komputerowy może sprawdzić bardzo szybko np. program do analizy primerów - NetPrimer, darmowa aplikacja dostępna na stronach WWW [58]. Ponadto startery powinny charakteryzować wysoka specyficzność. Dzięki publicznym, genowym bazom danych (takim jak GenBank) można upewnić się, czy wiążą one pojedynczo docelową sekwencję. Zastosowanie narzędzi bioinformatycznych umożliwia takie obliczenie optymalnej temperatury przyłączenia starterów oraz ich ciężar cząsteczkowy. [37]

  4. Rekonstrukcja genów z sekwencji EST (ang. Expressed Sequence Tags). Expressed Sequence Tags są krótkimi fragmentami genów, które zostały sklonowane i zsekwencjonowane - następnie zdeponowane w publicznych genowych bazach danych. Informacja wyjściowa, pozwala zrekonstruować całe cząsteczki cDNA przy użyciu regionów zachodzących (ang. regions of overlap) by przewidzieć, które sekwencje powinny do siebie pasować [19;29].

  5. Grupowanie białek w rodziny. Wykonano już ogromną pracę, w celu sklasyfikowania odkodowanych genów białek do odpowiednich nadrodzin i rodzin. Sekwencje aminokwasowe białek są porównywane przy użyciu różnych metod. Na podstawie stopnia ich pokrewieństwa białka zostają przypisane do odpowiednich rodzin. Grupowanie powinno włączyć efektywne porównanie sekwencji w GenBanku i w innych bazach danych, jednak ze względu na olbrzymią ilość sekwencji w GenBanku, mogłoby to zająć zbyt dużo czasu. Obecnie stosowane metody pozwalają jednak wymodelować grupy o małej liczbie sekwencji. Baza danych Pfam (Protein Families) jest dobrym przykładem użycia matematyki do grupowania białek do rodzin i sprawdzenia, czy wyszukana informacja będzie zarówno przydatna, jak i dostępna [28,70]. Istnieją również bazy danych, których zadaniem jest klasyfikacja białek, o poznanej strukturze, określonej analizą krystalograficzną lub spektroskopią - magnetycznym rezonansem jądrowym NMR (ang. nuclear magnetic resonance) [77]. Przykładami baz danych tego typu są PDB (Protein Data Bank) i SCOP (Structural Classifiaction of Proteins). Klasyfikują one struktury białek w oparciu o ich ewolucyjne pokrewieństwo i reguły, które determinują ich trójwymiarową strukturę [6;49]. Baza danych CATH zawiera inny schemat klasyfikacji białek oparty o: klasę (C), architekturę (A), topologię (T) i homologię nadrodzin (H). Klasa określa strukturę drugorzędową, architektura określa rozmieszczenie tej struktury, bez uwzględnienia połączeń, topologia - jej fałdowanie, natomiast homologia nadrodzin zawiera wszystkie fałdowania o podobnej funkcji. CATH posiada również system systematycznej klasyfikacji wszystkich struktur analogicznych do klasyfikacji funkcji enzymów EC [6]. Innymi przykładami baz danych klasyfikacji struktur białek są: FSSP (Families of Structurally Similar Proteins), MMDB (The Molecular Modeling Database), CAMPASS (The Cambrige Database of Protein Alignments Organised as Structural Superfamilies), ISSD (Integrated Sequence-Structure Database), HSSP (Homology-derived Structures of Proteins).



Główna