SPIS POJĘĆ

Algorytm
Bioinformatyka
BLAST
BLOSUM
Domena
Duplikacja genu
DUST
FASTA
Filtrowanie
Homolog
Homologia
Homologiczny
Homoplazja
HSP
Identyczność genetyczna
Konserwacja
Lambda
Luka
Macierz jednostkowa
Macierz substytucji
Maskowanie
Motyw
Ortologiczny
PAM
Paralogiczny
Podobieństwo
Profil
Proteomika
PSI-BLAST
PSSM
SEG
Specjacja
Substytucja
Wartość Bit
Wartość E
Wartość H
Wartość K
Wartość P
Wynik wstępny
Wyrównanie
Wyrównanie globalne
Wyrównanie lokalne
Wyrówananie multisekwencyjne
Wyrównanie optymalne
Zapytanie

Algorytm - (ang. Algorithm): Dokładny schemat postępowania (rachunkowego, konstrukcyjnego, itp.) prowadzący do rozwiązania określonego problemu (zadania); algorytm określa czynności do wykonania, kolejność działań oraz dane (obiekty), na których będą one wykonywane; algorytm może być całkowity lub częściowy, numeryczny (operujący liczbami) i nienumeryczny, sekwencyjny (kolejność czynności określona jednoznacznie) lub niesekwencyjny (współbieżny); wykonawcą algorytm jest układ, który na polecenia reaguje ich wykonaniem (człowiek lub urządzenie automatyczne, np. komputer); w informatyce algorytm zapisany w języku programowania to program komputerowy.
Bioinformatyka- (ang. Bioinformatics): Nauką interdyscyplinarna, która integruje: biologię molekularną, informatykę, matematykę, genetykę, teorię baz danych, biologię strukturalną, genomikę oraz biochemię. Bioinformatyka rozwiązuje problemy nagromadzone w wyniku intensywnego rozwoju nauk przyrodniczych przy użyciu metodologii nauk informatycznych.
BLAST- (Basic Local Tool Search Alignment): Algorytm porównania kolejności zoptymalizowany do szybkiego przeszukiwania bazy danych sekwencji dla optymalnych lokalnych wyrównań.Wstępne przeszukiwanie zostaje sporządzone dla słowa o długości "W", które liczy co najmniej "T" w porównaniu do zapytania przy użyciu macierzy substytucji. Trafione słowa zostają rozciągnięte w obydwu kierunkach w próbie wygenerowania wyrównania z wynikiem przewyższającym próg "S". Parametr "T" narzuca szybkość i wrażliwość przeszukiwania.
Duplikacja genu- (ang. gene duplication): Powstawanie grupowych powtórzeń sekwencji DNA wskutek nierównego crossing-over albo zaburzenia replikacji.
BLOSUM- (Blocks Substitution Matrix): Macierz substytucji, w której wynikach każdej pozycji zostały uzyskane w wyniku obserwacji częstotliwości substytucji w blokach lokalnych wyrównań w spokrewnionych białkach. Każda macierz została dopasowana do konkretnej odległości ewolucyjnej. Na przykład w macierzy BLOSUM62, wyrównanie, z którego wyniki zostały uzyskane zostało utworzone przy użyciu sekwencji o poziomie identyczności nie większym niż 62%. Sekwencje o większym podobieństwie niż 62% będą reprezentowane przez pojedynczą sekwencję w wyrównaniu, aby uniknąć obciążenia blisko spokrewnionych członków rodziny.
Domena- (ang. Domain): 1)Strukturalnie niezależna sekwencja polipeptydowa wykazująca odrębną, szczególną strukturę i posiadająca własne funkcje.; 2)Jednostka homologii, która prawdopodobnie powstała w wyniku duplikacji genu.
DUST: Program dla filtrowania regionów o niskiej złożoności w sekwencjach kwasów nukleinowych.
FASTA: Pierwszy szeroko użyty algorytm do wyszukiwania podobieństwa w bazach danych. Program wyszukuje optymalne, lokalne wyrównania przez skanowanie sekwencji dla krótkich matches zwanych "słowami". Początkowo wyniki obszarów sekwencji, w których wystąpują wielokrotne trafienia słowa zostają obliczone ("init1"). Następnie wyniki kilku obszarów mogą zostać zsumowane w celu wygenerowania wyniku "initn". Zoptymalizowane wyrównanie, które zawiera luki zostaje przedstawione jako "opt".
Filtrowanie- (ang. Filtering): Znane również jako maskowanie. Proces ukrywania cech charakterystycznych regionów sekwencji (kwasów nukleinowych albo aminokwasów), które często prowadzi do zafałszowanych, wysokich wyników. Zobacz również SEG i DUST.
Homolog- (ang. Homologue): Homologami są cechy podobne u różnych gatunków, które zostały odziedziczone po wspólnym przodku.
Homologia- (ang. Homology): Oznacza obecność podobnych własności ze względu na pochodzenie od wspólnego przodka, nie jest tożsama z identycznością sekwencji. Dla sekwencji dłuższych niż 100 reszt przyjmuje się:
Homologiczny- (ang. Homologous): Homologiczne sekwencje wewnątrz pojedynczych gatunków, które powstały w wyniku duplikacji genu (ang. gene duplication). Struktury homologiczne mają to samo pochodzenie ewolucyjne, chociaż ich funkcje mogą znacznie się różnić np. płetwa foki Obecność skrzydło nietoperza.
Homoplazja: Obecność podobnych własności ze względu na konwergencje.
HSP- (High-scoring segment pair): Lokalne wyrównania bez żadnych luk, które osiągają jeden z najlepszych wyników wyrównania w danym przeszukiwaniu.
Identyczność genetyczna- (ang. genetic identity): Miara, do której dwie sekwencje (nukleotydów lub aminokwasów) są identyczne w różnych populacjach.
Konserwacja- (ang. Conservation): Zmiany aminokwasu (rzadziej DNA) w określonej pozycji sekwencji z zachowaniem fizyko-chemicznych właściwości oryginalnej reszty.
Lambda: Statystyczny parametr używany w obliczaniu wyników BLAST, który może być rozumiany jako skala naturalna systemu naliczającego. Wartość lambda jest używana w przeliczaniu wstępnego (pierwotnego) wyniku (S) w wynik bitowy ( S').
Luka- (ang. Gap): Przestrzeń wprowadzona do wyrównania w celu skompensowania insercji i delecji w jednej sekwencji w stosunku do innej. Aby zapobiec akumulacji zbyt wielu luk w wyrównaniu, wprowadzenie luki powoduje odliczenie ustalonej ilości (tzw. wyniku luki) od wyniku wyrównania. Przedłużenie luki, tak aby obejmowała dodatkowe nukleotydy albo aminokwasy jest również karane w naliczaniu punktów wyrównania.
Macierz jednostkowa - (ang. Unitary Matrix): Zwana również jako Identyczna Macierz. System punktujący, w którym tylko identyczne cechy otrzymują pozytywny wynik.
Macierz substytucji - (ang. Substitution Matrix): Macierz substytucji zawiera wartości proporcjonalne do prawdopodobieństwa, że aminokwas "i" mutuje do aminokwasu "j" dla wszystkich par aminokwasów. Takie macierze zostały zbudowane dzięki zbieraniu wielu, rozmaitych przykładów sprawdzonych parami wyrównań aminokwasów.
Maskowanie- (ang. Masking): Znane również jako filtrowanie. Usunięcie regionów powtórzonych albo regionów o niskiej złożoności w celu podwyższenia wrażliwości wyszukiwania podobieństw sekwencji.
Motyw- (ang. Motif): Krótki zakonserwowany (zachowany ewolucyjnie) region w sekwencji białka. Motywy są wysoce zakonserwowanymi częściami domen.
Ortologiczny- (ang. Orthologous): Sekwencje homologiczne różnych gatunków, które powstały ze wspólnego dziedzicznego genu podczas powstawania nowego gatunku; mogą albo nie muszą być odpowiedzialne za podobną funkcję. Przykład: geny łańcucha ß-globiny u człowieka i szympansa.
PAM- (ang. Procent Accepted Mutation): Jednostka wprowadzona przez Dayhoffa, aby określić ilość ewolucyjnych zmian w sekwencji białka. Wartość 1.0 PAM oznacza, że średnio 1% z aminokwasów w sekwencji białka został zmieniony ewolucyjnie. Macierz substytucji PAM(x) jest tablicą punktową, w której wyniki dla każdej substytucji aminokwasu zostały obliczone w oparciu o częstość tej substytucji w blisko spokrewnionych białkach, które doświadczyły pewnej wartości (x) rozbieżności ewolucyjnej.
Paralogiczny- (ang. Paralogous): Opisuje homologiczne geny u przedstawiciela jednego gatunku, które rozbiegły się w wyniku duplikacji genów. Ich sekwencje nukleotydowe są tak podobne, że przyjmuje się, że pochodzą od wspólnego genu (przodka).
Podobieństwo- (ang. Similarity): Stopień, do którego sekwencje nukleotydów albo białek są spokrewnione. Stopień podobieństwa między dwoma sekwencjami może być oparty na procentowej identyczości sekwencji i / albo zakonserwowaniu. W BLAST podobieństwo odnosi się do pozytywnego wyniku macierzy.
Profil- (ang. Profile): Tabela, która zawiera częstotliwości występowania każdego aminokwasu w każdej pozycji sekwencji białka. Częstości zostały obliczone na podstawie multisekwencyjnych wyrównań sekwencji zawierających badaną domenę. Zobacz również PSSM.
Proteomika- (ang. Proteomics): Systematyczna analiza ekspresji białka normalnych i chorych tkanek, która obejmuje separację, identyfikację i charakteryzację wszystkich białek w organizmie.
PSI-BLAST- (ang. Position Specific Iterative BLAST): Iteracyjne przeszukiwanie wykorzystujące algorytm BLAST. Profil zostaje zbudowany po wstępnym przeszukaniu, a następnie jest wykorzystywany w dalszym przeszukiwaniu.
PSSM- (ang. Position-specific scoring matrix): Zobacz również profil. PSSM daje wynik log-odd dla znalezienia szczególnego dopasowanego aminokwasu w docelowej sekwencji.
SEG: Program dla filtrowania regionów o niskiej złożoności w sekwencjach aminokwasu. Reszty, które zostały zamaskowane są reprezentowane jako "X" w wyrównaniu. SEG filtrujący jest występuje w blastp - podprogramie BLAST 2.0.
Specjacja- (ang. Speciation): 1)Rozdzielenie się gatunku macierzystego na dwa potomne, które współistnieją w czasie.; 2)Stopniowa transformacja jednego gatunku w inny, bez zwiększania ilości gatunków w danym czasie.
Substytucja- (ang. Substitution): Obecność nie-identycznego aminokwasu w danej pozycji w wyrównaniu. Jeśli wyrównane reszty mają podobne fizyko-chemiczne właściwości substytucję nazywa się "konserwatywną".
Wartość Bit: Wartość S została wyprowadzona z wyrównania rzędu wartości S, w którym statystyczne właściwości systemu punktującego zostały użyte do obliczeń. Ponieważ wartości bit zostały znormalizowane z uwzględnieniem tego systemu, mogą one zostać użyte w celu porównania wyników wyrównania z różnych przeszukiwań. Na podstawie tej wartości można policzyć jak dużą bazę danych należałoby przeszukać, aby znaleźć przez przypadek segment o podobieństwie równie wysokim lub wyższym od podobieństwa w segmencie znalezionym w przeszukiwanej bazie. Jeżeli wynik wynosi 30 bitów to jego przypadkowe osiągnięcie wymagałoby średnio 2³⁰ segmentów losowych. Każdy dodatkowy bit zwiększa tą liczbę dwa razy.
Wartość E: Średnia statystyczna. Ilość różnych wyrównań z równoważnym wynikiem albo wyższym niż wartość S, które mogłyby wystąpić podczas losowego przeszukiwania bazy danych. Im niższa wartość E, tym bardziej istotny wynik.
Wartość H: H jest względną entropią częstotliwości docelowych i drugoplanowych reszt. H może być postrzegany jako miara średniej (przeciętnej) informacji (w bitach) dostępnej na pozycji, która odróżnia wyrównanie od prawdopodobieństwa (przypadku). Przy wysokich wartościach H, krótkie wyrównania mogą zostać odróżniane przez przypadek, podczas gdy w niższych wartościach H, dłuższe wyrównanie może być konieczne.
Wartość K: Statystyczny parametr używany w obliczaniu wyników BLAST, który może być rozumiany jako skala naturalna wielkości obszaru przeszukiwania. Wartość K jest używana w przeliczaniu wstępnego (pierwotnego) wyniku (S) w wynik bitowy ( S').
Wartość P
Wynik wstępny- (ang. Raw Score): Wynik wyrównania, S, obliczony jako suma wyników substytucji i luk. Wyniki substytucji są podane w tablicy punktowej (zobacz PAM, BLOSUM). Wyniki luk zostały obliczone jako suma G, (kary za otwarte luki) i L,(kary za rozszerzone luki). Dla luki n długości, wartość kary (koszt) za luki wyniosłaby G + Ln. Przy wyborze kosztów luki, G i L są empiryczne, ale przyjmuje się, by wybrać wysoką wartość dla G (10-15)a niską wartość dla L (1-2).
Wyrównanie- (ang. Alignment): Proces ustawiania dwóch albo wielu sekwencji, aby osiągnąć poziom maksymalnej indentyczności sekwencji (oraz ochrony-konserwacji-conservation, w przypadku sekwencji aminokwasów) mający na celu oszacowanie stopnia podobieństwa i homologii.
Wyrównanie globalne- (ang. Global Alignment): Wyrównanie dwóch sekwencji kwasu nukleinowego albo białka przez całą ich długość.
Wyrównanie lokalne- (ang. Local Alignment): Wyrównanie fragmentów dwóch sekwencji kwasu nukleinowego albo dwóch sekwencji białek.
Wyrównanie multisekwencyjne- (ang. Multiple Alignment Sequence): Wyrównanie trzech albo więcej sekwencji ze wstawionymi lukami w sekwencjach takie, że reszty ze wspólnymi strukturalnymi pozycjami i / albo dziedziczne reszty są zaszeregowane w tej samej kolumnie. Clustal W jest jednym z najbardziej popularnych programów wyrównania multisekwencyjnego.
Wyrównanie optymalne- (ang. Optimal Alignment): Wyrównanie dwóch sekwencji z najwyższym możliwym wynikiem.
Zapytanie- (ang. Query): Wprowadzana, wejściowa sekwencja, dla której chcemy znaleźć podobne sekwencje w bazie danych.

Identyczność sekwencji	Istnienie homologii
>25%	Sekwencje są homologiczne
15-25%	Sekwencje prawdopodobnie są homologiczne
<15-25%	Sekwencje prawdopodobnie nie są homologiczne

Główna