Dokładny schemat postępowania (rachunkowego, konstrukcyjnego, itp.) prowadzący do rozwiązania określonego problemu (zadania); algorytm określa czynności do wykonania, kolejność działań oraz dane (obiekty), na których będą one wykonywane; algorytm może być całkowity lub częściowy, numeryczny (operujący liczbami) i nienumeryczny, sekwencyjny (kolejność czynności określona jednoznacznie) lub niesekwencyjny (współbieżny); wykonawcą algorytm jest układ, który na polecenia reaguje ich wykonaniem (człowiek lub urządzenie automatyczne, np. komputer); w informatyce algorytm zapisany w języku programowania to program komputerowy.
Nauką interdyscyplinarna, która integruje: biologię molekularną, informatykę, matematykę, genetykę, teorię baz danych, biologię strukturalną, genomikę oraz biochemię. Bioinformatyka rozwiązuje problemy nagromadzone w wyniku intensywnego rozwoju nauk przyrodniczych przy użyciu metodologii nauk informatycznych.
Algorytm porównania kolejności zoptymalizowany do szybkiego przeszukiwania bazy danych sekwencji dla optymalnych lokalnych wyrównań.Wstępne przeszukiwanie zostaje sporządzone dla słowa o długości "W", które liczy co najmniej "T" w porównaniu do zapytania przy użyciu macierzy substytucji. Trafione słowa zostają rozciągnięte w obydwu kierunkach w próbie wygenerowania wyrównania z wynikiem przewyższającym próg "S". Parametr "T" narzuca szybkość i wrażliwość przeszukiwania.
Macierz substytucji, w której wynikach każdej pozycji zostały uzyskane w wyniku obserwacji częstotliwości substytucji w blokach lokalnych wyrównań w spokrewnionych białkach. Każda macierz została dopasowana do konkretnej odległości ewolucyjnej. Na przykład w macierzy BLOSUM62, wyrównanie, z którego wyniki zostały uzyskane zostało utworzone przy użyciu sekwencji o poziomie identyczności nie większym niż 62%. Sekwencje o większym podobieństwie niż 62% będą reprezentowane przez pojedynczą sekwencję w wyrównaniu, aby uniknąć obciążenia blisko spokrewnionych członków rodziny.
Pierwszy szeroko użyty algorytm do wyszukiwania podobieństwa w bazach danych. Program wyszukuje optymalne, lokalne wyrównania przez skanowanie sekwencji dla krótkich matches zwanych "słowami". Początkowo wyniki obszarów sekwencji, w których wystąpują wielokrotne trafienia słowa zostają obliczone ("init1"). Następnie wyniki kilku obszarów mogą zostać zsumowane w celu wygenerowania wyniku "initn". Zoptymalizowane wyrównanie, które zawiera luki zostaje przedstawione jako "opt".
Znane również jako maskowanie. Proces ukrywania cech charakterystycznych regionów sekwencji (kwasów nukleinowych albo aminokwasów), które często prowadzi do zafałszowanych, wysokich wyników. Zobacz również SEG i DUST.
Oznacza obecność podobnych własności ze względu na pochodzenie od wspólnego przodka, nie jest tożsama z identycznością sekwencji. Dla sekwencji dłuższych niż 100 reszt przyjmuje się:
Homologiczne sekwencje wewnątrz pojedynczych gatunków, które powstały w wyniku duplikacji genu (ang. gene duplication). Struktury homologiczne mają to samo pochodzenie ewolucyjne, chociaż ich funkcje mogą znacznie się różnić np. płetwa foki Obecność skrzydło nietoperza.
Statystyczny parametr używany w obliczaniu wyników BLAST, który może być rozumiany jako skala naturalna systemu naliczającego. Wartość lambda jest używana w przeliczaniu wstępnego (pierwotnego) wyniku (S) w wynik bitowy ( S').
Przestrzeń wprowadzona do wyrównania w celu skompensowania insercji i delecji w jednej sekwencji w stosunku do innej. Aby zapobiec akumulacji zbyt wielu luk w wyrównaniu, wprowadzenie luki powoduje odliczenie ustalonej ilości (tzw. wyniku luki) od wyniku wyrównania. Przedłużenie luki, tak aby obejmowała dodatkowe nukleotydy albo aminokwasy jest również karane w naliczaniu punktów wyrównania.
Macierz substytucji zawiera wartości proporcjonalne do prawdopodobieństwa, że aminokwas "i" mutuje do aminokwasu "j" dla wszystkich par aminokwasów. Takie macierze zostały zbudowane dzięki zbieraniu wielu, rozmaitych przykładów sprawdzonych parami wyrównań aminokwasów.
Znane również jako filtrowanie. Usunięcie regionów powtórzonych albo regionów o niskiej złożoności w celu podwyższenia wrażliwości wyszukiwania podobieństw sekwencji.
Sekwencje homologiczne różnych gatunków, które powstały ze wspólnego dziedzicznego genu podczas powstawania nowego gatunku; mogą albo nie muszą być odpowiedzialne za podobną funkcję. Przykład: geny łańcucha ß-globiny u człowieka i szympansa.
Jednostka wprowadzona przez Dayhoffa, aby określić ilość ewolucyjnych zmian w sekwencji białka. Wartość 1.0 PAM oznacza, że średnio 1% z aminokwasów w sekwencji białka został zmieniony ewolucyjnie. Macierz substytucji PAM(x) jest tablicą punktową, w której wyniki dla każdej substytucji aminokwasu zostały obliczone w oparciu o częstość tej substytucji w blisko spokrewnionych białkach, które doświadczyły pewnej wartości (x) rozbieżności ewolucyjnej.
Opisuje homologiczne geny u przedstawiciela jednego gatunku, które rozbiegły się w wyniku duplikacji genów. Ich sekwencje nukleotydowe są tak podobne, że przyjmuje się, że pochodzą od wspólnego genu (przodka).
Stopień, do którego sekwencje nukleotydów albo białek są spokrewnione. Stopień podobieństwa między dwoma sekwencjami może być oparty na procentowej identyczości sekwencji i / albo zakonserwowaniu. W BLAST podobieństwo odnosi się do pozytywnego wyniku macierzy.
Tabela, która zawiera częstotliwości występowania każdego aminokwasu w każdej pozycji sekwencji białka. Częstości zostały obliczone na podstawie multisekwencyjnych wyrównań sekwencji zawierających badaną domenę. Zobacz również PSSM.
Systematyczna analiza ekspresji białka normalnych i chorych tkanek, która obejmuje separację, identyfikację i charakteryzację wszystkich białek w organizmie.
PSI-BLAST- (ang. Position Specific Iterative BLAST)
Iteracyjne przeszukiwanie wykorzystujące algorytm BLAST. Profil zostaje zbudowany po wstępnym przeszukaniu, a następnie jest wykorzystywany w dalszym przeszukiwaniu.
Program dla filtrowania regionów o niskiej złożoności w sekwencjach aminokwasu. Reszty, które zostały zamaskowane są reprezentowane jako "X" w wyrównaniu. SEG filtrujący jest występuje w blastp - podprogramie BLAST 2.0.
Obecność nie-identycznego aminokwasu w danej pozycji w wyrównaniu. Jeśli wyrównane reszty mają podobne fizyko-chemiczne właściwości substytucję nazywa się "konserwatywną".
Wartość S została wyprowadzona z wyrównania rzędu wartości S, w którym statystyczne właściwości systemu punktującego zostały użyte do obliczeń. Ponieważ wartości bit zostały znormalizowane z uwzględnieniem tego systemu, mogą one zostać użyte w celu porównania wyników wyrównania z różnych przeszukiwań.
Na podstawie tej wartości można policzyć jak dużą bazę danych należałoby przeszukać, aby znaleźć przez przypadek segment o podobieństwie równie wysokim lub wyższym od podobieństwa w segmencie znalezionym w przeszukiwanej bazie. Jeżeli wynik wynosi 30 bitów to jego przypadkowe osiągnięcie wymagałoby średnio 230 segmentów losowych. Każdy dodatkowy bit zwiększa tą liczbę dwa razy.
Średnia statystyczna. Ilość różnych wyrównań z równoważnym wynikiem albo wyższym niż wartość S, które mogłyby wystąpić podczas losowego przeszukiwania bazy danych. Im niższa wartość E, tym bardziej istotny wynik.
H jest względną entropią częstotliwości docelowych i drugoplanowych reszt. H może być postrzegany jako miara średniej (przeciętnej) informacji (w bitach) dostępnej na pozycji, która odróżnia wyrównanie od prawdopodobieństwa (przypadku). Przy wysokich wartościach H, krótkie wyrównania mogą zostać odróżniane przez przypadek, podczas gdy w niższych wartościach H, dłuższe wyrównanie może być konieczne.
Statystyczny parametr używany w obliczaniu wyników BLAST, który może być rozumiany jako skala naturalna wielkości obszaru przeszukiwania. Wartość K jest używana w przeliczaniu wstępnego (pierwotnego) wyniku (S) w wynik bitowy ( S').
Wynik wyrównania, S, obliczony jako suma wyników substytucji i luk. Wyniki substytucji są podane w tablicy punktowej (zobacz PAM, BLOSUM). Wyniki luk zostały obliczone jako suma G, (kary za otwarte luki) i L,(kary za rozszerzone luki). Dla luki n długości, wartość kary (koszt) za luki wyniosłaby G + Ln. Przy wyborze kosztów luki, G i L są empiryczne, ale przyjmuje się, by wybrać wysoką wartość dla G (10-15)a niską wartość dla L (1-2).
Proces ustawiania dwóch albo wielu sekwencji, aby osiągnąć poziom maksymalnej indentyczności sekwencji (oraz ochrony-konserwacji-conservation, w przypadku sekwencji aminokwasów) mający na celu oszacowanie stopnia podobieństwa i homologii.
Wyrównanie trzech albo więcej sekwencji ze wstawionymi lukami w sekwencjach takie, że reszty ze wspólnymi strukturalnymi pozycjami i / albo dziedziczne reszty są zaszeregowane w tej samej kolumnie. Clustal W jest jednym z najbardziej popularnych programów wyrównania multisekwencyjnego.