NCBI LogoNCBI → BLAST

Latest news: New BLAST design to be released on April 16, 2007

 

About

More info

Software

Other resources

 

A. Query Input and database selection

Accepted Input Formats

Żądane sekwencje powinny być wklejone w polu „Search”. Akceptowane są różne typy pliku inputowego oraz automatycznie określany jest format pliku inputowego. Aby umożliwić tę funkcję... . Są one opisane poniżej w punkcie 3). Akceptowane typy pliku inputowego to FASTA, sama sekwencja czy też identyfikatory sekwencji.

 

  1. FASTA
Sekwencja w formacie FASTA zaczyna się od opisu sekwencji, zawartego w pierwszej linijce. Następne linijki to nasza sekwencja. Linijka opisu (defline) odróżniana jest od sekwencji za pomocą symbolu > na początku linijki. Zalecane jest aby linijki nie zawierały więcej niż 80 znaków. Przykład sekwencji w formacie FASTA podany jest poniżej. 
           >gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)
    QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
    KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
    VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
           FLFLIKHNPTNTIVYFGRYWSP
           

Puste linie nie są dopuszczane w formacie FASTA.

 

Sekwencje powinny być przedstawione za pomocą sekwencji aminokwasowych (IUB/IUPAC) lub sekwencji nukleotydowych z następującymi wyjątkami: małe litery są akceptowane i interpretowane jako duże litery; myślnik(-) może być użyty jako przerwa o nie ograniczonej długości; w sekwencjach aminokwasowych U i * są akceptowane (patrz niżej). Przed wykonaniem operacji wszystkie liczny w żądanej sekwencji powinny być usunięte luz zastąpione przez odpowiednie litery (np N dla nieznanego nukleotydu lub X dla nieznanego aminokwasu). Akceptowane kody nukleotydowe to

           A  adenosine          C  cytidine             G  guanine
           T  thymidine          N  A/G/C/T (any)        U  uridine 
           K  G/T (keto)         S  G/C (strong)         Y  T/C (pyrimidine) 
           M  A/C (amino)        W  A/T (weak)           R  G/A (purine)        
           B  G/T/C              D  G/A/T                H  A/C/T      
           V  G/C/A              -  gap of indeterminate length
           

Dla tych programów które używają sekwencji aminokwasowych (BLASTP i TBLASTN), akceptowane kody aminokwasowe to

           A  alanine               P  proline       
           B  aspartate/asparagine  Q  glutamine      
           C  cystine               R  arginine      
           D  aspartate             S  serine      
           E  glutamate             T  threonine      
           F  phenylalanine         U  selenocysteine      
           G  glycine               V  valine        
           H  histidine             W  tryptophan        
           I  isoleucine            Y  tyrosine
           K  lysine                Z  glutamate/glutamine
           L  leucine               X  any
           M  methionine            *  translation stop
           N  asparagine            -  gap of indeterminate length
           
UWAGA.
­­1Uproszczone kody nukleotydowe(kody 1 literowe) zaznaczone na czerwono są traktowane jako mismatches (niedopasowanie) w alignmencie nukleotydów. Zbyt wiele uproszconych kodów sekwencji nukleotydowych spowoduje, że blast.cgi odrzuci plik inputowy. Dla białek zbyt wiele kodów przypominających nukleotydy (ACGTN) także może spowodować taki efekt. 
2W przypadku kodu białkowego U zastępowane jest przez X przed wyszukiwaniem ponieważ nie jest ono rozpoznawane przez scoring matrices (matryce dopaswania). 
3blast.cgi nie uwzględni myślnika (-), aby przedstawić przerwę należy użyć N lub X.
2.     Bare Seqence (Naga sekwencja)
Może być to sekwencja bez linijki definicji z FASTA np.

 

    QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
    KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
    VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
           FLFLIKHNPTNTIVYFGRYWSP
  
Może być także użyta sekwencja oddzielona liczbami/lub spacjami tak jak sekwencja GenBank/GenPept flatfile report: 
             1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn
            61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek
           121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels
           181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp
  
Puste linie nie są dozwolone.
 
3.     Identifiers (Identyfikatory)
 
Zazwyczaj są to accession, accession.version lub gi's (np. p01013, AAA68881.1, 129295), ale identyfikatory sekwencji NCBI oddzielone kreską także są akceptowane (Np. gi|129295). Takie identyfikatory sekwencji NCBI maja bardzo specyficzna składnię tak jak opisano na stronie ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html. Identyfikator może składać się z jednego znaku (tzn. Słowa). Spacje pomiędzy literami spowodują że będzie on traktowany jako naga sekwencja (spacje przed lub po identyfikatorze są dozwolone). Przykłady niepoprawnych wpisów podane są poniżej:
 
            ACCESSION   P01013
            AAA68881. 1
            gi| 129295
  
W pierwszym przypadku „ACCESSION” musi być usunięte. W drugim przypadku występuje spacja przed verssion number. W trzecim przypadku występuje spacja po kresce („|”).
 
W przypadku MegaBlast gdzie może być wprowadzona więcej niż jedna sekwencja, poszczególny identyfikator powinien być umieszczony w  oddzielnej linijce.
 
  

Load query file from disk (Załaduj plik z dysku).

 

Ta funkcja umożliwia użytkownikom załadowanie pliku tekstowego zawierającego żądane sekwencje w formacie FASTA. Plik może także zawierać identyfikatory sekwencji zamiast sekwencji w formacie FASTA. Ta funkcja jest możliwa tylko dla MegaBlast. Długie sekwencje powinny być załadowywane dzięki tej opcji aby uniknąć możliwego zablokowania strony.

 

Set Subsequence

 

Fragment żądanej sekwencji może być użyty w przeszukiwaniu  w programie BLAST. Można go wprowadzić w polach „FROM” i „TO”, które występują pod „Set subsequence”. Na przykład żeby zawęzić obszar przeszukiwań  od pozycji 24 do 200 naszej sekwencji należy wpisać 24 w pole „FROM” i 200 w polu „TO”. Jeżeli jeden z limitów  jest poza zakresem, część wspólna z [FROM,TO] i [1length] będzie przeszukana, gdzie length oznacza długość całej sekwencji.

 

 

Databases available for BLAST serach (Bazy danych dostępne w BLAST)

 

W BLAST oferowanych jest kilka różnych baz danych do przeszukiwania. Niektóre z nich jak na przykład SwissProt i PDB nie podlegają pod bazy danych NCBI. Inne takie jak ecoli dbEST i month podlegają pod bazy danych NCBI. 

Inne „wirtualne bazy danych” mogą być stworzone poprzez użycie opcji "Limit by Entrez Query" .

Peptide Sequence Databases

v     nr

Wszystkie nie powtarzające się (non-redundant) translacje z GenBank CDS + RefSeq Proteins + PDB + SwissProt + PIR + PRF

v     refseq

Sekwencje białkowe RefSeq z NCBI's Reference Sequence Project.

v     Swissprot

Największy produkt białkowej bazy danych Swiss-Prot

v     Pat

Białka sekcji Patent bazy danych GenPept.

v     Pdb

Sekwencje uzyskane z trójwymiarowej struktury z Brookhaven Protein Data Bank.

v     Month

Wszystkie nowe i zweryfikowane translacje z GenBank CDS +PDB+SwissProt+PIR+PRF opublikowane w przeciągu ostatnich 30 dni.

v     env_nr

Sekwencje białkowe z naturalnych próbek, ze środowiska naturalnego.

Nucleotide Sequence Databases (Nukleotydowe bazy danych)

  • nr
    Wszystkie GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB seklwencje (z wyłączeniem HTGS0,1,2, EST, GSS, STS, PAT, WGS).
    Nie są już nie powtarzające się (non redundant)
  • refseq_rna
    Sekwencje RNA z NCBI's Reference Sequence project
  • refseq_genomic
    Sekwencje genomiczne z NCBI's Reference Sequence project
  • est
    Baza danych GenBank + EMBL + DDBJ sekwencji z  EST Divisions
  • est_human
    Podzbiór jest zawierający organizm “człowiek”(human)
  • est_mouse

     Podzbiór jest zawierający organizm “mysz”(mouse)

 

Opcja Return alignment endpoints only

Jest to najprostszy format outputowy BLAST dostępny tylko dla MegaBlast. Wybranie tej opcji uniemożliwi przeformatowanie tego samego przeszukania BLAST poprzez przeszukanie RID.

Peptide Sequence Databases

v     nr

Wszystkie nie powtarzające się (non-redundant) translacje z GenBank CDS + RefSeq Proteins + PDB + SwissProt + PIR + PRF

v     refseq

Sekwencje białkowe RefSeq z NCBI's Reference Sequence Project.

v     Swissprot

Największy produkt białkowej bazy danych Swiss-Prot

v     Pat

Białka sekcji Patent bazy danych GenPept.

v     Pdb

Sekwencje uzyskane z trójwymiarowej struktury z Brookhaven Protein Data Bank.

v     Month

Wszystkie nowe i zweryfikowane translacje z GenBank CDS +PDB+SwissProt+PIR+PRF opublikowane w przeciągu ostatnich 30 dni.

v     env_nr

Sekwencje białkowe z naturalnych próbek, ze środowiska naturalnego.

Nucleotide Sequence Databases (Nukleotydowe bazy danych)

     Podzbiór jest zawierający organizm “mysz”(mouse)

 

Opcja Return alignment endpoints only

Jest to najprostszy format outputowy BLAST dostępny tylko dla MegaBlast. Wybranie tej opcji uniemożliwi przeformatowanie tego samego przeszukania BLAST poprzez przeszukanie RID.

.

Hits computed (obliczone trafienia)

Możliwe jest przyspieszenie przeszukiwania poprzez określenie maksymalnej ilości trafień. Opcja jest dostępna jedynie dla  Trace megablast.

 

 

CDD search.

Funkcja ta jest odpowiednia tylko dla Protein BLAST. Po aktywacji istnieje możliwość porównania inputowych sekwencji białkowych znajdujących się w bazie CDD.

Domeny konserwatywne pasują do żądanej sekwencji mogą dać dodatkowe informacje na temat możliwej funkcji żądanej sekwencji. CDD to baza danych zawierająca zbiór profilów porównawczych białek (protein alignment profiles) uzyskanych z dwóch zewnętrznych  zbiorów Smart i Pfam, oraz dane stworzone w obrębie NCBI: COG i cd. W celu uzyskania dalszych informacji odwiedź stronę http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml.

 

Choose a translation (stara wersja Blast)

W nowej wersji jest:

Basic BLAST

Wybierz program BLAST, którego chcesz używać:

nucleotide blast

Przeszukuj nukleotydową bazę danych z użyciem sekwencji nukleotydowej jako kwerendy
Algorithms: blastn, megablast, discontiguous megablast

protein blast

Przeszukuj białkową bazę danych z użyciem sekwencji białkowej jako kwerendy Algorithms: blastp, psi-blast, phi-blast

blastx

Przeszukuj białkową bazę danych z użyciem przetłumaczonych sekwencji nukleotydowych jako kwerendy

tblastn

Przeszukaj bazę danych zawierającą przetłumaczone sekwencje nukleotydowe z użyciem sekwencji białkowej jako kwerendy

tblastx

Przeszukaj bazę danych zawierającą przetłumaczone sekwencje nukleotydowe z uzyciem przetłumaczonych sekwencji nukleotydowych jako kwerendy

. B

. Parametry przeszukiwania BLAST

Ograniczanie przez Entrez Query

 

Przeszukiwanie BLAST może być ograniczone do wyszukania Entrez query w wybranej bazie danych. To ogranicza przeszukiwanie do podzbioru danych zawartych w tej bazie danych odpowiadających wymogom Entrez query. Zwroty (słowa kluczowe) normalnie akceptowane przez Entrez przy wyszukiwaniu sekwencji białkowych i nukleotydowych są także akceptowane tutaj.  Poniżej przedstawione są przykłady:

 

Ograniczy to przeszukiwanie BLAST do proteaz z wyłączeniem tych z HIV 1.

Ogranicza to przeszukiwanie do sekwencji o długości od 1000 do 2000 par zasad dla sekwencji nukleotydowych i sekwencji o długości od 1000 do 2000 aminokwasów w przypadku sekwencji białkowych.

Ogranicza to przeszukiwanie do danych zawierających mRNA myszy. Dla powszechnych organizmów można także użyć rozwijanego paska menu.

Jest to kolejny przykład zawężania przeszukiwania sekwencji białkowych o określonym ciężarze molekularnym pomiędzy 10 kD a 100 kD.

 

W przypadku problemów z formułowaniem Entrez query odwiedź sekcję " Writing Advanced Search Statements" w Entrez Help. Ważna jest znajomość zawartości bazy danych i używanie odpowiednich zwrotów Entrez. Np. biomol_mrna[prop] nie powinno być stosowanie w htgs lub chromosomowej bazie danych ponieważ nie zawierają one danych o mRNA.

Compositional adjustments

Aminokwasowe matryce substytucji mogą być dostosowane w różny sposób aby zrekompensować pozycje aminokwasowe w porównywanych sekwencjach (aby najkorzystniej dopasować poszczególne pozycje aminokwasowe do siebie w obydwu porównywanych sekwencjach). Najprostsze dopasowanie to przemnożenie (przeskalowanie) wszystkich scores substytucji (wziętych z matrycy substytucji) przez analitycznie (na podstawie wyników laboratoryjnych) wyznaczoną stałą, pozostawiająć przerwy fixed; taka operacja nazywana jest "composition-based statistics" (Schaffer et al., 2001). Takie wyniki dają dokładniejsze wartości E niż te standardowe. Bardziej złożone podejście polega na dopasowaniu każdego score oddzielnie w standardowej matrycy substytucji by połączyć score poszczególnych komponentów obu porównywanych łańcuchów (Yu et al., 2003; Yu and Altschul, 2005; Altschul et al., 2005). Taki "compositional score matrix adjustment" może być użyty tylko w określonych przypadkach gdy empirycznie stwierdzono, że będzie to korzystne (Altschul et al., 2005); w innych przypadkach używa się composition-based statistics. W innym przypadku compositional adjustment może być uniwersalnie wywoływany.   

[1] Schaffer, A.A., Aravind, L., Madden, T.L., Shavirin, S., Spouge, J.L., Wolf, Y.I., Koonin, E.V. and Altschul, S.F. (2001) "Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements," Nucleic Acids Res. 29:2994-3005.
[2]
Yu, Y.-K., Wootton, J.C. and Altschul, S.F. (2003) "The compositional adjustment of amino acid substitution matrices," Proc. Natl. Acad. Sci. USA 100:15688-15693.
[3] Yu, Y.-K. and Altschul, S.F. (2005) "The construction of amino acid substitution matrices for the comparison of proteins with non-standard compositions," Bioinformatics 21:902-911.
[4] Altschul, S.F., Wootton, J.C., Gertz, E.M., Agarwala, R., Morgulis, A., Schaffer, A.A. and Yu, Y.-K. (2005) "Protein database searches using compositionally adjusted substitution matrices," FEBS J 272(20):5101-9.

Filter

Funkcja ta maskuje segmenty sekwencji kwerendowej o małej złożoności, które były zidentyfikowane przez program SEG Wootton and Federhen (Computers and Chemistry, 1993) lub, dla BLASTN, przez program DUST Tatusov and Lipman. Filtr może wyeliminować znaczące statystycznie lecz biologiczne nie interesujące wyniki (np. powszechne regiony aminokwasowe, zasadowe, bogate w prolinę), zostawiając bardziej znaczące biologicznie regiony sekwencji dla lepszego dopasowania wyników do sekwencji kwerendowej.

Filter może być zastosowany tylko do sekwencji kwerendowej (lub produktów jej translacji), nie może być zastosowany do sekwencji znajdujących się w bazie danych. Programy do filtrowania to DUST dla BLASTN, SEG dla innych programów.

Często zdarza się, że nic nie zostaje zamaskowane przez SEG kiedy stosuje się go do sekwencji w SWISS-PROT lub refseq, więc nie powinno się oczekiwać zadowalających wyników za każdym razem. Co więcej, niekiedy sekwencje są całkowicie maskowane, wskazując iż wyniki niefiltrowanej sekwencji kwerendowej powinny być brane pod uwagę. Może to także prowadzić do błędu w wyszukiwaniu.

·  Filter (Human repeats)

Opcja ta maskuje Human powtórzenia (LINE’s, SINE’s, retroviral repeasts) i jest pomocna w przypadku ludzkich sekwencji, które mogą zawierać takie powtórzenia. Filtrowanie powrórzeń może przyśpieszyć przeszukiwanie szczególnie w przypadku długich sekwencji (>100 kb) oraz w przypadku przeszukiwania baz danych zawierających wiele powtórzeń (htgs) spurious. Filtr ten powinien być używany dla sekwencji genomicznych by zapobiec potencjalnym problemom, które mogą wyniknąć z powodu wielu i często fałszywych przyrównań do tych powtarzających się elementów.

By dowiedzieć się więcej odwiedź "Why does my search timeout on the BLAST servers?" w BLAST Frequently Asked Questions.

·  Filter (Mask for lookup table only)

Przeszukiwanie BLAST składa się z 2 faz, znajdowaniu trafień na podstawie a lookup table, a następnie rozszerzaniu ich. Ta opcja maskuje tylko w celu skonstruowania lookup table używanej przez BLAST. W ten sposób nie pokażą się wyniki na podstawie niskiej złożoności lub powtórzeń (jeśli ten filtr jest włączony).

Mask Lower Case

Używając tej opcji można wyciąć i wkleić sekwencję w formacie FASTA napisanej dużymi literami i zaznaczyć obszary, które mają być przefiltrowane w postaci małych liter. W ten sposób można dostosować, które regiony sekwencji będą przefiltrowane podczas porównywania w bazach danych BLAST.

Można używać różnych kombinacji powyższych filtrów aby otrzymać optymalne wyniki przeszukiwania.  

Word-size

BLAST to heuristic, które wyszukuje podobieńsw słów pomiędzy sekwencją kwerendową a bazą danych. Można powiedzieć, że process ten wykorzystuje “hot spots”, których BLAST następnie używa do rozszerzania w celu pełnego alignmentu. Dla wyszukiwań sekwencja nukleotydowa – sekwencja nukleotydowa (tzn. “blastn”) dokładne dopasowanie słowa jest konieczne przed rozpoczęciem rozszerzania. W ten sposób można regulować wielkość słowa. Dla innych wyszukiwań BLAST niedokładne dopasowania są brane pod uwagę, określone na podstawie podobieństwa 2 słów. Wartość podobieństwa może być różna dlatego używa się słów o wielkości 2 i 3.

Expect Expect

Ta opcja opisuje wartość znaczenia statystycznego dla wyników wyszukiwania w bazie danych. Wartość standardowa (10) oznacza, że można się spodziewać 10 przypadkowych  dopasowań, jak wynika z modely stochastycznego Karlin i Altschul (1990). Jeżeli znaczenie statystyczne przypisane do dopasowania jest większe niż podana wartość (EXPECT threshold), to wynik ten nie pokaże się. Lower EXPECT thresholds are more stringent, leading to fewer chance matches being reported.

Reward and Penalty for Nucleotide Programs

Wiele przeszukiwań sekwencji nukleotydowych używa prostego systemu punktowań, który składa się z “nagrody” za dopasowanie i “kary” za niedopasowanie. Całkowity stosunek nagroda/kara powinien zwiększyć się jeśli pod uwagę brane są odległe sekwencje. Stosunek 0.33 (1/-3) odpowiada sekwencjom, które są konserwatywne w 99%. Natomiast stosunek około 1 (1/-1) odpowiada sekwencjom konserwatywnym w 75% [1].

Aby zapewnić, bardziej wiarygodne dane w BLAST dla przeszukiwań w blastn, NCBI użyło nowego ograniczenia co do liczby dopuszczonych  par nagroda/kara i liczby kar za przerwy i rozszerzenie przerwy. W celu uzyskania więcej informacji odwiedź News on blast 2.2.13. 

[1] States DJ, Gish W, and Altschul SF (1991) METHODS: A companion to Methods in Enzymology 3:66-70.

Matrix and Gap Costs

Kluczowym elementem w określaniu jakości alignmentu jest “matryca substytucji”, która przyznaje punkty za każde możliwe dopasowanie poszczególnych elementów. Matryca w BLAST może być zamieniana w zależności od rodzaju sekwencji (więcej na stronie BLAST Frequently Asked Questions). Więcej informacji na stronie BLAST substitution matrices.

Rozwijany pasek menu pokazuje koszt przerwy (Gap Costs) dla wybranej matrycy. Liczba opcji jest ograniczona. Wynikiem zwiekszania kosztu przerwy będzie zmniejszanie liczby przerw w alignmencie.

PSI-BLAST może zachować Position Specific Score Matrix. Tak więc zachowana PSSM może być użyta w przeszukiwaniu innych baz danych z użyciem tej samej kwerendy poprzez skopiowanie i wklejenie zakodowanego tekstu w pole PSSM.

W celu zachowania pliku PSSM: To save a PSSM file:

Aby użyć PSSM w nowym białkowym wyszukiwaniu BLAST w innych bazach danych: 

Jeżeli baza danych jest taka sama jak baza gdy PSSM było zapisywane you'll reproduce the iteration on which you've saved the PSSM; Inna baza danych da listę odmiennych wyników.  

NCBI BLAST Advanced Options

Program Advanced Options

Accepted Parameters for Other Advanced Field

-G

Kara za wystąpienie przerwy [Integer]: default = 5 dla nukleotydów/ 11 dla białek

-E

Kara za rozszerzenie przerwy [Integer]: default = 2 dla nukleotydów/ 1 dla białek

-q

Kara za niedopasowanie nukleotydu [Integer]: default = -3

-r

Nagroda za dopasowanie nukleotydu [Integer]: default = 1

-e

Wartość oczekiwana [Real]: default = 10

-W

Rozmiar słowa [Integer]: default = 11 dla nukleotydów/ 28 dla megablast/ 3 dla białek

-y

Zmniejszenie rozszerzeń blast-a w bitach (X): default = 20 dla blastn/ 7 dla innych (drugi etap blast-a to rozszerzenia dopasowanych trafień. Tutaj zmniejsza się te rozszerzenia)

-X

Wartość X dla alignmentu z przerwami (w bitach): default = 15 dla wszystkich programów; niedostępne dla blastn

-Z

Końcowa wartość dla alignmentów z przerwami (w bitach): 50 dla blastn 25 dla innych

W programach BLAST występują tylko ograniczone wartości dla wystąpienia przerwy i jej rozszerzenia. Dla białkowego BLAST zerknij na rozwijany pasek menu obok Matrix. Dla nukleotydowego BLAST odwiedź  News on 2.2.13 release.

PHI-BLAST Pattern

PHI-BLAST (Pattern-Hit Initiated BLAST – BLAST zainicjowany przez wzorcowe trafienie) jest to program, który łączy dopasowania regularnych ekspresji (regular expressions) z lokalnymi alignmentami otaczającymi to dopasowanie. Jeśli mamy sekwencję białkową S i wzór regularnej ekspresji (regular expression pattern) P występujący w S, PHI-BLAST pomaga odpowiedzieć na pytanie:

Jakie inne sekwencje białkowe jednocześnie zawierają występowanie P i są homologiczne do S na podstawie wzoru pattern occurences (homologiczność sekwencji, czyli ich biologiczna „bliskość” określana jest za pomocą matematycznego wzoru analizowanego przez komputer)?

What other protein sequences both contain an occurrence of P and are homologous to S in the vicinity of the pattern occurrences?

PHI-BLAST may be preferable to just searching for pattern occurrences because it filters out those cases where the pattern occurrence is probably random and not indicative of homology. See PHI-BLAST pattern syntax for details.

 

 

 

C. Result Format Options

Graphical Overview

Jest to podsumowanie sekwencji po alignmencie do sekwencji kwerendowej. Score każdego  alignmentu przedstawiony jest w postaci 5 różnych kolorów które dzielą scores na 5 grup. Poszczególne segmenty sekwencji dopasowanej do sekwencji kwerendowej połączone są za pomocą cienkiej szarej linii. Najechanie myszką na sekwencję znajdujacą sie w wynikach wyszukiwania pokaże definicję i score na górze okna klikając na tą sekwencje pokażą się pochodne alignmenty. 

NCBI-gi

Opcja ta powoduje iż identyfikatory NCBI-gi ukazuja się w pliku outputowym obok accession i/lub nazwy locus. Przykłady z i bez tej opcji podane są poniżej.

gi|28559089|ref|NM_000249.2|  Homo sapiens mutL homolog 1, col...  5003    0.0     UniGene infoGene info
 
ref|NM_026810.1|  Mus musculus mutL homolog 1 (E. col  1344    0.0     UniGene infoGeoGene info
 

format

Ta opcja ustala  jaki obiekt będzie raportowany i w jakim formacie. Funkcja podstawową jest "Alignment" która może być zmieniona na PSSM, PssmWithParameters lub BioSeq (ANS.1 seqAlign output), gdzie PSSM i PssmWithParameters są dostępne tylko dla wyszukiwań PSI-BLAST.

The PssmWithParameters option outputs the position-specific scoring matrix (PSSM) for the selected Psi-Blast search iteration as a plain-text ASN.1 PssmWithParameters structure (see scoremat.asn for definition).

Format wyników ustawiony jest na “HTML”. Może być on zmieniony na "plain text", ASN.1 lub XML.

Format

This determines which object to report and in what format. The default tego przedmiotu jest "Alignment", który może być zmieniony na PSSM, PssmWithParameters, lub BioSeq (ANS.1 seqAlign output), z PSSM i PssmWithParameters dostępnymi tylko dla wyszukiwarek PSI-BLAST.

Opcje PssmWithParameters tworzą the position-specific scoring matrix (PSSM) dla wybranych wyszukiwanych powtórzeń Psi-Blast, jako zrozumiały tekst o strukturze ASN.1 PssmWithParameters (zobacz definicję: scoremat.asn )

Format rezultatu pojawiający się w przeglądarce internetowej jest set to w "HTML" przez default,które może być zmienione na „zrozumiały tekst” " ASN.1, lub XML.

Cechy CDS

Sprawdzenie opcji pozwoli BLAST formatter parse out the annotated cechy sekwencji znalezione w lub w pobliżu trafień i pokazuje je w obrębie rezultatów BLAST.

Dla zwykłych poszukiwanych sekwencji, będzie to także tłumaczyć CDS za pomocą translatora CDS annotated na dopasowywaniu bazy danych sekwencji jako przewodnika.Niedopasowanie w translacji będzie zaznaczone na różowo. Reprezentatywny przykład z tłumaczeniem CDS jest podany poniżej.

>gi|46452254|gb|AY585334.1| Sus scrofa cystic fibrosis transmembrane conductance regulator 
(CFTR) mRNA, complete cds
Length=4449
 
 Score = 5453 bits (2751),  Expect = 0.0
 Identities = 4036/4449 (90%), Gaps = 6/4449 (0%)
 Strand=Plus/Plus
 
CDS: Putative 1       1      M  Q  R  S  P  L  E  K  A  S  V  V  S  K  L  F  F  S  W  T 
Query                 133   ATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACnnnnnnnCAGCTGGACC  192
                            |||||||||||||||||||||||||||||| |  ||||||||||||||||||||||||||
Sbjct                 1     ATGCAGAGGTCGCCTCTGGAAAAGGCCAGCATCTTCTCCAAACTTTTTTTCAGCTGGACC  60
CDS:cystic fibrosis   1      M  Q  R  S  P  L  E  K  A  S  I  F  S  K  L  F  F  S  W  T 
 
CDS: Putative 1       21     R  P  I  L  R  K  G  Y  R  Q  R  L  E  L  S  D  I  Y  Q  I 
Query                 193   AGACCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATC  252
                            |||||||||||||| |||||||| |||||||||||||||||||||||||||||||| |||
Sbjct                 61    AGACCAATTTTGAGAAAAGGATATAGACAGCGCCTGGAATTGTCAGACATATACCATATC  120
CDS:cystic fibrosis   21     R  P  I  L  R  K  G  Y  R  Q  R  L  E  L  S  D  I  Y  H  I 
 
CDS: Putative 1       41     P  S  V  D  S  A  D  N  L  S  E  K  L  E  R  E  W  D  R  E 
Query                 253   CCTTCTGTTGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAG  312
                             |||||  ||| |||||||||||||| |||||||||||||||||||||||||| ||||| 
Sbjct                 121   TCTTCTTCTGACTCTGCTGACAATCTGTCTGAAAAATTGGAAAGAGAATGGGACAGAGAA  180
CDS:cystic fibrosis   41     S  S  S  D  S  A  D  N  L  S  E  K  L  E  R  E  W  D  R  E 
 

Maskowanie

Są dwie opcje które wyznaczają way filter masked region, które powinny być wyświetlone.

·        Charakter maskowania

"X lub N" pokazuje maskowane regiony w X dla białek i w N dla nukleotydów

"Lower Case"  pokazuje maskowane regiony małymi literkami

·        Kolor maskowania

Maskowane regiony mogą być zaznaczone szarą lub czerwoną czcionką

Opisy

Ta opcja ogranicza liczbę krótkich opisów dopasowanych sekwencji odnoszących się do liczby wyszczególnionych. Default setting varies from page to page.Zobacz także EXPECT.

Alignmenty

Ta opcja ogranicza bazę danych sekwencji do liczby specyficznych dla których,  high-scoring segment pairs (HSPs) are reported. Różne strony mają różne domyślne ustawienia. Jeżeli w bazach danych zostało znalezionych więcej sekwencji mieszczące się w progu statystycznego znaczenia, wyświetlone zostaną tylko te trafienia, które maja największe statystycznie znaczenie. Zobacz EXPECT poniżej.

Baza danych LinkOuts

Ta opcja dostarcza poprzez linki z BLASTa, trafienia do entries znalezione w innych specjalizujących się bazach danych z NCBI. Jeśli baza danych sekwencji pasuje do wyszukiwań oraz także „jest włączona” w bazy danych Gene, UniGene, Structure, lub GEO, będziesz w stanie follow the link to GIF icon marked links aby otrzymać dodatkowe informacje dla naszych rekordów trafień w wymienionych źródłach.

.

Gene info= Link to Gene

UniGene info= Link to UniGene

Geo info= Link to GEO

Structure info= Link to Structure

Sequence Retrieval

Check this box will allow BLAST formatter to display a set of sequence retrieval button, as given in the examples below, that allow user to choose all or a manually selected subset of matched sequences for downloading through Entrez Nucleotide or Entrez Protein database.

 

 

Alignments Sequence Retrieval (odzyskiwanie sekwencji)

Sprawdzenie tego okienka pozwoli  BLAST formatter na pokazanie ustawienia „przycisków odzyskujących sekwencje” (jak to jest pokazane na przykładzie poniżej), co pozwala użytkownikowi na wybór wszystkich lub tylko ręcznie wybieranych podzbiorów dopasowanych sekwencji ,aby móc zrobić „download” za pomocą baz danych Entrez Nucleotide lub Entrez Protein.

Alignments Views (widoki alingmentów)

Standardowy BLAST alignment w parach wyszukiwanych sekwencji i dopasowania baz danych. Dla nukleotydów dopasowania są oznaczane symbolem ("|") pomiędzy zapytaniem a bazą danych sekwencji. Dla białek ,identyczne dopasowania są oznaczane kodem literowym z homologicznymi podstawieniami (wyznaczanymi przez matrycę wyników) oznaczanymi przez symbol "+" w lini pomiedzy zapytaniem i bazą danych sekwencji.

 

 

Sekwencje znalezione przez algorytm BLAST w bazach danych są zestawione parami z sekwencją kwerendową( query sequence), a niedopasowania zaznaczone są kolorem czerwonym. "Sbjct" będzie oznaczony na czerwono lub pogrubioną czcionką jeśli linia alingmentu zawiera niedopasowania. Przykład zobacz poniżej.

·        Query-anchored with identities (zapytanie połączone ze zbieżnością- identycznością)

Alignmenty bazy danych są połączone (pokazane w odniesieniu do) wyszukiwanych sekwencji. Zbieżnośći-identyczności są pokazane jako kropki (.),a z niedpasowaniami -ee jako skróty jednoliterowe.

Zbieżności - identityczności są pokazane jako jednoliterowe skróty nukleotydów.

Flat' pokazuje inserty jako delecje w zapytaniu. Zbieżności - identyczności są pokazywane jako (.),a z niedopasowaniami pokazywane jako skróty jednoliterowe.

Wyświetlenie 'flat' pokazuje inserty jako delecje w zapytaniu. Zbieżności -identytyczności są pokazywane jako pojedyncze skróty literowe.

Prosty output z innymi informacjami o alingmentach separowane według pól ograniczonych tabulatorem wraz z polami nagłówkowymi - są pokazywane na początku.

>gi|21536448|ref|NM_002622.3|  UniGene infoGeoGene info Homo sapiens prefoldin 1 (PFDN1), mRNA
Length=1296
 
 Score =  392 bits (212),  Expect = 2e-107
 Identities = 220/223 (98%), Gaps = 3/223 (1%)
 Strand=Plus/Plus
 
Query  107  TCCTACCTGGAGCGAAG-GTTANAGGAAGCTGAGGACAACATCCGGGAGATGCTGATGGC  165
Sbjct  300  .................C....-.....................................  358
 
Query  166  ACGAAGGG-CCAGTAGGGAGCCTCTCTGGGAAGCTCTTCCTCCTGCCCCTCCCATTCCTG  224
 
Sbjct  359  ........C...................................................  418
 
Query  225  GTGGGGGCAGAGGAGTGTCTGCAGGGAAACAGCTTCTCCTCTGCCCCGATGGATGCTTTA  284
Sbjct  419  ............................................................  478
 
Query  285  TTTGGATGGCCTGGCAACATCACATTTTCTGCATCACCCTGAG  327
Sbjct  479  ...........................................  521

NOTE: Links off the accession and gif icons are disabled.

Aby otrzymać XML, tekst, lub ASN.1 output, kliknij na HTML zaraz po „format” i wybierz z menu pulldown. Format ASN.1 SeqAnnot jest dostępny w programach z pakietami narzędziowymi NCBI. Importowany output może być konwertowany do innego formatu wyświetlania. Zobacz dokumenty na ftp.ncbi.nlm.nih.gov/blast/demo aby otrzymać więcej informacji.

Format dla PSI-BLAST

The Position-Specific Iterated BLAST (specyficznie powtórzone miejsca) (PSI-BLAST) program wykonuje powtarzające się poszukiwania informacji  na temat białek, w których znalezione sekwencje, w wyniku jednego cyklu, wykorzystywane są do stworzenia prostego wyniku w formie modelu  do następnego poszukiwania.

W PSI-BLAST algorytm nie jest związany ze specyficznym wynikiem w postaci macierzy takich jak BLOSUM62, który może być zastosowany używając AxA macierz substytucji gdzie A jest wielkością alfabetu (w przypadku sekwencji aminokwasowej wielkość alfabetu wynosi 20-20różnych aminokwasów, w przypadku sekwencji nukleotydowej 4). Zamiast tego program ten używa  QxA macierz gdzie Q jest długością poszukiwanej sekwencji. W każdej pozycji  nakład liter zależy od pozycji dotyczącej poszukiwanej sekwencji i litery. Aby kontynuować te poszukiwania, "Format for PSI-BLAST" checkbox  musi być sprawdzony.

To run this search, "Format for PSI-BLAST" checkbox must be checked.

Inclusion Threshold-próg dopuszczenia

Próg dopuszczenia ustawia próg statystycznej istotności do włączenia sekwencji w modelu użytego przez PSI-BLAST do stworzenia PSSM na następne powtórzenie.

Limit results by entrez query (limit wyników przez “zapytanie do entreza”)

Ta funkcja jest podobna do "Limit by Entrez Query terms" w opcji –section. Jedyną różnicą jest to, że stosuje tylko zidentyfikowane trafienia. Innym słowem,  jest zastosowaniem post-search(wtórnego poszukiwania) i pozwala użytkownikom zobaczyć tylko trafienia dopasowane do wymagania „the Entrez query terms”(zapytanie do entreza). Domyślnie jest formatowanie bez zwrotów zapytania danych wejściowych „input query terms aby pozwolić użytkownikom oglądanie wszystkich trafień.

Expect value range (oczekiwany zakres wartości)

Oczekiwany zakres wartości instruuje formater BLAST aby  pokazywał trafienia z oczekiwaną wartością w obrębie określonego zakresu. Domyślną wartością dla ustawień oczekiwanej wartości Expect value setting jest 0. Niższa granica odnosi się do pierwszego okienka, wyższa do drugiego.

layout (układ/plan)

Decyduje to czy wyniki raportu BLAST ”BLAST report”w ostatnio otworzonym oknie przeglądarki ("two window", jako domyślne) lub w tym samym oknie początkowy/wstępny RID był wyświetlony

Formatting options on page with results (opcje formatowania na stronie z wynikami)

Informuje BLAST czy  pokazać opcję formatu na stronie wyników lub nie. Domyślnie nie pokazuje się takich opcji.

 AutoFormat

Gdy opcje AutoFormatu są wybrane ,kliknij na przycisk "Submit", wtedy zostanie przedstawiony wynik i  przeglądarka zostanie zmuszona do sprawdzenia wyników w zdefiniowanym/określonym planie i wtedy automatycznie formatuje wyniki  BLAST kiedy są gotowe. Domyślne ustawienia "Semiauto” wymaga przyciśnięcia  "FORMAT” aby zapoczątkować ten proces. Jeśli opcja AutoFormat jest nieaktywna, kliknięcie  przycisku Format na  stronie formatowanej spowoduje  jednorazowe sprawdzenie wyniku przez przeglądarkę.. Jeśli wynik nie jest jeszcze gotowy, strona internetowa nie będzie automatycznie uaktualniona. Niektóre potrzebują ręcznego przeładowania(odświeżenia) lub przyciśnięcia "Format" jeszcze raz.   

Results file ( plik wyników)

Sprawdzanie tej opcji poinstruuje przeglądarkę do zachowania zawartość strony  na pliku przez dialog box raczej niż przez pokazanie ich w oknie przeglądarki. Ta opcja jest dostępna tylko ze strony MEGABLAST .

Get the URL with preset values (otrzymywanie URL z obecnymi wartościami)

Ten przycisk pozwala użytkownikom do zachowania odpowiednich poszukiwanych parametrów na podanej stronie Tak się dzieje podczas pierwszych etapów zmian i umieszcza się je w nowym URL. Użytkownicy muszą skorzystać z URL aby otrzymać nową stronę z odpowiednimi parametrami oraz założyć zakładkę nowej strony do strony „Save”.

 

D. Rules for pattern syntax for PHI-BLAST (reguły modelu syntax-lista komend dla PHI-BLAST)

Przeszukiwania  PHI-BLAST wymagają modelu wraz z sekwencją białka związanego z modelem. Prosty przykład oraz wytłumaczenie korzystania z PHI-BLAST dostępne jest na tej stronie this page .

Syntax dla określonego modelu w  PHI-BLAST stosuje konwencje PROSITE. Kiedy używasz program stand-alone, dopuszczalne jest występowanie  różnych modelów w pliku rozdzielonym przez pustą linie między modelami. Używając strony internetowej tylko jeden model przypada na jedno zapytanie.

Accepted PHI-BLAST Pattern Vocabulary

ABCDEFGHIKLMNPQRSTVWXYZU

Alfabet białka

ACGT

Alfabet DNA

[ ]

Znaczy że każda z liter zamknięta w nawiasach np:. [LFYT] znaczy występowanie  L lub F lub Y lub T

-

Nic, przerwa , używane jako odstęp do rozdzielenia każdej pozycji

x

Z następną przerwą znaczy dowolny pozycję( aminokwas, nukleotyd)

(n)

Znaczy the preceeding  resztę  powtórzoną 5razy

(m,n)

the preceeding residues (reszty, pozycje)  powtórzoną między m a n-razy  (n > m)

> 

Tylko na końcu modelu i znaczy przerwę (nic) , może pojawiać się przed okresem

.

Może być użyty na końcu i znaczy przerwę(nic)

Używając stand-alone program, model powinien być nagromadzony w pliku wejścia do modelu, z pierwszą linią tekstu zaczynającą się od ID następujący po dwóch przestrzeniach i szereg tekstu dającego nazwę modelu.  Powinien  być również linią tekstu zaczynającą się od PA następującą po dwóch przestrzeniach i po tym określenie modelu. Wszystkie inne kody PROSITE w pierwszych dwóch kolumnach są dozwolone ale tylko kod HI określony poniżej jest istotny dla PHI-BLAST

ID CNMP_BINDING_2; PATTERN. AC PS00889;
DT OCT-1993 (CREATED); OCT-1993 (DATA UPDATE); NOV-1995 (INFO UPDATE).
DE Cyclic nucleotide-binding domain signature 2.
PA [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV].
NR /RELEASE=32,49340;
NR /TOTAL=57(36); /POSITIVE=57(36); /UNKNOWN=0(0); /FALSE_POS=0(0);
NR /FALSE_NEG=1; /PARTIAL=1;
CC /TAXO-RANGE=??EP?; /MAX-REPEAT=2;

Linia tekstu zaczynająca się od ID dająca nazwę modelu.

Linie tekstu zaczynające się od AC, DT, DE, NR, NR i CC są istotne dla użycia PROSITE ale nieistotne dla PHI-BLAST. Są one tolerowane ale ignorowane przez PHI-BLAST.

Linie tekstu zaczynające się od PA określają model, który może być wyjaśniony następująco:

Pattern Position

Pattern Syntax

Meaning

1

[LIVMF]

one of LIVMF

2

G

G

3

E

E

4

X

any one residue

5

[GAS]

one of GAS

6

[LIVM]

one of LIVM

7

X(5,11)

5 to 11 any residue

8

R

R

9

[STAQ]

one of STAQ

10

A

one A

11

X

any one residue

12

[LIVMA]

one of LIVMA

13

X

any one residue

14

[STACV]

any one of STACV

Note: total length of this motif/pattern is between 18 to 24 residues.

Na tym przykładzie model kończy się z okresem.Może się kończyć przerwą (nic) po ostatnim specyficznym symbolu lub po liczbie znaków > lub po okresie lub kombinacji tego. Poniżej znajduje się kolejny przykład, ukazujący zastosowanie linii HI.

         ID ER_TARGET; PATTERN.
         PA [KRHQSA]-[DENQ]-E-L>.
         HI (19 22)
         HI (201 204)

In this example, the HI lines specify that the pattern occurs twice, once from positions 19 through 22 in the sequence and once from positions 201 through 204 in the sequence. These specifications are relevant when stand-alone PHI-BLAST is used with the seedp option, in which the interesting occurrences of the pattern in the sequence are specified. In this case the HI lines specify which occurrence(s) of the pattern should be used to find good alignments.

In general, the seedp option is more useful than the standard patternp option ONLY when the pattern occurs K > 1 times in the sequence AND the user is interested in matching to J < K of those occurrences. Then using the HI lines enables the user to specify which occurrences are of interest.

For simple pattern searches, use seedtop from NCBI's standalone command line blast package instead. For more information, see ftp.ncbi.nlm.nih.gov/blast/documents/seedtop.html.

This document is also available in pdf format .

 

Disclaimer
Privacy statement
Accessibility
This page is
valid XHTML 1.0.

Disclaimer
Privacy statement
Accessibility
This page is
valid XHTML 1.0.