Sample GenBank Record

 

PubMed

Entrez

BLAST

OMIM

Taxonomy

Structure

 

GenBank Flat File Format

Naciśnij dowolny odnośnik zawarty w tym przykładowym rekordzie by zobaczyć szczegółowy opis tego elementu lub pola. Wszystkie opisy znajdują się na tej stronie, mogą być więc wydrukowane jako pojedynczy dokument. Możesz również powrócić do Alphabetical Quicklinks Table or Resource Guide

LOCUS       SCU49845     5028 bp    DNA             PLN       21-JUN-1999
DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
            (AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION   U49845
VERSION     U49845.1  GI:1293613
KEYWORDS    .
SOURCE      Saccharomyces cerevisiae (baker's yeast)
  ORGANISM  Saccharomyces cerevisiae
            Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
            Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE   1  (bases 1 to 5028)
  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
  TITLE     Cloning and sequence of REV7, a gene whose function is required for
            DNA damage-induced mutagenesis in Saccharomyces cerevisiae
  JOURNAL   Yeast 10 (11), 1503-1509 (1994)
  PUBMED    7871890
REFERENCE   2  (bases 1 to 5028)
  AUTHORS   Roemer,T., Madden,K., Chang,J. and Snyder,M.
  TITLE     Selection of axial growth sites in yeast requires Axl2p, a novel
            plasma membrane glycoprotein
  JOURNAL   Genes Dev. 10 (7), 777-793 (1996)
  PUBMED    8846915
REFERENCE   3  (bases 1 to 5028)
  AUTHORS   Roemer,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
            Haven, CT, USA
FEATURES             Location/Qualifiers
     source          1..5028
                     /organism="Saccharomyces cerevisiae"
                     /db_xref="taxon:4932"
                     /chromosome="IX"
                     /map="9"
     CDS             <1..206
                     /codon_start=3
                     /product="TCP1-beta"
                     /protein_id="AAA98665.1"
                     /db_xref="GI:1293614"
                     /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
                     AEVLLRVDNIIRARPRTANRQHM"
     gene            687..3158
                     /gene="AXL2"
     CDS             687..3158
                     /gene="AXL2"
                     /note="plasma membrane glycoprotein"
                     /codon_start=1
                     /function="required for axial budding pattern of S.
                     cerevisiae"
                     /product="Axl2p"
                     /protein_id="AAA98666.1"
                     /db_xref="GI:1293615"
                     /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
                     TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
                     VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
                     VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
                     TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
                     YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
                     DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
                     DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
                     NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
                     CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
                     NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
                     SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
                     YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
                     HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
                     VDFSNKSNVNVGQVKDIHGRIPEML"
     gene            complement(3300..4037)
                     /gene="REV7"
     CDS             complement(3300..4037)
                     /gene="REV7"
                     /codon_start=1
                     /product="Rev7p"
                     /protein_id="AAA98667.1"
                     /db_xref="GI:1293616"
                     /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
                     FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
                     KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
                     RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
                     LISGDDKILNGVYSQYEEGESIFGSLF"
ORIGIN
        1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
       61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
      121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
      181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
      241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
      301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
      361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
      421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
      481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
      541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
      601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
      661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
      721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
      781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
      841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
      901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
      961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg
     1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc
     1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa
     1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca
     1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac
     1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa
     1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag
     1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct
     1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac
     1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa
     1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc
     1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata
     1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca
     1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc
     1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc
     1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca
     1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc
     1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg
     2041 caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt
     2101 acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc
     2161 cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg
     2221 ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca
     2281 gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata
     2341 atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg
     2401 atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga
     2461 aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt
     2521 ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat
     2581 tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt
     2641 cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc
     2701 tgtcaccagt ctctgatatt gtcagagaca gttacggatc acaaaaaact gttgatacag
     2761 aaaaactttt cgatttagaa gcaccagaga aggaaaaacg tacgtcaagg gatgtcacta
     2821 tgtcttcact ggacccttgg aacagcaata ttagcccttc tcccgtaaga aaatcagtaa
     2881 caccatcacc atataacgta acgaagcatc gtaaccgcca cttacaaaat attcaagact
     2941 ctcaaagcgg taaaaacgga atcactccca caacaatgtc aacttcatct tctgacgatt
     3001 ttgttccggt taaagatggt gaaaattttt gctgggtcca tagcatggaa ccagacagaa
     3061 gaccaagtaa gaaaaggtta gtagattttt caaataagag taatgtcaat gttggtcaag
     3121 ttaaggacat tcacggacgc atcccagaaa tgctgtgatt atacgcaacg atattttgct
     3181 taattttatt ttcctgtttt attttttatt agtggtttac agatacccta tattttattt
     3241 agtttttata cttagagaca tttaatttta attccattct tcaaatttca tttttgcact
     3301 taaaacaaag atccaaaaat gctctcgccc tcttcatatt gagaatacac tccattcaaa
     3361 attttgtcgt caccgctgat taatttttca ctaaactgat gaataatcaa aggccccacg
     3421 tcagaaccga ctaaagaagt gagttttatt ttaggaggtt gaaaaccatt attgtctggt
     3481 aaattttcat cttcttgaca tttaacccag tttgaatccc tttcaatttc tgctttttcc
     3541 tccaaactat cgaccctcct gtttctgtcc aacttatgtc ctagttccaa ttcgatcgca
     3601 ttaataactg cttcaaatgt tattgtgtca tcgttgactt taggtaattt ctccaaatgc
     3661 ataatcaaac tatttaagga agatcggaat tcgtcgaaca cttcagtttc cgtaatgatc
     3721 tgatcgtctt tatccacatg ttgtaattca ctaaaatcta aaacgtattt ttcaatgcat
     3781 aaatcgttct ttttattaat aatgcagatg gaaaatctgt aaacgtgcgt taatttagaa
     3841 agaacatcca gtataagttc ttctatatag tcaattaaag caggatgcct attaatggga
     3901 acgaactgcg gcaagttgaa tgactggtaa gtagtgtagt cgaatgactg aggtgggtat
     3961 acatttctat aaaataaaat caaattaatg tagcatttta agtataccct cagccacttc
     4021 tctacccatc tattcataaa gctgacgcaa cgattactat tttttttttc ttcttggatc
     4081 tcagtcgtcg caaaaacgta taccttcttt ttccgacctt ttttttagct ttctggaaaa
     4141 gtttatatta gttaaacagg gtctagtctt agtgtgaaag ctagtggttt cgattgactg
     4201 atattaagaa agtggaaatt aaattagtag tgtagacgta tatgcatatg tatttctcgc
     4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt
     4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg
     4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg
     4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt
     4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt
     4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat
     4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc
     4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct
     4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta
     4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac
     4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
     4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
     4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
//

Prawdziwy rekord dla U49845 może być wyświetlony w Entrez.
Przykłady innych rekordów pokazujących zakres opisów biologicznych wymienione są poniżej.

 


FIELD

COMMENTS


LOCUS

Pole LOCUS zawiera różne informacje, włączając nazwę locus, długość sekwencji, typ cząsteczki, podział GenBank i datę modyfikacji. Każdy z tych elementów zaostał opisany poniżej.

 

 

Nazwa locus w tym przykładzie to

SCU49845.

Nazwa locus miała początkowo ułatwić grupowanie wpisów zawierających podobną sekwencję: trzy pierwsze znaki zazwyczaj określają organizm; czwarty i piąty pokazują inne przynależności, takie jak produkt genu; dla wpisów dzielonych, ostatni znak jest wspólny dla serii sekwencji stanowiących całość. (zobacz sekcję  3.4.4 GenBank release notes w celu poszerzenia informacji.)

Jednakże 10 znaków w nazwie locus nie wystarcza już do przekazania ilości informacji, które oryginalnie miała przekazywać. Jedyną zasadą obowiązującą obecnie podczas przydzielania nazwy locus jest jej unikalność. Dla przykładu, dla rekordów GenBank mających 6-znakowe numery dostępu (np.: U12345), nazwą locus  jest zwykle pierwsza litera rodzaju czy nazwy gatunkowej, po której występuje numer dostępu. Dla 8-znakowych numerów dostępu (np.: AF123456), nazwa locus to po prostu kod dostępu.

Baza danych odnośników sekwencji RefSeq przydziela formalne nazwy locus każdemu rekordowi opierając się na symbolu genu. Baza danych RefSeq pracuje niezależnie od GenBank, ale zawieraja odnośniki do zgodnych rekordów GenBank.

Entrez Search Field: Accession Number [ACCN]
Search Tip: Lepiej jest wyszukiwać dla aktualnego numeru dostępu, niż dla nazwy locus. Wynika to z tego względu, że nazwa locus może się zmieniać, kod dostępu pozostaje niezmienny.


 

back to top

 

Liczba par nukleotydów (lub reszt aminokwasowych) w zapisie sekwencji. W tym przypadku, długość sekwencji wynosi 5028 bp.

Nie istnieje górna granica wielkości sekwencji zgłaszanych do GenBank. Możesz przedstawić cały genom, jeśli posiadasz następujące po sobie sekwencje pochodzące z pojedynczej cząsteczki modelowej. Istnieje jednakże limit 350 kb na pojedynczy wpis GenBank (z nielicznymi wyjątkami, opisanymi w sekcji 1.3.2 informacji wydanej dla GenBank 112.0 target="one"). Ograniczenie to zostało wprowadzone ze względu na współuczestniczące międzynarodowe bazy sekwencji w celu ułatwienia operacji na sekwencjach z użyciem różnorodnych programów komputerowych. (W celu uzyskania dalszych informacji zobacz artykuły NCBI News w Complete Genomes i GenBank Enters Megabase Era.) Minimalna długość niezbędna do zgłoszenia sekwencji wynosi 50bp, mimo to w bazie mogą znaleźć się krótsze zapisy z zeszłych lat.

Entrez Search Field: Sequence Length [SLEN]

Search Tip: (1) W celu uzyskania zapisów mieszczących się w zakresie długości użyj dwukropka jako operatora zakresu, np.: 2500:2600[SLEN]. (2) Aby otrzymać wszystkie sekwencje krótsze niż określona górna granica, użyj 2 jako dolnej granicy, np.: 2:100[SLEN]. (3) Aby otrzymać wszystkie sekwencje dłuższe niż określona dolna granica, użyj serii dziewiątek jako górnej granicy, np.: 325000:99999999[SLEN].


 

back to top

 

Typ zsekwencjonowanej cząsteczki . W tym przykładzie, typem cząsteczki jest DNA.

Każdy zapis GenBank musi zawierać kolejne sekwencje pojedynczej cząsteczki . Różne typy cząsteczek są opisane w dokumentacji Sequin i mogą zawierać genomowy DNA, genomowy RNA, prekursorowy RNA, mRNA (cDNA), rybosomowy RNA, tRNA, mały jądrowy RNA i mały cytoplazmatyczny RNA.

 

Entrez Search Field: Własności [PROP]
Search Tip: zapytanie wyszukiwania  powinno być w formacie: biomol_genomic, biomol_mRNA, etc. Dla większości przykładów, zobacz pole Własności w trybie Indeksu.


 

back to top

 

Dział GenBank, do którego należy dany rekord, jest oznaczony przez trzyliterowy skrót. W tym przypadku dział GenBank to PLN.

Baza danych GenBank jest podzielona na 18 sekcji:

 

  1. PRI -  sekwencje naczelnych

  2. ROD – sekwencje gryzoni

  3. MAM – sekwencje innych ssaków

  4. VRT – sekwencje innych kręgowców

  5. INV – sekwencje bezkręgowców

  6. PLN -  sekwencje roślin, grzybów i glonów

  7. BCT – sekwencje bakteryjne

  8. VRL – sekwencje wirusowe

  9. PHG – sekwencje bakteriofagowe

10. SYN – sekwencje syntetyczne

11. UNA – sekwencje nieobjaśnione

12. EST – sekwencje EST  (expressed sequence tags)

13. PAT – sekwencje opatentowane

14. STS. – sekwencje STS (sequence tagged sites)

15. GSS - sekwencje GSS (genome survey sequences)

16. HTG - sekwencje HTG (high-throughput genomic sequences)

17. HTC - niedokończone wysoko-przepustowe sekwencjonowanie cDNA

18. ENV – sekwencje próbek środowiska

 

Niektóre z działów  zawierają sekwencje pochodzące od określonych grup organizmów, podczas gdy inne (EST, GSS, HTG, itd..) zawierają  dane uzyskane przy użyciu określonych technologii sekwencjonowania, pochodzące od wielu różnych organizmów. Podziały organizmów są historyczne i nie odzwierciedlają aktualnej Taksonomii NCBI. Służą one natomiast jako dogodny sposób podziału GenBank na mniejsze części dla tych, którzy chcą zamieścić dane w bazie danych FTP. Ponieważ sekwencje od poszczególnego organizmu mogą egzystować w opartych na technologii podziałach takich jak EST, HTG, itd., the NCBI Taxonomy Browser powinna zostać użyta dla odnalezienia wszystkich sekwencji od poszczególnego organizmu.

 

Działy są również sporządzone w postaci listy w sekcji 3.3 of the GenBank release notes.

Dział RNA w GenBank został usunięty w wydaniu 113.0 (sierpień 1999). Sekwencje , które były poprzednio w dziale RNA, zostały przeniesione do odpowiedniej sekcji organizmów. (Zobacz sekcja 1.3.2 of the GenBank 113.0 release notes dla dodatkowej informacji.)

Dział HTC został dodany do GenBank w wydaniu 123.0 (kwiecień 2001) i opisany w sekcji 1.3.3 of the GenBank 123.0 release notes.

Inny dział, nazwany CON, został dołączony w wydaniu 115.0 (grudzień 1999) ale nie jest skatalogowany powyżej, ponieważ rekordy w tym dziale, nie zawierają żadnych danych o sekwencjach. Zamiast tego, zawierają instrukcje składania sekwencji o tym jak tworzyć contigs ze złożonych rekordów GenBank. Zobacz Fall 1999 NCBI News i sekcję 1.3.3 of GenBank 115.0 release notes dla szczegółów.

Entrez Search Field: Właściwości [PROP]
Search Tip: Poszukiwany zwrot powinien być w formacie: gbdiv_pri, gbdiv_est, itd. Dla uzyskania większej liczby przykładów, zobacz Properties fielf w trybie Indeks. Na przykład, aby wyeliminować wszystkie sekwencje z poszczególnego działu, takie jak wszystkie ESTs, możesz użyć pytania Boolean sformułowanego następująco:

     human[ORGN,] NOT gbdiv_est,[PROP]

Z powyższych powodów, nie używaj działów GenBank, by znaleźć wszystkie sekwencje danego organizmu. Zamiast tego użyj NCBI Taxonomy Browser.


 

back to top

 

Data w polu LOCUS jest datą ostatniej modyfikacji. Przykładowy wpis ostatni raz modyfikowany był 21-JUN-1999.

W niektórych przypadkach data modyfikacji może pokrywać się z datą umieszczenia wpisu w bazie danych, nie da się tego jednakże określić na podstawie rekordu. Jeśli potrzebujesz  informacji o dacie udostępnienia wpisu wyślij wiadomość do info@ncbi.nlm.nih.gov. Sprawdzimy dla ciebie historię rekordu. Jeśli sekwencja została oryginalnie wysłana do naszych współpracowników w DDBJ lub EMBL, nie do GenBank, poprosimy ich o wysłanie do ciebie informacji o dacie. (Zobacz również adnotacje re: date w odnośniku Direct Submission.)

Entrez Search Field: Modification Date [MDAT]
Search Tips: (1) Wprowadź kryterium wyszukiwania w formacie yyyy/mm/dd, np.: 1999/07/25. (2) Aby otrzymać rekordy modyfikowane w określonym przedziale czasu, użyj dwukropka jako operatora czasu, np.: 1999/07/25:1999/07/31[MDAT]. (3) Możesz użyć pola Publication Date [PDAT] (daty publikacji) w Entrez w celu ograniczenia wyników w oparciu o datę dodania rekordów do systemu Entrez.  Data publikacji może zostać wprowadzona, podobie jak data modyfikacji, w formie zakresu.


 

back to top

 

DEFINITION (Definicja);

Krótki opis sekwencji, zawierający takie informacje jak organizm źródłowy, nazwa genu/białka, lub opis funkcji (jeśli jest to sekwencja niekodująca). Jeśli sekwencja posiada region kodujący (CDS), po opisie może wystąpić kwantyfikator kompletności, taki jak "complete cds". (Zobacz sekcję 3.4.5 GenBank release notes w celu uzyskania pełniejszych informacji).

Entrez Search Field: Title Word [TITL]
Search Tip: Pomimo że definicja nukleotydu opisana jest w formacie strukturalnym, GenBank nie używa określonego słownictwa, to autorzy determinują zawartość ich rekordów. Jeśli wyszukiwanie względem określonego terminu nie przyniesie oczekiwanych rezultatów, spróbuj innych terminów, które mogły zostać użyte przez autora, takich jak synonimy, pełne nazwy, czy skróty. Funkcja Entrez, "related records" (rekordy spokrewnione) (lub "neighbors”) pozwala ci na rozszerzenie wyszukiwania poprzez wyświetlanie rekordów z podobnymi sekwencjami, niezależnie od terminów użytych przez autorów.


 

back to top

 

ACCESSION

Unikalny identyfikator rekordu. Numer dostępu dotyczy kompletnego rekordu i jest zwykle kombinacją liter(y) i liczb, np.: pięciu cyfr poprzedzonych pojedynczą literą (np.: U12345) lub dwóch liter i sześciu cyfr (np.: AF123456). Niektóre dostępy mogą być dłuższe, w zależności od typu rekordu zawierającego sekwencję.

Numery dostępu nie zmieniają się, nawet jeśli dane rekordu zmieniane są na prośbę autora. Czasami jednakże, oryginalny numer dostępu może stać się drugorzędnym, towarzyszącym nowemu, jeśli autor przedstawia nowy wpis zawierający wcześniejsze sekwencje, lub jeśli z jakichś powodów nowy wpis zastępuje wcześniejszy rekord.

Rekordy z bazy danych RefSeq posiadają inny format numeru dostępu rozpoczynający się dwoma literami oddzielonymi przekreśleniem dolnym od sześciu lub więcej liczb, np.:

NT_123456   constructed genomic contigs
NM_123456   mRNA
NP_123456   białka
NC_123456   chromosomy

Porównaj numery dostępu z identyfikatorami sekwencji, takimi jak  Version i GI dla sekwencji nukleotydowych i protein_id oraz GI sekwencji aminokwasowych.

 

Entrez Search Field: Accession [ACCN]
Search Tip: Litery w numerze dostępu mogą być duże lub małe. Kody dostępu RefSeq muszą zawierać przekreślenie dolne między literami a liczbami, np.: NM_002111.


 

back to top

 

VERSION (Wersja);

Numer identyfikacyjny sekwencji nukleotydowej   reprezentuje pojedynczą, określoną sekwencję w bazie danych GenBank. Ten numer identyfikacji używa formatu accession.version wprowadzonego przez GenBank / EMBL / DDBJ w lutym 1999.

Jeżeli jest jakakolwiek zmiana w danych dotyczących sekwencji (nawet pojedyncza), numer wersji będzie się zwiększać np. U12345.1 → U12345.2, ale część accession pozostanie stała.

System  numerów identyfikacyjnych sekwencji accession.version  biegnie  równolegle do systemu numerów GI, , tzn., kiedy następuje jakakolwiek zmiana w sekwencji, to otrzymuje ona nowy GI i następuje zwiększenie numeru wersji.

Aby, by uzyskać więcej informacji, zobacz sekcję 1.3.2 of the GenBank 111.0 release notes, i sekcję 3.4.7 current GenBank release notes.

Narzędzie jest dostępne, aby śledzić różne numery GI, numery wersji i uaktualniać dane dla sekwencji, które pojawiły się w określonym rekordzie GenBank (więcej informacji i przykład).

Więcej szczegółów dotyczących numerów identyfikacyjnych sekwencji i różnicy między numerem GI i wersji jest dostarczonych w Sequence Identifiers: A Historical Note.

Entrez Search Field: użyj domyślnych ustawień "All Fields"


 

back to top

 

" Identyfikator GenInfo" jest to numer identyfikacyjny sekwencji, w tym przypadku, dla sekwencji nukleotydowej. Jeżeli sekwencja ulegnie zmianie w jakiś sposób, nowy numer GI będzie wyznaczony.

Oddzielny numer GI przyznawany jest również dla każdego białka translacyjnego w obrębie rekordu sekwencji nukleotydowej, podobnie nowy GI jest wyznaczony, jeżeli białko translacyjne ulegnie zmianie na jakiejś drodze (patrz poniżej).

Identyfikatory sekwencji GI są przydzielane równolegle do nowego systemu accession.version. Aby uzyskać więcej informacji, zobacz opis Version powyżej i sekcji 3.4.7 aktualnych GenBank release notes.

Dostępne narzedzie Sequence Revision History pozwala na śledzenie różnych numerów GI, numerów wersji i uaktualnionych dat dla sekwencji, znajdujących się w określonym rekordzie GenBank (więcej informacji i przykład).

Więcej szczegółów o numerach identyfikacyjnych sekwencji i różnic między numerem GI i wersją można znaleźć w  Sequence Identifiers: A Historical Note.

Entrez Search Field: użyj domyślnych ustawień "All Fields"

 

back to top

KEYWORDS (Słowa kluczowe);

Słowa lub zwroty opisujące sekwencję. Jeśli w danym wpisie nie zostały zawarte żadne keywords, pole zawiera jedynie kropkę.

Pole Keyword prezentowane jest w postaci następujących po sobie wpisów głównie ze względów historycznych, nie jest również oparte na ściśle określonym słownictwie. Keywords prezentowane są głównie w starszych zapisach. Nie są zawierane w nowszych rekordach dopóki: (1) nie są zbyteczne biorąc pod uwagę kwalifikatory, cechy lub jakiekolwiek inne informacje zawarte w rekordzie; (2) przedkładający wyraźnie prosi o ich umieszczenie  i #1 jest spełniony; lub (3) rekord zawiera specjalne typy zapisu takie jak: EST, STS, GSS, HTG, itp.

Entrez Search Field: Keyword [KYWD]
Search Tip: Ponieważ keywords w wielu rekordach nie są obecne, zaleca się nie przeszukiwać baz w oparciu o to pole. Zamiast tego używając pól All [ALL], Test Word [WORD], lub Title Word [TITL] dla odpowiednio dokładniejszych kryteriów wyszukiwania
.

 

back to top

SOURCE (Pochodzenie);

Informacja niezapisana w określonym formacie, zawierająca skróconą nazwę organizmu, z następującą po niej czasem informacją o rodzaju cząsteczki. (Zobacz sekcję 3.4.10 GenBank release notes dla dalszych informacji.)

Entrez Search Field: Organism [ORGN]
Search Tip: Dla niektórych organizmów z dobrze ugruntowanymi nazwami potocznymi, takimi jak drożdże piekarskie, mysz, czy człowiek, wyszukiwanie dla nazwy potocznej da te same wyniki wyszukiwania, jak użycie nazwy naukowej, np.: wpisanie „drożdże piekarskie” w pole organizm skutkuje wyświetleniem tej samej liczby dokumentów jak dla "Saccharomyces cerevisiae". Jest to możliwe, gdyż pole Organism połączone jest z NCBI Taxonomy Database, zawierającą powiązania między nazwami potocznymi, naukowymi oraz synonimami dla organizmów zawartych w bazach danych sekwencji.

 

back to top

Formalna nazwa naukowa dla organizmu źródłowego (gatunek i rodzaj, gdy jest to stosowne) i jego rodowód, oparty na schemacie klasyfikacji filogenetycznej używanej w NCBI Taxonomy Database. Jeśli kompletny rodowód organizmu jest bardzo długi, w rekordzie GenBank umieszczony zostanie rodowód skrócony, całkowity zaś dostępny będzie w taksonomicznej bazie danych. (Zobacz również /db_xref=taxon:nnnn kwalifikator poniżej.)

Entrez Search Field: Organism [ORGN]
Search Tip: Możesz przeszukiwać pole organizm przez dowolny poziom hierarchii taksonomicznej, np.: możesz użyć zwrotu "Saccharomyces cerevisiae", "Saccharomycetales", "Ascomycota", itd. by otrzymać wszystkie sekwencje organizmów z określonego taksonu.

back to top

REFERENCE (Odnośniki);

Publikacje autorów sekwencji, opisujących informacje zgłoszone do rekordu. Odnośniki są automatyczne porządkowane w obrębie rekordu w oparciu o datę wydania. Pierwsze pokazywane są odnośniki najstarsze.

Niektóre sekwencje nie zostały zgłoszone w formie pisemnej, co ukazywane jest poprzez nadanie statusu "unpublished"(niepublikowane) lub "in press"(w druku). W momencie wydrukowania numeru dostępu i/lub sekwencji, autorzy sekwencji powinni przysłać kompletne cytaty artykułu na update@ncbi.nlm.nih.gov a pracownicy GenBank dokonają korekty rekordu.

W polu References mogą być obecne liczne rodzaje publikacji, włączając artykuł prasowy, rozdział książki, książkę, tezę/monografię, rozdział opisujący metodę, sprawozdanie ze spotkania czy patent.

 Ostatni cytat w polu REFERENCE zwykle zawiera informację o autorze sekwencji, nie cytat prasowy. Jest to określane mianem "submitter block" (blok autorski) i pokazywane wyrazami "Direct Submission"(bezpośrednie przedłożenie) zamiast tytułu artykułu. Dodatkowa informacja dostarczona jest poniżej, pod nagłówkiem bezpośrednie przedłożenie. Niektóre starsze rekordy nie zawierają bloku autorskiego.

Entrez Search Field: Liczne pola kategorii References można wyszukiwać w polach Entrez wymienionych poniżej.

back to top

Lista autorów w kolejności, w której pojawiali się w cytowanym artykule.

Entrez Search Field: Author [AUTH]
Search Tip: Wpisz imiona autorów w postaci: Nazwisko AB (bez kropek po inicjałach). Inicjały mogą być pominięte. Można również użyć gwiazdki by uzyskać wszystkie nazwiska rozpoczynające się od ciągu liter, np.: Richards* or Boguski M*.

back to top

Tytuł opublikowanej pracy albo wstępny tytuł nieopublikowanej pracy.

Czasmi słowa  "Direct Submission" użyte są zamiast tytuł artykułu. Jest to zwykle prawdziwe dla ostatniego cytatu w polu REFERENCE ponieważ ma to na celu zawierać informacje o autorze, a nie o cytacie literackim. Dlatego też ostatni cytat nazywany jest  "blokiem autorskim". Dodatkową informacją znajdziesz poniżej Direct Submission. Niektóre  starsze rekordy nie zawierają bloku autorskiego.

Entrez Search Field: słowo tekstu [WORD]
Dla sekwencji rekordów, pole słowo tytułu [TITL] Entrez wyszukuje Definition Line, nie tytuły odniesień wymienione w rekordzie. Dlatego, użyj pola Słowa Tekstu, by wyszukać tytuły odniesień (i innych pól zawierających tekst).
Search Tip: Jeśli wyszukiwanie względem określonego terminu nie przyniesie oczekiwanych rezultatów, spróbuj innych terminów, które mogły zostać użyte przez autora, takich jak synonimy, pełne nazwy, czy skróty. Funkcja Entrez, "related records" (rekordy spokrewnione) (lub "neighbors”) pozwala ci na rozszerzenie wyszukiwania poprzez wyświetlanie rekordów z podobnymi sekwencjami, niezależnie od terminów użytych przez autorów.

back to top

Skrót MEDLINE nazwy czasopisma. (informacja o pełnej nazwie może być znaleziona w bazie danych artykułów Entrez.)

 

Entrez Search Field: Journal Name [JOUR]
Search Tip: Nazwy artykułów mogą być wyszukiwane pełną nazwą lub skrótem MEDLINE. Możesz przeszukiwać pole Journal Name w trybie indeksu by zobaczyć indeks dla tego pola i wybrać jedną lub więcej nazw czasopism włączonych do wyszukiwania.

 

back to top

PubMed Identifier (PMID).

Odnośniki zawierające ID PubMed posiadają w rekordzie sekwencji odnośniki do odpowiedniego rekordu PubMed. Rekordy PubMed zawierające numer(y) w polu SI (secondary source identifier) posiadają odnośniki do rekordu(ów) sekwencji.

Entrez Search Field: Nie jest możliwe przeszukiwanie baz danych sekwencji nukleotydowych lub białkowych poprzez PubMed ID. Jednakże możesz przeszukiwać bazę danych PubMed (literatury) Entrez przy pomocy PubMed ID a następnie wybrać odnośnik do odpowiednich rekordów sekwencji.

 

back to top

Dane kontaktowe autora, takie jak instytut/departament i kod pocztowy. Jest to zawsze ostatni cytat w polu References. Niektóre starsze rekordy nie zawierają odnośnika „Direct Submission”. W nowych rekordach jest to pole obowiązkowe.

Podpola Autors zawierają nazwisko(a) autora(ów), Title zawiera słowa „Direct Submission”, a Journal zawiera adres(y).

Data w podpolu Journal jest datą przygotowania wpisu. W wielu przypadkach jest to również data, w której pracownicy GenBank otrzymali sekwencję, nie jest to jednak data pojawienia się rekordu w bazie. Jeśli musisz poznać tę datę, wyślij wiadomość na info@ncbi.nlm.nih.gov. Sprawdzimy dla ciebie historię rekordu.

Entrez Search Field: Użyj pola Autor [AUTH], jeśli poszukujesz wg nazwiska autora. Użyj pola Wszystko [ALL], jeśli poszukujesz wg adresu autora (np.: Yale University). Otrzymane rekordy mogą zawierać nazwę instytucji w takich polach jak komentarz, nie zaś w Direct Submission reference, część otrzymanych wyników może być więc błędna.

Search Tip: Czasem pomocne jest wyszukiwanie zarówno dla pełnej pisowni jak i skróconej, np.: "Washington University" OR "WashU", ponieważ sposób zapisu jest zależny od autorów.

 

back to top

FEATURES

Informacja o genach i ich produktach, a także o regionach biologiczne aktywnych zawartych w sekwencji. Może to obejmować regiony kodujące białka i cząsteczki RNA, jak również liczne inne opisy. (Zobacz sekcję 3.4.12 GenBank release notes dla dalszych informacji).

Kompletna lista features dostępna jest w :

Podano również lokalizację każdego feature, może być to pojedyńcza zasada, zbiór następujących po sobie zasad, połączenie sekwencji, czy inne zestawienia.  Jeśli feature znajduje się na nici komplementarnej, przed zakresem zasad umieszczone będzie słowo "complement". Jeśli symbol "<" poprzedza zakres zasad, sekwencja jest niecałkowita na końcu 5’ (np.: CDS  <1..206).  Jeśli po zakresie zasad występuje symbol ">", sekwencja jest niecałkowita na końcu 3' (np.: CDS   435..915>).

Dla szerszych informacji o lokalizacji features zobacz Sequin Help Documentation i sekcję 3.4.12.2 GenBank release notes.

Pokazany tutaj przykładowy rekord zawiera jedynie ograniczoną liczbę cech (source, CDS, i gen, każdy z nich opisany poniżej). Sekcja Other Features poniżej dostarcza odnośniki do rekordów GenBank pokazujących różnorodność dodatkowych features.

Entrez Search Field: Feature Key [FKEY]
Search Tip: Aby przewijać listę dostępnych features, zaznacz pole Feature Key w Index mode. Możesz następnie wybrać jeden lub więcej features ze spisu by włączyć je do twojego zapytania. Dla przykładu, możesz ograniczyć swoje wyszukiwanie do rekordów zawierających zarówno opisy primer_bind i promoter
.

 

back to top

Obligatoryjny opis w danym rekordzie, podsumowujący długość sekwencji, nazwę naukową organizmu źródłowego i numer ID taksonu. Może również zawierać inne informacje takie jak lokalizacja na mapie, łańcuch, duplikat, typ tkanki, itd. Jeśli zostały one udostępnione przez autora.

Entrez Search Field: All fields [ALL] może być użyte do wyszukiwania niektórych elementów w polu źródłowym, takich jak łańcuch, duplikat, typ tkanki.

Użyj pola Sequence Length [SLEN] do wyszukiwania według długości i pola Organism [ORGN] do wyszukiwania według nazwy organizmu.

Ponieważ map location jest napisana jako wolny tekst i może być przedstawiona na wiele sposobów (np.: numer chromosomu, lokalizacja cytogenetyczna, nazwa markera, lokalizacja na mapie fizycznej), nie może ona być dokładnie odnaleziona w bazach danych Entrez Nucleotide or Protein. Jednakże istnieje wiele narzędzi, które umożliwią Ci przeglądanie i/lub wyszukiwanie map różnych genomów.

 

back to top

Taxon

Stały unikatowy numer identyfikacyjny taksonu organizmu źródłowego. ID numeru taksonomicznego przydzielane jest dla każdego taksonu (gatunek, rodzaj, rodzina, itp.) w bazie danych NCBI Taxonomy. Zobacz również pole Organism powyżej.

Entrez Search Field: Numer Taxonomy ID nie może być wyszukany w polu Organizm dla Entrez, ale może być wyszukany w wyszukiwarce Taxonomyr.

 /db_xref qualifier jest jednym z wielu, które mogą być dołączone do licznych opisów. Kompletna lista dostępna jest w Appendix IV: Summary of qualifiers for feature keys DDBJ/EMBL/GenBank Feature Table i w sekcji 3.4.12.3 GenBank release notes. Appendix III: Feature keys reference pokazuje które kwalifikatory mogą być użyte z określonymi opisami (zobacz spis alfabetyczny).

 

back to top

Sekwencja kodująca; region nukleotydów odpowiadający sekwencji aminokwasów w białku (lokacja zawiera również kodony start i stop). CDS zawiera tłumaczenie aminokwasowi. Autorzy mogą określić naturę CDS używając kwalifikatora "/evidence=experimental" lub "/evidence=not_experimental".

Autorzy zachęcani są również do zaopatrzenia rekordu w opis mRNA, zawierający nieulegający translacji region 5’ (5’UTR), sekwencje kodujące (CDS, egzony) i 3’ nieulegający translacji region (3’UTR).

Entrez Search Field: Feature Key [FKEY]
Search Tip: Możesz użyć tego pola do ograniczenia swojego wyszukiwania do rekordów zawierających określony opis, taki jak CDS. Aby przewinąć listę dostępnych opisów, przeglądaj okno Feature Key w trybie Indem. Kompletna lista opisów jest również dostępna w materiałach umieszczonych powyżej.

 

back to top

Zakres umieszczonej sekwencji, w tym przypadku zawierającym sekwencję kodującą. (CDS opisana jest powyżej, jej zakres obejmuje kodony START i STOP.) Sekwencje mogą być całkowite, niekompletne na końcu 5', niekompletne na końcu 3', i/lub znajdujące się na nici komplementarnej. Przykłady:

  1. całkowita sekwencja jest opisano jako n..m

    Przykład:    687..3158
    Opis sekwencji rozpoczyna się od zasady 687, kończy zasadą 3158.

 

  1. <     wskazuje niekompletność końca 5'

    Przykład:    <1..206
    Opis sekwencji rozpoczyna się od zasady 1, kończy zasadą 206, i jest niekompletny na końcu 5’.

 

  1. >     wskazuje niekompletność końca 3'

    Przykład:    4821..5028>
    Opis sekwencji rozpoczyna się od zasady 4821, kończy zasadą 5028, i jest niekompletny na końcu 3’.

 

  1. (complement)  wskazuje na to, że sekwencja znajduje się na nici komplementarnej

    Przykład:    complement(3300..4037)
    Opis sekwencji rozpoczyna się od zasady 3300, kończy zasadą 4037, ale znajduje się na nici komplementarnej. Sekwencja jest więc odczytywana w przeciwnym kierunku na sekwencji komplementarnej od tej opisanej. (na przykład, zobacz trzecią CDS w przykładowym rekordzie pokazanym na tej stronie. W tym przypadku, translacja jest generowana przez branie zasad komplementarnych zasadom 3300-4037 i odczytywania powstałej sekwencji komplementarnej w kierunku 5’ do 3’.)

 

back to top

protein_id

Numer identyfikacyjny sekwencji proteinowej, podobny do numeru Version sekwencji nukleotydowej. Białkowy ID zawiera trzy litery, pięć cyfr, kropkę i numer wersji. Jeśli do sekwencji zostaną wprowadzone jakieś zmiany (nawet dotyczące pojedynczego aminokwasu), numer wersji ulegnie zwiększeniu, natomiast część poprzedzająca pozostanie niezmienna (np.: AAA98665.1 zmieni się w AAA98665.2).

Format accession.version numerów identyfikacyjnych sekwencji białkowych został wprowadzony przez GenBank/EMBL/DDBJ w lutym 1999 i działa równolegle z systemem numerów GI. Więcej informacji o numerach identyfikacyjnych sekwencji i różnicach między numerem GI a wersją znaleźć można w Sequence Identifiers: A Historical Note.

Entrez Search Field: użyj domyślnych ustawień "All Fields"

 

back to top

GI

GenInfo Identifier" numer identyfikacyjny sekwencji, w tym przypadku dla sekwencji translacyjnej białka.

 

System GI działa równolegle z systemem accession.version, wprowadzonym przez GenBank, EMBL i DDBJ w lutym 1999. Jeśli sekwencja białkowa zmieni się w dowolny sposób, otrzyma nowy numer GI, a sufiks protein_id zostanie zwiększony o jeden.

 

W celu uzyskania dalszych informacji zobacz opis protein_id powyżej, sekcję 1.3.2 GenBank 111.0 release notes, i sekcję 3.4.7 aktualnego GenBank release notes.

Więcej informacji o numerach identyfikacyjnych sekwencji i różnicach między numerem GI a wersją znaleźć można w Sequence Identifiers: A Historical Note.

Entrez Search Field: użyj domyślnych ustawień "All Fields"

 

back to top

translation

Sekwencja aminokwasowa odpowiadająca nukleotydowym sekwencjom kodującym (CDS). W wielu przypadkach są to sekwencje domniemane. Autorzy mogą zaznaczyć, czy CDS opierają się na modelach doświadczalnych lub teoretycznych.

 

Entrez Search Field: Nie jest możliwym przeszukiwanie podpól translation przy użyciu Entrez. Jeśli chcesz użyć ciągu aminokwasów jako zapytania w celu otrzymania podobnych sekwencji białkowych, użyj BLAST.

 

back to top

Region interesujący biologicznie rozpoznany jako gen, któremu została przydzielona nazwa. Podstawowy przedział genu zależny jest od najdalszych opisów 5’ i 3’. Dodatkowe przykłady rekordów pokazujące związek między opisem genu, a innymi opisami, takimi jak mRNA i CDS, to AF165912 i AF090832.

 

Entrez Search Field: Feature Key [FKEY]
Search Tip: Możesz użyć tego pola do ograniczenia wyników do tych, które zawierają określony opis, np.: genu. Aby przewijać listę dostępnych opisów, przeglądaj pole Feature Key w trybie Indem. Kompletna lista features dostępna jest również w materiałach podanych powyżej.

 

back to top

complement

Informuje, że opisana sekwencja znajduje się na nici komplementarnej.

 

back to top

Przykłady innych rekordów pokazujących zróżnicowanie biologicznych opisów; dostępny jest w nich również graficzny format wizualnie przedstawiający dane sekwencje:

Kompletna lista features dostępna jest również w materiałach podanych powyżej.

 

back to top

ORIGIN

Pole ORIGIN może pozostać niewypełnione, opisane jako "Unreported” (niezgłoszone), lub może zawierać strzałkę do początku sekwencji, zwykle obejmując eksperymentalnie ustalone miejsca restrykcyjne lub locus genu (gdy jest to możliwe). Informacja ta jest prezentowana jedynie w starszych rekordach.

Sekwencja rozpoczyna się od linii znajdującej się bezpośrednio poniżej pola ORIGIN. Aby zobaczyć/zapisać jedynie sekwencję, wyświetl dany rekord w formacie FASTA. Opis formatu FASTA dostępny jest na stronach internetowych BLAST.

back to top


Help Desk

NCBI

NLM

NIH

Credits

Revised October 23, 2006
Questions about NCBI resources to  info@ncbi.nlm.nih.gov
Comments about site map to Renata Geer  renata@ncbi.nlm.nih.gov

Disclaimer      Privacy statement