FASTA-Format
Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung der Primärstruktur von Nukleinsäuren (Nukleinsäuresequenz) und Proteinen (Proteinsequenz) in der Bioinformatik. Die Nukleinbasen bzw. Aminosäuren werden durch einen Ein-Buchstaben-Code dargestellt. Es ist dabei möglich, den Sequenzen einen Namen und Kommentare voranzustellen.
Die Einfachheit des Formats macht es Textverarbeitungswerkzeugen und Skriptsprachen leicht, die Daten einzulesen und zu verarbeiten.
Format
[Bearbeiten | Quelltext bearbeiten]Eine Sequenz im FASTA-Format beginnt mit einer einzeiligen Beschreibung, dann folgen die Sequenzdaten. Es wird empfohlen, dass jede Zeile der Datei maximal 80 Zeichen enthalten soll. Eine Sequenz endet mit dem Ende der Datei oder einer weiteren Kopfzeile.
Es folgt ein einfaches Beispiel einer Proteinsequenz im FASTA-Format vom Cytochrom b des Asiatischen Elefanten:[1]
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
Kopfzeile
[Bearbeiten | Quelltext bearbeiten]Die Kopfzeile (engl. Headerline) ist die Zeile, die einen (eindeutigen) Namen sowie eine Beschreibung der jeweiligen Sequenz beinhaltet. Sie steht den Sequenzdaten voran und beginnt mit einem Größer-Als-Zeichen („>“). Ohne Leerzeichen folgt daraufhin der Name und/oder eine ID der Sequenz. Viele Sequenzdatenbanken benutzen standardisierte Kopfzeilen, welche es erlauben, automatisch verschiedene Informationen aus der Kopfzeile zu beziehen. Die Kopfzeile kann auch mehrere IDs enthalten, welche dann durch ein ^A (Control-A) Zeichen separiert werden. Die Kopfzeile in dieser Form ist optional. Wichtig ist, dass mehrere Sequenzen in einer FASTA-Datei durch ein „> + Beschreibung“ voneinander getrennt werden.
Kommentare
[Bearbeiten | Quelltext bearbeiten]Nach der Kopfzeile folgen optional eine oder mehrere Kommentarzeilen, welche jeweils mit einem Semikolon („;“) beginnen. Auch das Semikolon muss das erste Zeichen in der jeweiligen Zeile sein. Viele Datenbanken und Anwendungsprogramme erkennen die Kommentare nicht, daher finden sich diese Kommentare praktisch in keiner aktuellen Sequenzdatenbank. Sie sind jedoch Teil des offiziellen Formates. Ein Beispiel einer FASTA-Datei mit mehreren Sequenzen sowie Kommentarzeilen:
>Sequenz 1 ;Kommentarzeile A MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGEVAAQL >Sequenz 2 ;Kommentarzeile B ;Kommentarzeile C SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Sequenzdarstellung
[Bearbeiten | Quelltext bearbeiten]Nach Kopfzeile und Kommentar folgen eine oder mehrere Zeilen, die die Sequenz enthalten. Jede Zeile sollte nicht mehr als 80 Zeichen beinhalten. Sequenzen können Protein- oder Nukleinsäuresequenzen sein, dürfen Lücken und Alinierungszeichen enthalten. Die Sequenzen sollten gemäß den IUB/IUPAC-Standardcodes für Aminosäuren und Nukleinsäuren angegeben werden. Erlaubte Ausnahmen sind hierbei:
- Kleinbuchstaben sind zulässig, werden aber in Großbuchstaben umgewandelt
- Ein Binde- oder Gedankenstrich stellt eine Lücke dar
- In Aminosäuresequenzen stellen „U“ und „*“ zulässige Zeichen dar. (Siehe unten)
- Nukleotidsequenzen werden in 5' nach 3' Richtung dargestellt.
Numerische Zeichen sind nicht erlaubt, werden jedoch in einigen Datenbanken verwendet, um die Position der Sequenz anzuzeigen.
Code | Bedeutung |
---|---|
A | Adenin |
C | Cytosin |
G | Guanin |
T | Thymin |
U | Uracil |
R | G A (PuRine) |
Y | T C (PYrimidine) |
K | G T (Ketone) |
M | A C (AMinogruppen) |
S | G C (Starke Wechselwirkung) |
W | A T (Weiche Wechselwirkung) |
B | G T C (nicht A) (B kommt nach A) |
D | G A T (nicht C) (D kommt nach C) |
H | A C T (nicht G) (H kommt nach G) |
V | G C A (nicht T, nicht U) (V kommt nach U) |
N | A G C T (aNy) |
- | Lücke unbestimmter Länge |
Code | Bedeutung |
---|---|
A | Alanin |
B | Asparaginsäure or Asparagin |
C | Cystein |
D | Aspartat |
E | Glutamat |
F | Phenylalanin |
G | Glycin |
H | Histidin |
I | Isoleucin |
K | Lysin |
L | Leucin |
M | Methionin |
N | Asparagin |
P | Prolin |
Q | Glutamin |
R | Arginin |
S | Serin |
T | Threonin |
U | Selenocystein |
V | Valin |
W | Tryptophan |
Y | Tyrosin |
Z | Glutamat oder Glutamin |
X | jede Aminosäure |
* | Stop der Translation |
- | Lücke unbestimmter Länge |
Dateierweiterung
[Bearbeiten | Quelltext bearbeiten]Es gibt keine Standard-Dateierweiterung für eine Textdatei im FASTA-Format. Jedoch werden folgende Erweiterungen häufig verwendet: .fa, .mpfa, .fna, .fsa oder .fasta.
Sequenz-IDs
[Bearbeiten | Quelltext bearbeiten]Das National Center for Biotechnology Information hat einen Standard für eine ID definiert, die für Sequenzen verwendet werden. Diese „SeqID“ wird in der Kopfzeile verwendet. Die Hilfeseite der formatdb gibt folgendes an: „formatdb will automatically parse the SeqID and create indexes, but the database identifiers in the FASTA definition line must follow the conventions of the FASTA Defline Format.“
Dies ist jedoch keine endgültige Definition für das Kopfzeilen-Format. Verschiedene Möglichkeiten sind nachfolgend dargestellt:
GenBank | gi|gi-number|gb|accession|locus
|
EMBL Data Library | gi|gi-number|emb|accession|locus
|
DDBJ, DNA Database of Japan | gi|gi-number|dbj|accession|locus
|
NBRF PIR | pir||entry
|
Protein Research Foundation | prf||name
|
SWISS-PROT | sp|accession|name
|
TrEMBL | tr|accession|name
|
Brookhaven Protein Data Bank (1) | pdb|entry|chain
|
Brookhaven Protein Data Bank (2) | entry:chain|PDBID|CHAIN|SEQUENCE
|
Patents | pat|country|number
|
GenInfo Backbone Id | bbs|number
|
General database identifier | gnl|database|identifier
|
NCBI Reference Sequence | ref|accession|locus
|
Local Sequence identifier | lcl|identifier
|
Die vertikalen Striche sind keine Separatoren gemäß der Backus-Naur-Form, sondern Teil des Formats.
Siehe auch
[Bearbeiten | Quelltext bearbeiten]Weblinks
[Bearbeiten | Quelltext bearbeiten]- Sequenzformate
- Beschreibung des FASTA-Formats des NCBIs (englisch)
- LFasta (englisch)
- Nexus to Fasta converter (englisch)
- GenBank to Fasta conventer (englisch)
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ FASTA-Darstellung des Cytochrome b eines Asiatischen Elefanten auf ncbi.nlm.nih.gov, abgerufen am 21. August 2018