FASTA/FASTQ
FASTA는 sequence에 대한 정보를 담는 파일의 형식으로, header부분과 sequence부분으로 나뉜다.
FASTA는 sequence의 종류에 따라 몇 가지 서로 다른 형식을 가질 수 있다.
FASTQ는 FASTA+Quality로서 FASTA 파일의 정보 (header+sequence)와 함께 quality 정보를 함께 담는 파일의 형식이다.
- Line 1: Header
- Line 2: Sequence
- Line 3: '+' character
- Line 4: Quality values (Phred score) with ASCII characters
SAM/BAM/CRAM
Sequence Alignment Map (SAM)은 alignment 정보를 담는 파일의 형식 (각각의 read가 reference의 어디에 align되는지, quality scores는 얼마인지)이고, Binary Alignment Map (BAM)은 SAM 파일의 압축 버전이다.
Compressed Reference-oriented Alignment Map (CRAM)은 reference와 저장하려는 sequence 간의 차이만을 저장하는 방식 등으로 BAM보다 30-60% 더 적은 용량을 차지한다 [1-2].
VCF/BCF
Variant Call Format (VCF)은 structural variants의 정보를 담는 파일의 형식 (summarizes single-nucleotide variants and indels, SNP를 구할 때 사용 가능)이고, Binary Variant Call Format (BCF)은 VCF 파일의 압축 버전이다.
GFF/GTF
General Feature Format (GFF)와 Gene Transfer Format (GTF)은 각각 genome, gene의 annotation 정보를 담은 파일이다. TAB으로 각각의 정보들이 구분되는데, 아래와 같은 정보를 포함한다.
- Seqquence name: chromosome 1, 2, 3, … 중 어느 chromosome인지
- Source: program name, or experiment name 등
- Feature: gene, transcript, CDS 등 중 무엇인지
- Start position
- End position
- Score: evident 정도, 생략하고 온점만 찍을 수 있다.
- Strand: + (forward), - (backward)
- Frame: 0, 1, 2 중 하나
- Attribute: 나머지 정보를 모두 모아놓은 것. Unstructured data. 굉장히 다루기 힘들다
BED
Browser Extensible Data (BED)는 어느 Chromosome의 어느 위치에 CpG island가 있는지 표시하는 파일의 형식으로, GFF/GTF보다 더 간단하다.
Coordinate systems
BED | 0-based, half-open |
GFF | 1-based, closed |
SAM | 1-based, closed |
BAM | 0-based, half-open |
VCF | 1-based, closed |
Reference
1. https://www.htslib.org/workflow/cram.html#:~:text=CRAM%20is%20primarily%20a%20reference,be%20available%20at%20all%20times.
2. https://en.m.wikipedia.org/wiki/CRAM_(file_format)#:~:text=CRAM%20files%20typically%20vary%20from,htslib%2C%20JBrowse%2C%20and%20Scramble.
'Bioinformatics > etc.' 카테고리의 다른 글
[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이 (0) | 2021.08.02 |
---|---|
[illumina] Sequence library의 구성 (primer, index, oligo) (0) | 2021.07.30 |
[용어 설명] Multiomics (다중체학)의 개념: Genomics, Transcriptomics, Proteomics, Metabolomics (0) | 2021.07.01 |
[Phred Score] PHRED 33 encoded와 PHRED 64 encoded quality scores의 차이 (0) | 2021.03.05 |
[생물정보학] 특정 작업 별 사용 가능한 프로그램 목록 (2) | 2021.02.15 |