Bioinformatics/etc.

[생물정보학] 생물정보학에서 주로 사용되는 파일 형식 (File format)

2021. 6. 13. 19:30

FASTA/FASTQ

FASTA는 sequence에 대한 정보를 담는 파일의 형식으로, header부분과 sequence부분으로 나뉜다.

FASTA는 sequence의 종류에 따라 몇 가지 서로 다른 형식을 가질 수 있다.

https://en.wikipedia.org/wiki/FASTA_format

 
FASTQ는 FASTA+Quality로서 FASTA 파일의 정보 (header+sequence)와 함께 quality 정보를 함께 담는 파일의 형식이다.

https://en.wikipedia.org/wiki/FASTQ_format
  1. Line 1: Header
  2. Line 2: Sequence
  3. Line 3: '+' character
  4. Line 4: Quality values (Phred score) with ASCII characters

 

SAM/BAM/CRAM

Sequence Alignment Map (SAM)은 alignment 정보를 담는 파일의 형식 (각각의 read가 reference의 어디에 align되는지, quality scores는 얼마인지)이고, Binary Alignment Map (BAM)은 SAM 파일의 압축 버전이다. 
 Compressed Reference-oriented Alignment Map (CRAM)은 reference와 저장하려는 sequence 간의 차이만을 저장하는 방식 등으로 BAM보다 30-60% 더 적은 용량을 차지한다 [1-2].

VCF/BCF

Variant Call Format (VCF)은 structural variants의 정보를 담는 파일의 형식 (summarizes single-nucleotide variants and indels, SNP를 구할 때 사용 가능)이고, Binary Variant Call Format (BCF)은 VCF 파일의 압축 버전이다. 
 

GFF/GTF

General Feature Format (GFF)와 Gene Transfer Format (GTF)은 각각 genome, gene의 annotation 정보를 담은 파일이다. TAB으로 각각의 정보들이 구분되는데, 아래와 같은 정보를 포함한다.

  1. Seqquence name: chromosome 1, 2, 3, … 중 어느 chromosome인지
  2. Source: program name, or experiment name 등
  3. Feature: gene, transcript, CDS 등 중 무엇인지
  4. Start position
  5. End position
  6. Score: evident 정도, 생략하고 온점만 찍을 수 있다.
  7. Strand: + (forward), - (backward)
  8. Frame: 0, 1, 2 중 하나
  9. Attribute: 나머지 정보를 모두 모아놓은 것. Unstructured data. 굉장히 다루기 힘들다
https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/genes/hg38.ensGene.gtf.gz

 

BED

Browser Extensible Data (BED)는 어느 Chromosome의 어느 위치에 CpG island가 있는지 표시하는 파일의 형식으로, GFF/GTF보다 더 간단하다.

 

Coordinate systems

BED0-based, half-open
GFF1-based, closed
SAM1-based, closed
BAM0-based, half-open
VCF1-based, closed

Reference

1. https://www.htslib.org/workflow/cram.html#:~:text=CRAM%20is%20primarily%20a%20reference,be%20available%20at%20all%20times.
2. https://en.m.wikipedia.org/wiki/CRAM_(file_format)#:~:text=CRAM%20files%20typically%20vary%20from,htslib%2C%20JBrowse%2C%20and%20Scramble.

728x90
반응형