Bioinformatics/etc. 10

[FastQC] High throughput sequencing data의 quality 검정

Sequencing data를 얻었을 때 해당 데이터의 quality가 얼마나 좋은지 확인을 해볼 필요가 있다. 이때 가장 일반적으로 사용되는 프로그램 중 하나가 FastQC이다. 1. FastQC 설치 먼저 아래 페이지에 들어가서 FastQC v0.11.9 (Win/Linux zip file)를 다운로드 받고, 압축을 풀어준 이후, 프로그램 폴더를 PATH에 등록해준다 (Java가 없다면 설치를 해줘야 한다 [1]). https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc Babraham Bioinformatics - Public Projects Download Download Babraham Bioinformatics Proje..

Bioinformatics/etc. 2023.02.04

[생물정보학] Sequencing의 종류

Sequencing의 종류 Whole genome sequencing (WGS): Genome에 존재하는 variants (Single nucleotide variant, insertion, deletion/ Copy number variation)를 확인 가능 [3]. Re-sequencing: 이미 서열이 알려진 genome을 다시 sequencing [1]. De novo sequencing: 서열이 알려지지 않은 genome을 처음 sequencing [1]. Whole exome sequencing (WES): Coding region에 존재하는 variants를 확인 가능. WGS보다 저렴 [3]. Target-sequencing (Panel sequencing): 특정 유전자에 존재하는 va..

Bioinformatics/etc. 2021.10.04

[용어 설명] Sequence masking이란? | Soft masking & Hard masking

Sequence masking이란 low-complexity sequence를 찾아서 이를 따로 표시하거나 제거하는 과정이다. 이때 low-complexity sequence란 1-2개의 글자가 반복되는 sequence를 말한다 (예를 들어, AAAAATAACAATAAA). 이런 low-complexity sequence는 searching이나 clustering 과정에서 문제가 될 수 있다. 그래서 masking 과정을 거치는 것이 추천된다. 이때 soft masking과 hard masking이 구분되는데, 전자는 low-complexity sequence를 소문자로 표시하는 방식이다 (예를 들어, AAAATAA를 aaaataa로). 한편, 후자는 wildcard 글자로 아예 대체해버리는 방식으로, ..

Bioinformatics/etc. 2021.10.02

NGS의 구분: Single-end, Paired-end, CCS

Next generation sequencing (NGS)는 크게 Single-end sequencing, Paired-end sequencing, Circular consensus sequencing (CCS)로 구분할 수 있다. Single-end sequencing (Roche 454, Ion Torrents): DNA fragment의 한쪽 끝만 sequencing한다. Paired-end sequencing (Illumina): DNA fragment의 양쪽 끝을 sequencing한다. 이때 각 paried read 사이의 거리를 알고 있기 때문에 repetitive regions에 대하여 더 정확하게 alignment를 할 수 있다 (1). 한편, 아래 그림의 경우에는 read가 겹치는 ov..

Bioinformatics/etc. 2021.08.12

[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이

Single-nucleotide polymorphism (SNP)는 "germline substitution of a single nucleotide at a specific position in the genome."라고 정의되어 있다 (1). 즉, 어떤 집단에서 특정 single nucleotide가 굉장히 적은 비율로 유전된다면 이를 SNP라고 한다. 예를 들어, 한국인의 유전자 A가 일반적으로 "ATACTGTGCA"로 되어있는데, 그 중 굉장히 적은 비율의 사람에서 유전자 A가 "ATACTATGCA"라면, 하나의 SNP가 있다고 말할 수 있다. 비율은 일반적으로 1% 이상을 사용한다고 한다 (너무 적은 비율의 경우는 SNP라고 하지 않고, SNV라고 한다). Single-nucleotide var..

Bioinformatics/etc. 2021.08.02

[illumina] Sequence library의 구성 (primer, index, oligo)

Sequencing에서 가장 먼저 해야하는 일은 DNA나 RNA로부터 library를 제작하는 일이다. 마이크로바이옴 분야에서 amplicon sequencing library가 어떻게 제작되고 구성은 어떤지 확인하였다. overhang adapter sequence(non-biological sequence)와 locus‐specific sequence(biological sequence, 341F/805R 등)가 연결된 primer를 PCR에 사용하여 원하는 부위를 증폭(amplification)하고 library를 만든다 (3). 제작된 Dual-indexed library의 구성은 다음과 같다 (1). Rd1 SP, Rd2 SP: Sequencing을 위한 sequencing primers의 bi..

Bioinformatics/etc. 2021.07.30

[용어 설명] Multiomics (다중체학)의 개념: Genomics, Transcriptomics, Proteomics, Metabolomics

먼저 -omics란 -ome에 대해 연구하는 학문이다. 여기에서 -ome은 특정 집합체를 의미한다 [1]. Genome을 연구하는 genomics Transcriptome을 연구하는 trancscriptomics Proteome을 연구하는 proteomics Metabolome을 연구하는 metabolomics Metagenome을 연구하는 metagenomics Epigenome을 연구하는 epigenomics 이때 Multiomics란 2개 이상의 -ome을 종합적으로 연구하는 학문을 말한다. 다양한 -ome 간의 상호작용을 연구하여 새로운 정보를 얻을 수 있다는 장점이 있다 [2]. 그 중에서 세포 내 유전적 정보의 흐름에 따라 genomics, transcriptomics, proteomics, ..

Bioinformatics/etc. 2021.07.01

[생물정보학] 생물정보학에서 주로 사용되는 파일 형식 (File format)

FASTA/FASTQFASTA는 sequence에 대한 정보를 담는 파일의 형식으로, header부분과 sequence부분으로 나뉜다.FASTA는 sequence의 종류에 따라 몇 가지 서로 다른 형식을 가질 수 있다. FASTQ는 FASTA+Quality로서 FASTA 파일의 정보 (header+sequence)와 함께 quality 정보를 함께 담는 파일의 형식이다.Line 1: HeaderLine 2: SequenceLine 3: '+' characterLine 4: Quality values (Phred score) with ASCII characters SAM/BAM/CRAMSequence Alignment Map (SAM)은 alignment 정보를 담는 파일의 형식 (각각의 read가 ref..

Bioinformatics/etc. 2021.06.13

[Phred Score] PHRED 33 encoded와 PHRED 64 encoded quality scores의 차이

QIIME에서 FASTQ 파일을 import할 때 Phred score가 33 encoded인지 64 encoded인지에 대한 구분이 필요하다. Phred or Q score는base의 quality score를 나타내는 것으로, base가가 잘못되었을 에러 확률을 나타낸다. P가 error probability일 때 Q와의 관계는 다음과 같다. Q=-10logP Q score는 ASCII character로 나타내는데, ASCII character와 실제 Q score 변환 관계는 아래 링크에서 찾아볼 수 있다. Quality (Phred) scores Quality (Phred) scores See also FASTQ files Average Q is a bad idea! Expected errors..

Bioinformatics/etc. 2021.03.05

[생물정보학] 특정 작업 별 사용 가능한 프로그램 목록

Sequence Analysis Sequence quality control BBDuk (BBTools): Trimming and quality filtering. Assembly SPAdes $ spades.py -1 read_1.fastq.gz -2 read_2.fastq.gz -o ./assembled --only-assembler MEGAHIT Coverage calculation BBMap: final assembly에 reads를 mapping하여 depth of coverage를 계산. SNP calling MUMMER # Align two genomes with MUMMER. mummer reference.fasta assembled/scaffolds.fasta > result/aligne..

Bioinformatics/etc. 2021.02.15
728x90
반응형