Study/Paper Summary 54

[Article] 여러 척추 동물의 gut microbiota 분석 (Culturing)

정리 Fence lizards, house mice, chimpanzees, humans의 gut microbiotas를 culturing을 통해 알아본 연구. 일반적으로 분석하듯이 culture-independent sequencing이 아닌 culture를 통해 세균을 확인하였다는 점에서 의의가 있다. 하지만 네 종의 동물을 사용한 연구인데 vertebrate species라고 표현한 점은 좀 과장된 것 같았다. Reference Goldman, Samantha L., et al. "Culture‐enriched community profiling improves resolution of the vertebrate gut microbiota." Molecular ecology resources (20..

Study/Paper Summary 2021.07.08

[Article] Peryton | microbe와 disease 간의 연관성을 검색할 수 있는 데이터베이스

내용 구성 Peryton (https://dianalab.e-ce.uth.gr/peryton/)은 실험적으로 검증된 microbe-disease 관련성을 확인해볼 수 있는 데이터베이스이다. Microbe-relaed disease에 대한 1) 새로운 가설을 세우거나, 2) 발견에 대한 cross-validation에 이용할 수 있다. 유사한 데이터베이스에는 Disbiome (https://disbiome.ugent.be/home)과 gutMDisorder (http://bio-annotation.cn/gutMDisorder/)이 있다. Peryton이 위 데이터베이스보다 더 나은 점은 1) 질병군-정상군 비교 데이터 뿐 아니라 질병군-다른질병군 비교 데이터까지 다룸, 2) Visualization을 제공..

Study/Paper Summary 2021.06.28

[Perspective] Nucleic Acids Research (NAR) 저널 Database Issue의 기준

좋은 데이터베이스의 기준 Scientific quality (Usefulness to the community) General utility: 처음 사용자가 쉽게 쓸 수 있으면 좋다. Well curated: manually curated data가 많으면 더 좋다. Not covering narrow topics: 넓은 주제를 다루면 더 좋다. Maintained for a long time Not described elsewhere 참고 Data warehouses, portals, cross-platform search tools, visualization tools는 NAR database보다는 Bioinformatics, BMC Bioinformatics or Database: The Journ..

Study/Paper Summary 2021.06.16

[Perspective] 두 가지 통계적 분석 방법: "Data Modeling" VS "Algorithmic Modeling"

정리 데이터를 분석할 때의 목표는 두 가지가 있다: 1) 예측, 2) 정보 획득 이러한 목표를 이루기 위해 두 가지 접근을 시도할 수 있다: 1) Data modeling, 2) Algorithmic modeling. Data modeling은 데이터를 바탕으로 linear regression 등의 통계 모델을 생성하여 분석하는 방법이다. Algorithmic modeling은 통계 모델을 생성하지 않고, 머신러닝 방법을 사용하여 분석하는 방법이다. 일반적으로 통계학자들은 데이터를 보면 통계 모델부터 먼저 생성하려고 한다: 1) 익숙해서, 혹은 2) (통계 모델을 통한) "해석"을 위해 하지만 저자는 그러한 관점에서 벗어나여 데이터 분석의 목표("정보"를 얻는 것, 해석은 정보를 얻기위한 수단에 불과)를..

Study/Paper Summary 2021.06.02

[Resource] Human gut microbiome 내부 uncultured species의 정보 집합소 (Genome: UHGG, Protein: UHGP)

정리 UHGG (Unified Human Gastrointestinal Genome) collection: 4,644 종의 gut prokaryotes에서 유래한 204,938 genomes로 구성됨. 이 중 70% 이상은 culutred representatives가 없다. UHGP (Unified Human Gastrointestinal Protein) catalogue: 위의 genomes가 encoding하는 >170 M protein sequences로 구성됨. 이 중 40% 이상은 functional annotations가 없다. 여러가지 studies에서 human gut microbiome 데이터를 받아서 진행한 프로젝트. Isolate genomes, MAGs 차이점: Microbiome..

Study/Paper Summary 2021.05.31

[Article] SARS-CoV-2에 대한 굉장히 효율적인 진단 및 Genotyping을 위한 실험 방법

정리 Generalized version of the RNAmediated oligonucleotide Annealing Selection and Ligation with next generation DNA sequencing (RASL-seq) assay, called “capture RASL-seq” (cRASL-seq)에 대한 내용. 위 방법을 사용하면 기존의 방법보다 후러씬 간단하게 COVID-19 환자를 진단할 수 있다. 그리고 genotyping까지 가능하기 때문에 바이러스가 어떻게 퍼지는지 추론할 수도 있다. 이는 RNA를 capture할 때 cDNA로 바꿔준 후 capture하는 것이 아니라 RNA 상태에서 바로 capture하는 방법이다. 각 pathogen을 capture하기 위한 pr..

Study/Paper Summary 2021.05.17

[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향

내용 구성 Microbiome 데이터 분석 시 Measurement Error (Variance)가 존재한다 (Read 수가 달라지기 때문 등, 샘플을 얻을 때마다 계산되는 diversity 값이 달라질 수 있다). 하지만 현재 이러한 measurement error를 microbial diversity 연구에서 다루지 않는다. 또한 alpha diversity를 estimating하거나 comparing할 때 bias가 존재한다 Estimating (Sample richness, raw data): 일반적으로 사용되는 alpha diversity indices의 plug-in estimates는 true alpha diversity에 대해서 negatively biased되어 있다 (더 작은 값).

Study/Paper Summary 2021.05.14

[Article] Data normalization 방법으로 rarefying보다 SRS가 더 낫다?

내용 구성 마이크로바이옴 분석 시 몇몇 통계 기법이나 diversity index 계산은 sample size를 고려하지 않는다. 그래서 data normalization을 통해 sample size를 맞추는 것이 중요하다. Normalization에 유명한 방법으로는 내가 원하는 sample size가 될 때까지 replacement 없이 random하게 뽑는 rarefying이 있다. 하지만 이 논문에서는 그보다 scaling with ranked subsampling (SRS)가 있다고 주장한다. SRS는 rarefying보다 정확도(preservation of the original community structure)와 재현성(reproducibility of data normalization)..

Study/Paper Summary 2021.05.07

[Article] Resampling methods를 활용한 prediction assessment

정리 보통 데이터 사이즈가 크면 split sample, 데이터 사이즈가 작으면 10-fold cross validation을 사용한다. 이 논문을 통해 classifier를 만든다면 prediction assesssment에 왜 10-fold cross validation이 주로 사용되는지 알 수 있다 (추후 인용도 가능) Classifier: '데이터-라벨'의 쌍으로부터 생성 가능. 추후 새로운 데이터가 들어왔을 때 어떤 라벨일지 알아맞추는 것 Classifier 생성에는 크게 3가지 단계가 존재: 1) feature selection, 2) model selection, 3) prediction assessment. Feature selection은 어떤 유전자(feature)를 prediction..

Study/Paper Summary 2021.05.05

[Article] UNOISE 논문 (알고리즘, 특징)

내용 구성 Illumina denoisers는 두 단계로 구성됨. 1) Denoising, 2) Filtering of chimeric amplicons. Denoising은 high-abundance sequence와 유사한 low-abundance sequence는 error일 것이라는 전제를 바탕으로 한다. 이때 correct sequence와 error를 구분하는 threshold를 정하는 것이 주요 challenge이다. 여러 방법을 같이 쓰는 것이 하나만 쓰는 것보다 낫다고 이야기함. 알고리즘: Reads를 abundance를 기준으로 정렬함. Abundance가 높은 read를 centroid sequence로 잡고, 다른 read들과 abundance를 비교하여 그 비율이 특정 thresh..

Study/Paper Summary 2021.02.17
728x90
반응형