분류 전체보기 231

[Resource] Human gut microbiome 내부 uncultured species의 정보 집합소 (Genome: UHGG, Protein: UHGP)

정리 UHGG (Unified Human Gastrointestinal Genome) collection: 4,644 종의 gut prokaryotes에서 유래한 204,938 genomes로 구성됨. 이 중 70% 이상은 culutred representatives가 없다. UHGP (Unified Human Gastrointestinal Protein) catalogue: 위의 genomes가 encoding하는 >170 M protein sequences로 구성됨. 이 중 40% 이상은 functional annotations가 없다. 여러가지 studies에서 human gut microbiome 데이터를 받아서 진행한 프로젝트. Isolate genomes, MAGs 차이점: Microbiome..

Study/Paper Summary 2021.05.31

[통계 기초] Bayesian Inference (베이즈 추론)

Bayesian Inference 먼저 확률에 대한 두 가지 학파가 존재한다: Frequentist VS Bayesian Frequentist는 확률을 빈도로 생각하며 (동전을 무한히 던졌을 때 앞면이 나올 frequency가 1/2), parameter에 대한 probability statements를 할 수 없다 (내가 평균 키보다 높을 확률은 30% 정도 되는 것 같아 X). 반면 Bayesian은 확률을 믿음의 정도(degree of belief)라고 생각하며, parameter에 대한 probability statements를 할 수 있다 (내가 평균 키보다 높을 확률은 30% 정도 되는 것 같아 O). 따라서 어느 정도 주관적이라고 할 수 있으며, 사람 뇌가 동작하는 방식과 유사하여 머신러닝에..

Statistics 2021.05.25

[통계 기초] ANOVA (분산 분석)

Analysis of variance (ANOVA)는 3개 이상의 그룹에서 평균의 차이가 있는지 알아볼 때 사용할 수 있는 방법이다 (2개 그룹에서는 t-test를 사용한다). 이때 ANOVA에서는 모집단이 정규분포를 따르며, 분산이 동일하다는 것을 전제한다 (따라서 등분산 여부를 Bartlett's test를 통해 먼저 검정해 볼 수 있다: H0를 기각할 수 없다면 ANOVA를 적용 가능). ANOVA에서의 null hypothesis는 "모든 그룹의 평균이 동일하다"이기 때문에 null hypothesis를 기각하더라도 정확히 어떤 그룹 간의 평균이 다른지는 알 수 없다. 따라서 이를 알기 위해서는 사후 검정 (post hoc analysis)를 진행해야 한다. 이는 그룹 쌍을 하나씩 비교하여 평균이..

Statistics 2021.05.23

[Google Shell] 무료로 이용 가능한 Google Cloud Shell

Windows 사용자도 Google cloud shell을 통해 shell을 써볼 수 있다. 로그인 - Google 계정 하나의 계정으로 모든 Google 서비스를 Google 계정으로 로그인 accounts.google.com 구글 계정만 있으면 무료로 사용이 가능하다. 위에서 [무료로 시작하기]를 누르면 신용카드 정보를 요구하는 창이 나오는데, 그 대신 [Console로 이동]을 누르면 그런 정보를 입력할 필요 없이 바로 사용이 가능하다. 터미널은 오른쪽 상단에 터미널 열기 버튼을 누르면 열 수 있다. 다음의 + 버튼을 눌러서 새로운 shell editor를 열 수 있다 (여러 개의 shell editor를 한번에 사용 가능) 단점 위 서비스는 무료인 만큼 몇가지 단점이 존재한다. 장치에 접속하는 데..

Study/Resource 2021.05.17

[Linux 관련 개념] Shell (Command interpreter)

Shell의 역할 먼저 Shell의 역할을 정리하기 위해 다음의 그림을 참고할 수 있다. 먼저 Teminal이란 operating system (OS, 하드웨어 및 소프트웨어를 관리하는 관리자 프로그램)에 text-based access를 제공하는 프로그램이다 (참조). 사용자가 terminal에서 commands를 입력하면, shell이 이를 해석하여 kernel로 이 정보를 전달한다. 즉, Shell은 명령어를 해석하는 프로그램이라고 생각하면 된다. Kernel은 해석된 정보를 바탕으로 하드웨어를 통해 명령을 수행하고 수행된 결과를 다시 사용자 방향으로 전송한다 (OS의 핵심적 역할 수행). Shell은 이를 해석하여 사용자에게 보여준다 (참조). Shell의 종류 Shell은 한 종류의 shell만..

[Article] SARS-CoV-2에 대한 굉장히 효율적인 진단 및 Genotyping을 위한 실험 방법

정리 Generalized version of the RNAmediated oligonucleotide Annealing Selection and Ligation with next generation DNA sequencing (RASL-seq) assay, called “capture RASL-seq” (cRASL-seq)에 대한 내용. 위 방법을 사용하면 기존의 방법보다 후러씬 간단하게 COVID-19 환자를 진단할 수 있다. 그리고 genotyping까지 가능하기 때문에 바이러스가 어떻게 퍼지는지 추론할 수도 있다. 이는 RNA를 capture할 때 cDNA로 바꿔준 후 capture하는 것이 아니라 RNA 상태에서 바로 capture하는 방법이다. 각 pathogen을 capture하기 위한 pr..

Study/Paper Summary 2021.05.17

[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향

내용 구성 Microbiome 데이터 분석 시 Measurement Error (Variance)가 존재한다 (Read 수가 달라지기 때문 등, 샘플을 얻을 때마다 계산되는 diversity 값이 달라질 수 있다). 하지만 현재 이러한 measurement error를 microbial diversity 연구에서 다루지 않는다. 또한 alpha diversity를 estimating하거나 comparing할 때 bias가 존재한다 Estimating (Sample richness, raw data): 일반적으로 사용되는 alpha diversity indices의 plug-in estimates는 true alpha diversity에 대해서 negatively biased되어 있다 (더 작은 값).

Study/Paper Summary 2021.05.14

[통계 기초] Permutation test

Permutation test란? 데이터가 주어졌을 때 이로부터 생성한 estimator의 분산이 얼마인지, confidence interval은 어떻게 되는지를 볼 때 resampling approach 중 하나인 bootstrap을 이용할 수 있다. 하지만 test를 위한 목적으로는 bootstrap이 아니라 다른 resampling approach인 permutation test를 사용할 수 있다. 이는 샘플 사이즈가 작은 두 그룹(X, Y)이 있을 때 서로 분포가 같은지, 다른지를 판단 (두 그룹의 평균이 다른지 등)할 때 사용하는 non-parametric approach이다. Permutation test의 과정 먼저 X그룹과 Y그룹 각각의 평균을 구한 후 그 차이(절대값)를 계산하여 test..

Statistics 2021.05.13

[Prodigal] 원핵생물의 유전자 예측 프로그램 (Prokaryotic Gene prediction)

Genome sequence 파일이 있을 때 이로부터 CDS file (coding sequence, gene)을 얻고 싶다면 Prodigal을 사용할 수 있다. 주의해야할 점은 Prodigal은 원핵생물에 한정해서 디자인된 프로그램이므로 진핵생물에 대해서는 다른 프로그램을 사용해야한다. Prodigal은 다음 페이지에서 다운 가능하다. https://github.com/hyattpd/Prodigal hyattpd/Prodigal Prodigal Gene Prediction Software. Contribute to hyattpd/Prodigal development by creating an account on GitHub. github.com 자세한 설치방법은 다음 페이지를 참고할 수 있다. http..

728x90
반응형