분류 전체보기 231

[통계 기초] 헷갈리는 용어 정리: 확률, 확률 변수, 확률 함수

용어 정리 1. Sample space, Event, Outcome 확률에 대해 이해하기 전에 위 세 가지 개념을 먼저 이해하면 좋다. Sample space는 모든 가능한 outcome의 집합이며, Event는 sample space의 subset이고, Outcome은 sample space의 element이다. 예를 들어, 동전을 두 번 던진다고 할 때, sample space={HH, HT, TH, TT}가 되고, 첫 번째 동전이 앞면일 사건 A (event)는 {HH, HT}이며, HH와 HT 각각이 outcome이라고 이해하면 쉽다. 2. 확률 (Probability distribution, Probability measure) 확률은 data generation process를 설명하는 언어이..

Statistics 2021.04.14

[용어] Similarity와 Identity의 차이

Sequence similarity와 sequence identity는 서로 다르다. 그 차이를 아래 URL에서 잘 설명하고 있는데 이를 요약하면 다음과 같다. Identity: 일치하는 character count를 바탕으로 계산 (공통점에 집중). [일치하는 character 수]/[짧은 쪽 길이] Similarity: Edit distance를 바탕으로 계산 (차이점에 집중). 1-([edit distance]/[짧은 쪽 길이]) 예를 들어, 아래의 sequence set이 있을 때, CGCATCA CGCAT CGCATAA Identity와 simiarity 값은 아래 표와 같다. Between Identity (%) Similarity (%) 1 X 2 100.0 (5/5) 60.0 (1-2/5)..

[Jupyter] Jupyter에 관한 소소하지만 유용할 수 있는 정보

1. 실행을 기다리는 cell을 수정한 후, 다시 실행 예약을 시키면 수정한 대로 바로 돌아갈까? 예를 들면, 아래와 같은 상황이다. 첫 번째 cell이 실행되는 중에 두 번째 cell의 내용을 아래와 같이 수정하고, 다시 [CTRL]+[ENTER]로 실행 예약을 시키면 두 번째 cell에서 Hello Blog가 출력될까? . . . 잘 출력된다! 그런데 두 번째 cell의 Hello가 출력되기까지 5초 정도가 걸렸다. 즉, 내 생각에는 이전에 예약해두었던 작업이 다 돌아가고 (출력은 없이), 새로운 작업이 시작되는 것 같다. 그래서 정말 오래 걸리는 작업을 예약했다가 수정해야하는 상황이라면 kernel session을 shut down한 후에 다시 예약을 걸어두는 것이 시간을 절약하는 방법이 될 수 있..

[QIIME2] 주로 사용하는 QIIME2의 plugins 정리

Amplicon data를 분석할 때 주로 사용하는 QIIME2의 plugins를 정리하였다. 전체 plugin 목록 (2021.4 기준) 주로 사용하는 plugin과 pipeline, methods, visualizers는 bold로 표시하였다. alignment: Plugin for generating and manipulating alignments. Methods mafft: De novo multiple sequence alignment with MAFFT mafft-add: Add sequences to multiple sequence alignment with MAFFT. mask: Positional conservation and gap filtering. composition: Plugi..

[QIIME2] QIIME과 관련된 Data resources

QIIME과 관련된 data resources가 QIIME doc에 소개되어있다. 그 종류에는 다음이 있다. Taxonomy classifiers for use with q2-feature-classifier Alignment method가 아니라 machine learning based method로 taxnomic assignment를 하기 위해서는 classifier가 필요하다. 물론 classifier를 직접 만들 수 있지만 (실제로는 직접 만드는 것이 더 좋다, 아래 link 참조), 이미 만들어 놓은 classifier도 QIIME에서 제공한다. Naive Bayes classifier (Silva) Naive Bayes classifier (Greengenes) Silva 99% OTU, G..

[QIIME2] Training feature classifiers with q2-feature-classifier 튜토리얼

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다. Amplicon data를 분석하여 representative sequences set(16S rDNA)을 얻었을 때, 각각의 sequence가 어느 세균으로부터 유래했는지를 알고 싶을 수 있다 (추후 composition 분석 등이 가능). 그러기 위해서는 이를 확인해주는 classifier가 필요한데, 어떻게 classifier를 만들 수 있는지 알아보는 튜토리얼이 QIIME2 tutorial에 소개되어 있다. 💡 참고로 classifier를 train하는 이유는 machine-learning-based classification method를 쓰기 위해서다. Align..

[Windows] 유용한 단축키 모음 (윈도우 10)

화면 녹화 [Windows Key]+[G] GeForce Experience가 있다면 [ALT]+[Z]로도 가능하다. 화면 캡쳐 [Windows Key]+[SHIFT]+[S] 윈도우 잠금 [Windows Key]+[L] 이모지 (Emoji) 😎 [Windows Key]+[;] 작업창 이동 1 [Windows Key]+[Tab] 작업창 이동 2 [ALT]+[Tab] 참고) 크롬 탭 이동 [CTRL]+[Tab] 바탕화면 표시 [Windows Key]+[D] 활성창 최대/최소화 [Windows Key]+[↑]/[↓] 활성창 좌우 배치 [Windows Key]+[←]/[→] 클립보드 확인 [Windows Key]+[V] # 윈도우 단축키

[GitHub] 개발을 위한 Branch 관리 (Upstream, Origin, Local repository)

Branch 관리에 대한 포스팅이다. 아직 부족한 점이 많은데, 새로 알게되거나 수정해야할 내용이 있으면 업데이트할 예정. 현재 내가 어떤 식으로 개발을 하고 있는지에 대한 내용으로 이해하면 될 것 같다. 작업 환경 세팅 위 그림이 전체적인 작업 환경이다. 특정 서비스에 대하여 여러 개발자가 협업하는 상황에서 Upstream repository의 master branch는 현재 서비스되는 내용으로 이해하면 된다. 이 서비스 업데이트에 참여하기 위해 내 개인 GitHub 계정에서 Upstream repository를 folk한다. 그러면 '[관리자 계정]/[프로젝트 명]'과 별개로 '[내 계정]/[프로젝트 명]'이 생성된다. 전자가 Upstream repository, 후자가 Origin repositor..

[통계학] Multiple Testing Correction의 필요성과 방법

Multiple Testing Correction - 다중 비교를 위한 보정(Multiple Testing Correction)은 다수의 가설을 점정할 때 유의수준 α에서 n개의 true H0 중 잘못 기각하는 H0 (false positive)의 수가 평균적으로 αn개가 될 수 있을 때 이를 보정하여 false positive의 수를 줄이는 방법이다. (참고: 평균적으로 αn개가 되는 이유는 under the null에서 p-value는 uniform distribution[0,1]을 갖기 때문. 한편 alternative가 true일 때는 p-value가 uniform distribution을 따르지 않고 보통 작은 값을 갖게 된다) Family-wise error rate (FWER) control..

Statistics 2021.03.24
728x90
반응형