Statistics 18

[통계] Independent filtering의 개념 (DESeq2)

두 그룹 간 abundance가 유의하게 다른 feature를 찾을 때 DESeq2 등의 differential gene expression (DEG) analysis tool을 사용할 수 있는데, DESeq2에 independent filtering이라는 개념이 있었다. 일반적으로 다수의 가설을 검정할 때 false positive(맞다고 했는데 틀림)의 수가 늘어날 수 있기 때문에 이를 보정하기 위해 multiple testing correction을 수행한다. DEG 분석 수행 시에도 각각의 features에 대해 검정을 수행하기 때문에 multiple testing correction을 하는 것이 일반적이다. 그런데 multiple testing correciton을 통해 false positiv..

Statistics 2023.01.28

[통계 기초] 상관 계수의 구분: 피어슨 (Pearson), 스피어먼 (Spearman)

상관 계수(Correlation Coefficient)는 두 변수 간의 어떤 관계가 있는지 알아볼 때 사용할 수 있다. 일반적으로 상관 계수는 피어슨 상관 계수(Pearson Correlation Coefficient)를 의미하는데 [1], 이는 스피어먼 상관 계수 (Spearman Correlation Coefficient)와 구분된다. 정리하면 아래와 같다 [3].피어슨 상관 계수(Pearson Correlation Coefficient): 두 변수 사이의 linear relationship이 있는지 확인스피어먼 상관 계수 (Spearman Correlation Coefficient): 두 변수 사이의 monotonic relationship이 있는지 확인예를 들어, 선형 관계가 아니면서 증가하는 모..

Statistics 2021.10.13

[통계 기초] 표준 편차 (Standard deviation)와 표준 오차 (Standard error) 차이

간단하게는 추정치의 표준 편차 (Standard deviation)를 표준 오차 (Standard error)라고 이해하면 된다. 예를 들어, 데이터의 퍼져 있는 정도를 제시할 때는 표준 편차를 써야한다 (참고: 하지만 population SD는 알 수 없기 때문에 population SD의 불편추정량인 sample SD를 써야하고, 이를 계산하기 위해 편차 제곱의 합을 n-1로 나눠준 후 제곱근 한다). 한편, '표본평균'의 경우에는 추정치이므로, '표본평균'의 퍼져 있는 정도를 제시할 때는 표준 오차를 써야한다. 혹은 아래와 같이, 표준 편차는 편차 (관측값과 평균의 차이, deviation) 제곱의 평균을 제곱근 한 것이고 (population SD), 표준 오차는 오차 (추정값과 참값의 차이, e..

Statistics 2021.06.29

[통계 기초] Linear Regression (선형 회귀분석) & Logistic Regression (로지스틱 회귀분석)

X (covariate, predictor, feature, independent variable)와 Y(response variable, outcome, dependent variable)의 관계를 규명하고자 할 때 Regression model을 세워볼 수 있다. 이 포스팅에서는 linear regression과 logistic regression에 대해 간략하게 설명하고자 한다. Linear regression Simple linear regression Simple linear regression model은 다음과 같다. 이때 다음의 특징이 존재한다. Linearity: X, Y의 관계가 선형 Constant variance: Residuals는 constant variance를 가짐. Inde..

Statistics 2021.06.10

[통계 기초] Maximum Likelihood Estimation (MLE)

데이터를 바탕으로 어떤 model을 구축한다고 할 때, 1) model을 먼저 가정하고, 2) 그 model의 parameter를 찾아야 한다. 이때 model parameter를 estimation하는 방법으로 MoM (Method of Moments)와 MLE (Maximum likelihood estimation)가 있다. MLE가 특히 consistent한 estimator 중 가장 optimum하다고 알려져 있는데 (estimator의 분산이 가장 작음), 이 포스팅에서는 MLE에 대해서 다루고자 한다. Likelihood function and MLE 먼저 likelihood function은 다음과 같다 (n개의 joint PDF, independent and identically distr..

Statistics 2021.06.10

[통계 기초] Bayesian Inference (베이즈 추론)

Bayesian Inference 먼저 확률에 대한 두 가지 학파가 존재한다: Frequentist VS Bayesian Frequentist는 확률을 빈도로 생각하며 (동전을 무한히 던졌을 때 앞면이 나올 frequency가 1/2), parameter에 대한 probability statements를 할 수 없다 (내가 평균 키보다 높을 확률은 30% 정도 되는 것 같아 X). 반면 Bayesian은 확률을 믿음의 정도(degree of belief)라고 생각하며, parameter에 대한 probability statements를 할 수 있다 (내가 평균 키보다 높을 확률은 30% 정도 되는 것 같아 O). 따라서 어느 정도 주관적이라고 할 수 있으며, 사람 뇌가 동작하는 방식과 유사하여 머신러닝에..

Statistics 2021.05.25

[통계 기초] ANOVA (분산 분석)

Analysis of variance (ANOVA)는 3개 이상의 그룹에서 평균의 차이가 있는지 알아볼 때 사용할 수 있는 방법이다 (2개 그룹에서는 t-test를 사용한다). 이때 ANOVA에서는 모집단이 정규분포를 따르며, 분산이 동일하다는 것을 전제한다 (따라서 등분산 여부를 Bartlett's test를 통해 먼저 검정해 볼 수 있다: H0를 기각할 수 없다면 ANOVA를 적용 가능). ANOVA에서의 null hypothesis는 "모든 그룹의 평균이 동일하다"이기 때문에 null hypothesis를 기각하더라도 정확히 어떤 그룹 간의 평균이 다른지는 알 수 없다. 따라서 이를 알기 위해서는 사후 검정 (post hoc analysis)를 진행해야 한다. 이는 그룹 쌍을 하나씩 비교하여 평균이..

Statistics 2021.05.23

[통계 기초] Permutation test

Permutation test란? 데이터가 주어졌을 때 이로부터 생성한 estimator의 분산이 얼마인지, confidence interval은 어떻게 되는지를 볼 때 resampling approach 중 하나인 bootstrap을 이용할 수 있다. 하지만 test를 위한 목적으로는 bootstrap이 아니라 다른 resampling approach인 permutation test를 사용할 수 있다. 이는 샘플 사이즈가 작은 두 그룹(X, Y)이 있을 때 서로 분포가 같은지, 다른지를 판단 (두 그룹의 평균이 다른지 등)할 때 사용하는 non-parametric approach이다. Permutation test의 과정 먼저 X그룹과 Y그룹 각각의 평균을 구한 후 그 차이(절대값)를 계산하여 test..

Statistics 2021.05.13

[통계 기초] Type 1 error와 Type 2 error (false positive와 false negative)

다음의 4가지 경우를 생각해볼 수 있다. H0 is True H0 is False Reject H0 False positive (유의하다고 했는데 틀림) True positive (유의하다고 했는데 맞음) Accept H0 True negative (유의하지 않다고 했는데 맞음) False negative (유의하지 않다고 했는데 틀림) 이때 False positive를 Type 1 error라고 하고, False negative를 Type 2 error라고 한다. Sensitivity는 실제로 유의한 것을 유의하다고 말하는 비율로서, TP/(TP+FN)으로 계산된다. 한편, specificity는 실제로 유의하지 않은 것을 아니라고 말하는 비율로서, TN/(TN+FP)로 계산된다. 우리는 false p..

Statistics 2021.04.28

[통계 기초] Bootstrap (부트스트랩)

Bootstrap (부트스트랩) Bootstrap은 1970년대 후반에 개발되어 이후 통계학과 머신 러닝 등의 분야에서 광범위하게 이용되는 방법이다. Estimator의 분산 및 신뢰구간을 직접 구하기 힘들 때나, predictor의 성능을 높여주고자 할 때 사용할 수 있다 (Bootstrap 이용 예시 참조). Bootstrap은 기존의 data set 1개에서 B번의 simulation을 통해 새로운 data set B개를 sampling하는 방법이다. Bootstrap sampling 과정을 구체적으로 설명하면 다음과 같다. X1부터 Xn까지 n개의 data point가 있다고 가정하자 (기존의 data set 1개). 각각의 data point가 나올 확률은 1/n이라고 생각한다 (empirica..

Statistics 2021.04.21
728x90
반응형