분류 전체보기 231

[Article] Data normalization 방법으로 rarefying보다 SRS가 더 낫다?

내용 구성 마이크로바이옴 분석 시 몇몇 통계 기법이나 diversity index 계산은 sample size를 고려하지 않는다. 그래서 data normalization을 통해 sample size를 맞추는 것이 중요하다. Normalization에 유명한 방법으로는 내가 원하는 sample size가 될 때까지 replacement 없이 random하게 뽑는 rarefying이 있다. 하지만 이 논문에서는 그보다 scaling with ranked subsampling (SRS)가 있다고 주장한다. SRS는 rarefying보다 정확도(preservation of the original community structure)와 재현성(reproducibility of data normalization)..

Study/Paper Summary 2021.05.07

[Article] Resampling methods를 활용한 prediction assessment

정리 보통 데이터 사이즈가 크면 split sample, 데이터 사이즈가 작으면 10-fold cross validation을 사용한다. 이 논문을 통해 classifier를 만든다면 prediction assesssment에 왜 10-fold cross validation이 주로 사용되는지 알 수 있다 (추후 인용도 가능) Classifier: '데이터-라벨'의 쌍으로부터 생성 가능. 추후 새로운 데이터가 들어왔을 때 어떤 라벨일지 알아맞추는 것 Classifier 생성에는 크게 3가지 단계가 존재: 1) feature selection, 2) model selection, 3) prediction assessment. Feature selection은 어떤 유전자(feature)를 prediction..

Study/Paper Summary 2021.05.05

[MS] Mass spectrom 간단 정리

단백질을 정량하고 (quantify) 어떤 단백질인지 알기 위해 (identify) mass spectrom을 사용할 수 있다. 크게 4가지 단계로 구분할 수 있다: 1) Sample preparation, 2) Multi-dimensional separation, 3) Ionization, 4) Mass analysis 1. Sample preparation 단백질을 분석할 때 보통은 뽑은 단백질을 peptide로 분리한 후 분석한다. Peptide에는 label을 달아준다. 이때 label은 색이 아니라 무게를 이용한 label을 사용한다. 대표적인 것으로 ICAT (for MS1), iTRAG (for MS2), TMT (for MS2)가 있으며, TMT가 한번에 할 수 있는 샘플 수가 가장 많기 ..

[통계 기초] Type 1 error와 Type 2 error (false positive와 false negative)

다음의 4가지 경우를 생각해볼 수 있다. H0 is True H0 is False Reject H0 False positive (유의하다고 했는데 틀림) True positive (유의하다고 했는데 맞음) Accept H0 True negative (유의하지 않다고 했는데 맞음) False negative (유의하지 않다고 했는데 틀림) 이때 False positive를 Type 1 error라고 하고, False negative를 Type 2 error라고 한다. Sensitivity는 실제로 유의한 것을 유의하다고 말하는 비율로서, TP/(TP+FN)으로 계산된다. 한편, specificity는 실제로 유의하지 않은 것을 아니라고 말하는 비율로서, TN/(TN+FP)로 계산된다. 우리는 false p..

Statistics 2021.04.28

[통계 기초] Bootstrap (부트스트랩)

Bootstrap (부트스트랩) Bootstrap은 1970년대 후반에 개발되어 이후 통계학과 머신 러닝 등의 분야에서 광범위하게 이용되는 방법이다. Estimator의 분산 및 신뢰구간을 직접 구하기 힘들 때나, predictor의 성능을 높여주고자 할 때 사용할 수 있다 (Bootstrap 이용 예시 참조). Bootstrap은 기존의 data set 1개에서 B번의 simulation을 통해 새로운 data set B개를 sampling하는 방법이다. Bootstrap sampling 과정을 구체적으로 설명하면 다음과 같다. X1부터 Xn까지 n개의 data point가 있다고 가정하자 (기존의 data set 1개). 각각의 data point가 나올 확률은 1/n이라고 생각한다 (empirica..

Statistics 2021.04.21

[통계 기초] 표본평균의 분포 (sample mean distribution)

1. 평균과 분산 확률 변수 X가 있을 때, X의 평균과 분산(및 표준 편차)은 다음과 같이 구할 수 있다. 2. 표본평균 (Sample mean)과 표본분산 (Sample variance) 확률 변수 X에 대한 n개의 값을 얻었다고 할 때 (X1부터 Xn), 이 sample을 가지고 평균과 분산을 구할 수 있다. 이를 각각 표본평균 (Sample mean)과 표본분산 (Sample variance)이라고 하는데, 아래와 같이 계산된다. 표본분산을 구할 때 n이 아니라 n-1로 나눠주는 이유는 두 가지 방향으로 이해할 수 있다. 먼저 직관적인 측면에서 설명하면, 계산 과정에서 population mean (μ)이 아니라 sample mean을 빼주기 때문이다. Sample mean은 sample에서 es..

Statistics 2021.04.20

[통계 기초] 공분산과 상관 계수 (Covariance and Correlation)

정의 공분산(Covariance)과 상관 계수(Correlation)는 확률 변수 (Random variable)가 두 개일 때, 그들 간의 관계를 summarize해주는 statistics이다. 성질 공분산은 X, Y의 scale에 따라서 값이 달라질 수 있다 (ex. 키의 단위에 따라 값이 달라짐: m, cm). 상관 계수는 공분산을 각각의 표준 편차(standard deviation)로 나누어 보정한 것이기 때문에 scale에 따라 값이 달라지지 않는다. 상관 계수는 -1과 1 사이의 값을 가진다. 상관 계수는 X와 Y 사이의 linear relationship의 정도를 나타내준다. 그래서 X, Y 간의 강한 관계가 있더라도 (ex. 이차식) linear relationship이 아니라면 상관 계수..

Statistics 2021.04.19

[통계 기초] 신뢰 구간과 가설 검정, 유의 확률 (Confidence interval, Hypothesis testing, P-value)

신뢰 구간 (Confidence interval) 정의 특정 parameter θ에 대한 1-α confidence interval은 아래와 같이 정의 된다. 이때 조심해야할 점은 parameter θ (ex. population mean)은 고정된 값이며, 변할 수 있는 값은 confidence interval이라는 점이다. 그래서 95% 신뢰 구간의 경우, 100개의 confidence intervals를 만든다고 했을 때 평균적으로 95개의 confidence intervals가 true θ를 포함할 것이라는 의미로 해석할 수 있다. Normal-based Confidence Interval 특정 parameter θ에 대한 estimator θ hat이 다음의 정규 분포(normal distrib..

Statistics 2021.04.19

[통계 기초] 평균 제곱 오차 (Mean square error, MSE)

평균 제곱 오차 (Mean square error, MSE) MSE란 estimator가 얼마나 잘 작동하는지를 알아보기 위한 측정값으로 작을수록 좋다. 이때 MSE는 bias와 variance로 decomposition 될 수 있다. bias는 아래와 같이 정의되는데, bias가 0일 때 unbiased라고 한다 (θ hat의 expectation이 θ와 같으면 가장 좋겠지만 bias가 존재할 수 있다). 일반적으로 Estimator의 성능을 측정할 때 bias와 variance를 주로 보게 된다 (Low bias, Low variance가 가장 best). 이때 bias-variance tradeoff라는 개념이 존재하는데, bias를 줄이면 variance가 늘어나고 (Overfitting, 복잡한..

Statistics 2021.04.19

[정규표현식] 파이썬에서 정규표현식 사용하기

정규식 문법 문법 설명 예제 [[:space:]] Whitespace (tab이나 space) "A[[:space:]]B" (A B 혹은 A\tB) ^ 문자열 시작 패턴 "^Hello" ("Hello"로 시작하는 문자열) $ 문자열 끝 패턴 "world$" ("world"로 끝나는 문자열) * 0개 이상 (단독으로 쓰이면 의미가 없다) "\d*" (숫자 0개 이상) + 1개 이상 (단독으로 쓰이면 의미가 없다) "\d+" (숫자 1개 이상) . 문자 1개 "." (아무 문자 1개) .* 문자 0개 이상 ".*" (아무 문자 0개 이상) ? 문자 1개 혹은 0개 "a?" (a 1개 or 0개) {num} 문자 num개 "\d{5}" (숫자 5개) {num1, num2} 문자 num1개 이상, num2개 이..

728x90
반응형