분류 전체보기 231

[CentOS] 리눅스에서 사용 가능한 유용한 작업들: 버전, 스펙, 용량 확인 / 방화벽 / 서버 간 파일 이동 등

CentOS 버전 확인 (version check) $ cat /etc/system-release 방화벽 포드 열기/닫기 $ firewall-cmd --zone=public --add-port=포트번호/tcp --permanent $ firewall-cmd —reload $ firewall-cmd --zone=public --remove-port=포트번호/tcp --permanent $ firewall-cmd --reload Core 수 확인 $ grep -c processor /proc/cpuinfo 용량 확인 $ du -sh ./ 서버 간 파일 복사 # 다른 서버로 복사하여 보내기 $ scp test.txt testUser@123.45.678.90:/home/testUser/ # test.txt를 /..

[Perspective] Nucleic Acids Research (NAR) 저널 Database Issue의 기준

좋은 데이터베이스의 기준 Scientific quality (Usefulness to the community) General utility: 처음 사용자가 쉽게 쓸 수 있으면 좋다. Well curated: manually curated data가 많으면 더 좋다. Not covering narrow topics: 넓은 주제를 다루면 더 좋다. Maintained for a long time Not described elsewhere 참고 Data warehouses, portals, cross-platform search tools, visualization tools는 NAR database보다는 Bioinformatics, BMC Bioinformatics or Database: The Journ..

Study/Paper Summary 2021.06.16

좋은 학술 데이터베이스란 | 좋은 학술 데이터베이스의 기준 (Data, Web interface 측면)

다음 링크에서 생물학 데이터베이스 편집자가 좋은 학술 데이터베이스의 기준을 설명하고 있다. EDITORIAL The 2007 Database Issue of Nucleic Acids Research is the fourteenth in a series dedicated to databases in the field of molecular biology. These databases are es academic.oup.com 그 기준을 크게 Data와 Web interface 측면으로 나눴다. 각각 정리하면 다음과 같다. Data 측면 DB 이름이 기존 DB와 중복되지 않도록 Comprehensive 할수록 좋다: 하나의 종에 대한 정보가 아니라 여러 종에 대한 정보가 더 낫다 Original source..

Gene Expression Quantification | RPM, RPKM, FPKM, TPM 공식 | 파이썬 코드

Gene expression Quantification RNA-seq 등으로 각 샘플에서 각 gene의 read count를 얻었다고 해보자. 이때 1) 샘플 간 read depth가 다르고, 2) gene마다 gene length가 다르기 때문에 이를 normalization할 필요가 있다. Gene expression의 양을 비교할 때 사용하는 normalization 방법에는 RPKM, FPKM, TPM이 있고, TPM이 주로 사용된다. 한편 gene (transcript) length의 경우, 길이가 길수록 fragment도 더 많이 나올 것을 가정하여 normalization을 하지만, 실제로 gene (transcript) length와 fragments의 양이 완전히 비례하지는 않는다. 예를..

[생물정보학] 생물정보학에서 주로 사용되는 파일 형식 (File format)

FASTA/FASTQFASTA는 sequence에 대한 정보를 담는 파일의 형식으로, header부분과 sequence부분으로 나뉜다.FASTA는 sequence의 종류에 따라 몇 가지 서로 다른 형식을 가질 수 있다. FASTQ는 FASTA+Quality로서 FASTA 파일의 정보 (header+sequence)와 함께 quality 정보를 함께 담는 파일의 형식이다.Line 1: HeaderLine 2: SequenceLine 3: '+' characterLine 4: Quality values (Phred score) with ASCII characters SAM/BAM/CRAMSequence Alignment Map (SAM)은 alignment 정보를 담는 파일의 형식 (각각의 read가 ref..

Bioinformatics/etc. 2021.06.13

[통계 기초] Linear Regression (선형 회귀분석) & Logistic Regression (로지스틱 회귀분석)

X (covariate, predictor, feature, independent variable)와 Y(response variable, outcome, dependent variable)의 관계를 규명하고자 할 때 Regression model을 세워볼 수 있다. 이 포스팅에서는 linear regression과 logistic regression에 대해 간략하게 설명하고자 한다. Linear regression Simple linear regression Simple linear regression model은 다음과 같다. 이때 다음의 특징이 존재한다. Linearity: X, Y의 관계가 선형 Constant variance: Residuals는 constant variance를 가짐. Inde..

Statistics 2021.06.10

[통계 기초] Maximum Likelihood Estimation (MLE)

데이터를 바탕으로 어떤 model을 구축한다고 할 때, 1) model을 먼저 가정하고, 2) 그 model의 parameter를 찾아야 한다. 이때 model parameter를 estimation하는 방법으로 MoM (Method of Moments)와 MLE (Maximum likelihood estimation)가 있다. MLE가 특히 consistent한 estimator 중 가장 optimum하다고 알려져 있는데 (estimator의 분산이 가장 작음), 이 포스팅에서는 MLE에 대해서 다루고자 한다. Likelihood function and MLE 먼저 likelihood function은 다음과 같다 (n개의 joint PDF, independent and identically distr..

Statistics 2021.06.10

[Java] Java에서 Join 기능 이용하기 (Spring, Hibernate)

다음의 두 entity를 참고하면 Java에서 Join 기능을 어떻게 써볼 수 있을지 감이 온다. Member.java @Entity public class Member { @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Integer member_id; @Column private String member_name; // @Column // private Integer team_id; @ManyToOne(targetEntity = Team.class) @JoinColumn(name = "team_id") private Team team; // then getters/setters } Team.java @Entity public class..

[Perspective] 두 가지 통계적 분석 방법: "Data Modeling" VS "Algorithmic Modeling"

정리 데이터를 분석할 때의 목표는 두 가지가 있다: 1) 예측, 2) 정보 획득 이러한 목표를 이루기 위해 두 가지 접근을 시도할 수 있다: 1) Data modeling, 2) Algorithmic modeling. Data modeling은 데이터를 바탕으로 linear regression 등의 통계 모델을 생성하여 분석하는 방법이다. Algorithmic modeling은 통계 모델을 생성하지 않고, 머신러닝 방법을 사용하여 분석하는 방법이다. 일반적으로 통계학자들은 데이터를 보면 통계 모델부터 먼저 생성하려고 한다: 1) 익숙해서, 혹은 2) (통계 모델을 통한) "해석"을 위해 하지만 저자는 그러한 관점에서 벗어나여 데이터 분석의 목표("정보"를 얻는 것, 해석은 정보를 얻기위한 수단에 불과)를..

Study/Paper Summary 2021.06.02
728x90
반응형