Genome sequence 파일이 있을 때 이로부터 CDS file (coding sequence, gene)을 얻고 싶다면 Prodigal을 사용할 수 있다. 주의해야할 점은 Prodigal은 원핵생물에 한정해서 디자인된 프로그램이므로 진핵생물에 대해서는 다른 프로그램을 사용해야한다.
Prodigal은 다음 페이지에서 다운 가능하다.
https://github.com/hyattpd/Prodigal
자세한 설치방법은 다음 페이지를 참고할 수 있다.
https://github.com/hyattpd/Prodigal/wiki/installation
Windows에서 실행 방법
Windows에서는 Windows binary 파일 (.exe)을 실행시키는 것이 가장 간단하다.
다음 링크에서 prodigal.windows.exe를 다운 받은 후 (댓글로 알려주셔서 감사합니다 😀),
https://github.com/hyattpd/Prodigal/releases/tag/v2.6.3
Windows PowerShell (혹은 명령 프롬프트)을 실행시킨다.
Downloads 폴더에 prodigal.windows.exe를 다운 받았기 때문에
"cd .\Downloads\" 명령어로 현재 위치를 Downloads 폴더로 이동시킨다.
"ls" 명령어를 입력하면 Downloads 폴더 안에 prodigal.windows.exe가 있는 것을 확인할 수 있다.
".\prodigal.windows.exe"를 입력하면 Windows에서 Prodigal이 실행된다.
Prodigal Parameters
주로 사용되는 parameters는 다음과 같다.
파라미터 | 설명 | 비고 |
[-i input_file] | Specify FASTA/Genbank input file (default reads from stdin) | 분석하고자 하는 genome sequence file (FASTA)의 path를 적어준다. |
[-o output_file] | Specify output file (default writes to stdout) | 분석 결과 파일의 path. 결과 파일에는 예측한 유전자의 confidence가 얼마인지 등등의 정보가 들어간다. |
[-a trans_file] | Write protein translations to the selected file | 유전자의 단백질 서열을 얻고 싶을 때 해당 파라미터에 path를 적어준다. 참고로 faa는 fasta amino acid로 단백질 서열임을 나타낸다. |
[-d nuc_file] | Write nucleotide sequences of genes to the selected file | 유전자의 nucleotide 서열을 얻고 싶을 때 해당 파라미터에 path를 적어준다. 참고로 fna는 fasta nucleic acid로 nucleotide 서열임을 나타낸다. |
[-q] | Run quietly (suppress normal stderr output). | Commands 창에 output_file로 들어갈 정보들이 일일이 출력되지 않는다. |
[-p mode] | Select procedure (single or meta, Default: single) | Metagenomic data를 분석할 때는 meta mode로 분석하고, single genome을 분석할 때는 single mode로 분석한다. |
[-c] | Closed ends | Partial gene을 허용하지 않을 때 위 파라미터를 추가해줄 수 있다. Default는 허용하기 위해 -c를 추가하지 않는다. |
[-f output_type] | Select output format (gbk, gff, or sco) | 결과 파일의 형식을 지정할 수 있다. |
[-g tr_table] |
Specify a translation table to use (default 11). | 특정 종은 다른 translation system을 이용할 수 있다. Default는 standard table이지만 이를 따르지 않는 종에 대해 분석한다면 table을 바꿔야한다. |
[-h] | Print help menu and exit | 도움말 |
[-v] | Print version number and exit | 버전 정보 |
사용 예시
# genome.fasta를 분석하여 CDS 파일을 얻고 싶을 때
$ prodigal -a result_cds.faa -i genome.fasta -q
Reference
- Hyatt, Doug, et al. "Prodigal: prokaryotic gene recognition and translation initiation site identification." BMC bioinformatics 11.1 (2010): 1-11.
- www.incodom.kr/FASTA
- github.com/hyattpd/Prodigal
'Bioinformatics > Transcriptomics' 카테고리의 다른 글
KEGG 데이터베이스에서 유전자 검색 | KEGG 데이터베이스 구조 (0) | 2021.08.17 |
---|---|
특정 유전자 리스트와 관련 있는 pathway 검색 방법 (KEGG Mapper) (0) | 2021.07.05 |
[Python] Find Open Reading Frame (ORF) | 파이썬 코드 (0) | 2021.06.14 |
Gene Expression Quantification | RPM, RPKM, FPKM, TPM 공식 | 파이썬 코드 (0) | 2021.06.14 |