Bioinformatics/Transcriptomics

[Prodigal] 원핵생물의 유전자 예측 프로그램 (Prokaryotic Gene prediction)

2021. 5. 7. 16:24

  Genome sequence 파일이 있을 때 이로부터 CDS file (coding sequence, gene)을 얻고 싶다면 Prodigal을 사용할 수 있다. 주의해야할 점은 Prodigal은 원핵생물에 한정해서 디자인된 프로그램이므로 진핵생물에 대해서는 다른 프로그램을 사용해야한다.

 

Prodigal은 다음 페이지에서 다운 가능하다.
https://github.com/hyattpd/Prodigal

 

hyattpd/Prodigal

Prodigal Gene Prediction Software. Contribute to hyattpd/Prodigal development by creating an account on GitHub.

github.com


자세한 설치방법은 다음 페이지를 참고할 수 있다.
https://github.com/hyattpd/Prodigal/wiki/installation

 

hyattpd/Prodigal

Prodigal Gene Prediction Software. Contribute to hyattpd/Prodigal development by creating an account on GitHub.

github.com

 

Windows에서 실행 방법

Windows에서는 Windows binary 파일 (.exe)을 실행시키는 것이 가장 간단하다.

 

다음 링크에서 prodigal.windows.exe를 다운 받은 후 (댓글로 알려주셔서 감사합니다 😀),

https://github.com/hyattpd/Prodigal/releases/tag/v2.6.3

 

Release Prodigal v2.6.3 · hyattpd/Prodigal

Fixed a bug in protein translation involving initial GTG/TTG in partial genes.

github.com

 

Windows PowerShell (혹은 명령 프롬프트)을 실행시킨다.

Downloads 폴더에 prodigal.windows.exe를 다운 받았기 때문에

"cd .\Downloads\" 명령어로 현재 위치를 Downloads 폴더로 이동시킨다.

"ls" 명령어를 입력하면 Downloads 폴더 안에 prodigal.windows.exe가 있는 것을 확인할 수 있다.

".\prodigal.windows.exe"를 입력하면 Windows에서 Prodigal이 실행된다.

 

Prodigal Parameters

주로 사용되는 parameters는 다음과 같다.

파라미터 설명 비고
[-i input_file] Specify FASTA/Genbank input file (default reads from stdin) 분석하고자 하는 genome sequence file (FASTA)의 path를 적어준다.
[-o output_file] Specify output file (default writes to stdout) 분석 결과 파일의 path. 결과 파일에는 예측한 유전자의 confidence가 얼마인지 등등의 정보가 들어간다.
[-a trans_file] Write protein translations to the selected file 유전자의 단백질 서열을 얻고 싶을 때 해당 파라미터에 path를 적어준다.
참고로 faa는 fasta amino acid로 단백질 서열임을 나타낸다.
[-d nuc_file] Write nucleotide sequences of genes to the selected file 유전자의 nucleotide 서열을 얻고 싶을 때 해당 파라미터에 path를 적어준다.
참고로 fna는 fasta nucleic acid로 nucleotide 서열임을 나타낸다.
[-q] Run quietly (suppress normal stderr output). Commands 창에 output_file로 들어갈 정보들이 일일이 출력되지 않는다.
[-p mode] Select procedure (single or meta, Default: single) Metagenomic data를 분석할 때는 meta mode로 분석하고, single genome을 분석할 때는 single mode로 분석한다.
[-c] Closed ends Partial gene을 허용하지 않을 때 위 파라미터를 추가해줄 수 있다. Default는 허용하기 위해 -c를 추가하지 않는다.
[-f output_type] Select output format (gbk, gff, or sco) 결과 파일의 형식을 지정할 수 있다.
[-g tr_table]
Specify a translation table to use (default 11). 특정 종은 다른 translation system을 이용할 수 있다. Defaultstandard table이지만 이를 따르지 않는 종에 대해 분석한다면 table을 바꿔야한다.
[-h] Print help menu and exit 도움말
[-v] Print version number and exit 버전 정보

 

사용 예시

# genome.fasta를 분석하여 CDS 파일을 얻고 싶을 때
$ prodigal -a result_cds.faa -i genome.fasta -q

 

Reference

728x90
반응형