オープンリーディングフレーム

分子遺伝学において、オープンリーディングフレーム: open reading frame、ORF)とは、翻訳される能力を持つリーディングフレームの部分のことである[1]。ORFとは、開始コドン(通常はAUG)で始まり、終止コドン(通常はUAA、UAG、UGA)で終わるコドンの連続した一続きである[2]。ORF(必ずしも最初のものとは限らない)内のATGコドン(RNAで言うAUG)は、翻訳が開始される場所を示している可能性がある。転写終結部位は、ORFの後に、翻訳終止コドンの先にある。もし、転写が終止コドンの手前で止まると、翻訳時に不完全なタンパク質が作られる[3]。複数のエクソンを持つ真核生物遺伝子では、転写後にイントロンが除去され、エクソンが結合されて、タンパク質翻訳のための最終的なmRNAが生成される。イントロンには終止コドンが含まれていたり、リーディングフレーム間のずれが発生する可能性があるため、遺伝子予測英語版(gene prediction)においては、ORFの開始-終止の定義は、ゲノムDNAではなく、スプライスされたmRNAにのみ適用される。別の定義は、ORFは3で割り切れる長さを持ち、終止コドンで囲まれた配列である[4][5]。この、より一般的な定義は、トランスクリプトミクスおよび(または)メタゲノミクスの分野においても有用であり、得られた配列に開始コドン/終止コドンが存在しない場合もある。このようなORFは、完全な遺伝子ではなく、遺伝子の一部に対応する。

3種類の異なったリーディングフレームの可能性を示すサンプル配列。開始コドンは紫、終止コドンは赤で強調表示されている。

生物学的意義

オープンリーディングフレーム(ORF)の一般的な用途の1つは、遺伝子予測英語版を支援するための根拠の1つである。長いORFは、他の根拠とともに、DNA配列内のタンパク質翻訳領域や機能性RNA翻訳領域の候補を最初に特定するためによく使用される[6]。ORFがあるからといって、その領域が常に翻訳されるとは限らない。たとえば、各ヌクレオチドの割合が等しいランダムに生成されたDNA配列では、21コドンごとに1回の終止コドンが予想される[6]。原核生物の簡単な遺伝子予測アルゴリズムでは、開始コドンに続いて、典型的なタンパク質をコード化するのに十分な長さのオープンリーディングフレームを探す。ここで、その領域のコドン使用頻度英語版は、その生物の翻訳領域の頻度特性と一致する[6]。そのため、ORFは100コドン[7]や150コドン[6]のような最小の長さを持つべきだと言う著者もいる。長いオープンリーディングフレームだけでは、遺伝子の存在を示す決定的な証拠にはならない[6]。一方で、タンパク質コード遺伝子の典型的な特徴を欠いている幾つかの短いORF(sORF)が、(ncRNAとmRNAの両方から)機能性ペプチドを生成できることが証明されている[8]。哺乳類のmRNAの約50%の5'-UTRには、1つまたは複数のsORFが存在することが知られている[9]。実験的に発見されたsORFの翻訳開始部位の64-75%はヒトとマウスのゲノムに保存されており、これらの要素が機能していることを示す可能性がある[10]。しかし、sORFは多くの場合、mRNAのマイナーな形でのみ見つかるため、選択を避けることができる。開始部位の高い保存性は、関連遺伝子のプロモーター内のそれらの位置と関係している可能性がある。これは、たとえばSLAMF1英語版遺伝子の特徴である[11]

6フレーム翻訳

6フレーム翻訳の例。ヌクレオチド配列は中央に示され、上が順方向の翻訳、下が逆方向の翻訳を示す。2つの考えられるオープンリーディングフレームとその配列が強調表示されている。

DNAは3つのヌクレオチド(コドン)のグループで解釈されるため、1本のDNA鎖には3つの異なるリーディングフレームが存在する[12]。DNA分子の二重らせんは、2本の逆平行鎖で構成されており、2本の鎖にはそれぞれ3つのリーディングフレームがあるため、6フレーム翻訳(six-frame translation)が可能である[12]

ORF検索ツール

ORF Finder

ORF Finder (Open Reading Frame Finder)は、ユーザーの配列またはすでにデータベースに登録されている配列の中から、選択可能な最小サイズのオープンリーディングフレームをすべて見つける、グラフィカルな解析ツールである[13]。このツールは、標準または代替の遺伝コードを使用して、すべてのオープンリーディングフレームを識別する。推定されたアミノ酸配列はさまざまな形式で保存でき、BLAST(Basic Local Alignment Search Tool)サーバーを使用して配列データベースに検索できる。ORF Finderは、完全で正確な配列提出物の準備で役立つ。また、Sequin配列提出ソフトウェア(シーケンスアナライザー)にもパッケージ化されている。

ORF Investigator

ORF Investigatorは、コード化配列と非コード化配列に関する情報を提供するだけでなく、異なる遺伝子/DNA領域配列のペアワイズ・グローバル・アライメントを実行できるプログラムである[14]。このツールは、対応するアミノ酸配列のORFを効率的に見つけ、それらを1文字のアミノ酸コードに変換し、配列中の位置を提供する。配列間のペアワイズ・グローバル・アライントにより、一塩基多型を含むさまざまな突然変異を検出するのに便利である。遺伝子アライメントには、Needleman-Wunschアルゴリズム英語版を使用している。ORF Investigatorは、移植可能なPerlプログラミング言語で記述されているため、すべての一般的なオペレーティングシステムのユーザーが利用できる。

OrfPredictor

OrfPredictorは、発現配列タグ(Expressed Sequence Tag、EST)由来の配列から、タンパク質翻訳領域を特定するために設計されたウェブサーバーである[15]。BLASTXでヒットしたクエリ配列の場合、このプログラムはBLASTXアライメントで特定された翻訳リーディングフレームに基づいて翻訳領域を予測し、そうでない場合は、クエリ配列の固有信号に基づいて最も可能性の高い翻訳領域を予測する。その出力はFASTA形式の予測ペプチド配列と、クエリID、翻訳リーディングフレーム、翻訳領域の開始と終了のヌクレオチド位置を含む定義行である。OrfPredictorは、特に大規模なESTプロジェクトにおいて、EST由来の配列アノテーションを容易にする。

ORF Predictorは、上記の2つの異なるORF定義を組み合わせて使用している。これは、開始コドンで始まり、停止コドンで終わる一続きを検索する。追加の基準として、5'非翻訳領域(UTR=untranslated regionまたはNTR=nontranslated region)で終止コドンを検索する[16]

ORFik

ORFikは、オープンリーディングフレームを見つけ、次世代シークエンシング技術を用いてORFの正当性を確認するためのBioconductor内に含まれるRパッケージである[17]

orfipy

orfipyは、Python/Cythonで書かれたツールで、ORFを非常に高速かつ柔軟に抽出できる[18]。orfipy は、プレーンまたはgzip圧縮されたFASTAおよびFASTQ配列を扱うことができ、ORF検索と微調整オプションを提供する。オプションには開始および停止コドンの指定、部分的なORFの報告、カスタム翻訳テーブル使用を含む。その結果は、スペース効率が高いBED形式を含め、複数の形式で保存できる。orfipyは、デノボ・トランスクリプトーム・アセンブリー(De novo transcriptome assembly英語版)のような、複数の小さなFASTA配列を含むデータに対して特に高速である[19]

脚注

  1. ^ Sieber, Patricia; Platzer, Matthias; Schuster, Stefan (March 2018). “The Definition of Open Reading Frame Revisited”. Trends in Genetics 34 (3): 167–170. doi:10.1016/j.tig.2017.12.009. ISSN 0168-9525. https://doi.org/10.1016/j.tig.2017.12.009. 
  2. ^ Open reading frame”. U.S. National Library of Medicine (2015年10月19日). 2015年10月22日閲覧。
  3. ^ Slonczewski, Joan; John Watkins Foster (2009). Microbiology: An Evolving Science. New York: W.W. Norton & Co.. ISBN 978-0-393-97857-5. OCLC 185042615 
  4. ^ Claverie, J.-M. (1997) Computational methods for the identification of genes in vertebrate genomic sequences. Hum. Mol. Genet. 6, 1735–1744.
  5. ^ P. Sieber, M. Platzer, S. Schuster (2018) The definition of open reading frame revisited. Trends Genet. 34, 167-170.
  6. ^ a b c d e Deonier, Richard; Simon Tavaré; Michael Waterman (2005). Computational Genome Analysis: an introduction. Springer-Verlag. p. 25. ISBN 978-0-387-98785-9 
  7. ^ Claverie, J.-M., Poirot, O., Lopez, F. (1997) The difficulty of identifying genes in anonymous vertebrate sequences. Comput. Chem. 21 203-214
  8. ^ Zanet, J.; Benrabah, E.; Li, T.; Pelissier-Monier, A.; Chanut-Delalande, H.; Ronsin, B.; Bellen, H. J.; Payre, F. et al. (2015). “Pri sORF peptides induce selective proteasome-mediated protein processing”. Science 349 (6254): 1356–1358. Bibcode2015Sci...349.1356Z. doi:10.1126/science.aac5677. ISSN 0036-8075. PMID 26383956. 
  9. ^ Wethmar, Klaus; Barbosa-Silva, Adriano; Andrade-Navarro, Miguel A.; Leutz, Achim (2014-01-01). “uORFdb—a comprehensive literature database on eukaryotic uORF biology”. Nucleic Acids Research 42 (D1): D60–D67. doi:10.1093/nar/gkt952. ISSN 0305-1048. PMC 3964959. PMID 24163100. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3964959/. 
  10. ^ Lee, Sooncheol; Liu, Botao; Lee, Soohyun; Huang, Sheng-Xiong; Shen, Ben; Qian, Shu-Bing (2012-09-11). “Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution” (英語). Proceedings of the National Academy of Sciences 109 (37): E2424–E2432. doi:10.1073/pnas.1207846109. ISSN 0027-8424. PMC 3443142. PMID 22927429. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3443142/. 
  11. ^ Schwartz, Anton M.; Putlyaeva, Lidia V.; Covich, Milica; Klepikova, Anna V.; Akulich, Kseniya A.; Vorontsov, Ilya E.; Korneev, Kirill V.; Dmitriev, Sergey E. et al. (2016-10-01). “Early B-cell factor 1 (EBF1) is critical for transcriptional control of SLAMF1 gene in human B cells”. Biochimica et Biophysica Acta (BBA) - Gene Regulatory Mechanisms 1859 (10): 1259–1268. doi:10.1016/j.bbagrm.2016.07.004. PMID 27424222. 
  12. ^ a b Pearson, William R.; Wood, Todd; Zhang, Zheng; Miller, Webb (1997-11-15). “Comparison of DNA Sequences with Protein Sequences” (英語). Genomics 46 (1): 24–36. doi:10.1006/geno.1997.4995. ISSN 0888-7543. PMID 9403055. https://semanticscholar.org/paper/28ee2b6b10c52bd031dc076cee84464e64c4d5c1. 
  13. ^ ORFfinder”. www.ncbi.nlm.nih.gov. 2021年6月4日閲覧。
  14. ^ Dwivedi, Vivek Dhar; Mishra, Sarad Kumar (2012). “ORF Investigator: A New ORF finding tool combining Pairwise Global Gene Alignment”. Research Journal of Recent Sciences 1 (11): 32–35. 
  15. ^ OrfPredictor”. bioinformatics.ysu.edu. 2021年6月4日閲覧。
  16. ^ J. C. Carrington, D. D. Freed (1990): Cap-independent enhancement of translation by a plant potyvirus 5’ nontranslated region. In: J. Virol., 64: 1590-1597. doi:10.1128/JVI.64.4.1590-1597.1990. , PMID 2319646, PMC 249294
  17. ^ ORFik - Open reading frames in genomics”. bioconductor.org. 2021年6月4日閲覧。
  18. ^ Singh, Urminder; Wurtele, Eve Syrkin. “orfipy: a fast and flexible tool for extracting ORFs” (英語). Bioinformatics. doi:10.1093/bioinformatics/btab090. https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab090/6134074. 
  19. ^ Singh, Urminder (2021-02-13), urmi-21/orfipy, https://github.com/urmi-21/orfipy 2021年2月13日閲覧。 

参考文献

  • Siew N, Fischer D. "Unravelling the ORFan Puzzle." Comp Funct Genomics. 2003;4(4):432-41. [1]
  • Brent MR. "Genome annotation past, present, and future: how to define an ORF at each locus." Genome Res. 2005 Dec;15(12):1777-86. [2]

参照項目

外部リンク

  • Translation and Open Reading Frames
  • hORFeome V5.1 - CCSB Human ORFeome Collectionのウェブベースの対話型ツール
  • ORF Marker - ORFを予測・解析するための、フリーで高速なマルチプラットフォームのデスクトップGUIツール
  • StarORF - ORFを予測および解析し、逆相補鎖配列を得るためのマルチプラットフォームのjavaベースのGUIツール
  • ORFPredictor - ESTまたはcDNA配列のバッチのORF予測と翻訳のために設計されたウェブサーバ