数理解析

PubMedID 30226837
Title Large-scale investigation of the reasons why potentially important genes are ignored.
Journal PLoS biology 2018 Sep;16(9):e2006643.
Author Stoeger T,Gerlach M,Morimoto RI,Nunes Amaral LA
  • 潜在的に重要な遺伝子が研究されない理由の大規模調査
  • Posted by 九州大学 生体防御医学研究所 統合オミクス分野 伊藤 有紀
  • 投稿日 2018/10/19

概要:
個々の生物学者が、なぜある遺伝子を研究対象に選び、また選ばないのかを調べた論文。
これまでのヒトの遺伝子に関する発表論文は約12000遺伝子のうち約2000に集中しているが、その理由はわかっていなかった。これを調べるために、遺伝子の化学的・生物学的特徴、発表論文数などの情報を収集した。
収集したデータを機械学習を用いて解析した結果、生物学的重要性や疾患関連度が大きい遺伝子よりも、化学的・生物学的特性により1980-1990において実験での扱いが容易であった遺伝子の方がより研究されていることがわかった。またこの研究で収集したデータを用いて生物学的に重要な遺伝子を解析する新たな戦略を示した。

行なったこと:
・ヒトタンパク質コード遺伝子に関する化学的、物理的、生物学的、歴史的、文献的、財務的、技術的、実験的データをまとめたデータベースを作成した。
・このデータベースを用いて、遺伝子の配列情報やgenome-scale experimentなどの430の内在的特徴が、発表論文数を予測できるか調べた。“gradient boosting regressions with out-of-sample Monte Carlo cross-validation”を用いたところ、430の特徴は発表論文数をよく予測できた(実際の発表論文数とのSpearman相関0.64)。430のうち15の特徴がモデルの精度に大きく寄与していた。この15の特徴は6つのカテゴリーに分類できるような特徴であった(「RNAやタンパク質の組織別の存在量」「タンパク質の正の極性」「タンパク質の疎水性」「変異に対する遺伝子のsensitivity」「遺伝子や転写物の長さ」「小胞体輸送シグナル配列の有無」)。さらに予測因子にモデル生物でのホモログの発表論文数を付け加えると、ほぼ完全に発表論文数を予測することができた(Spearman相関0.87)。非ヒト生物でのホモログの発表論文数がヒトでの発表論文数と関連することを示したのはこの研究が初。
・上記で示された15の特徴は、traditionalな方法を用いて研究できるかどうかに影響を及ぼしているようだった。実際、最初に報告された(初報告)年が早い遺伝子ほど発表論文数が多いことがわかった。そこで430の特徴の中から、初報告年を予測できるものを調べた。発表論文数の予測ほど高精度ではなかったが(Spearman相関0.48)、(発表論文数を精度よく予測できる15の特徴と)似た特徴が選ばれた(「シグナル配列の有無」「RNAやタンパク質の存在量」「変異に対する遺伝子のsensitivity」など)。この結果は、遺伝子の初報告に重要であった遺伝子の特徴は現在までの発表論文数と部分的に相関していることを示している。
・また遺伝子の内在的特徴およびホモログの初報告年は、病気における(その遺伝子の)役割の知見よりも、研究資金と高相関を示すことを表す結果も示している。
・作成したデータベースが、全遺伝子の詳細な特徴付けの出発点として役立つ可能性があるかどうかを調べた。ここでさらに3つのデータをデータベースに追加した(RNAi実験のデータ 、ヒトタンパク質複合体のカタログ、differential gene expression実験のカタログ)。その結果、unstudiedな遺伝子の83%について可能な実験に関する遺伝子特異的データが既に存在し、それらの25%について、少なくとも3つの質的に異なるタイプのデータが存在することを見出した。この結果は、従来はその特徴により研究が難しかった遺伝子が、現在は詳細に研究することが可能であることを強く示唆している。

返信(0) | 返信する