数理解析

PubMedID 22817898
Title A whole-cell computational model predicts phenotype from genotype.
Journal Cell 2012 Jul;150(2):389-401.
Author Karr JR,Sanghvi JC,Macklin DN,Gutschow MV,Jacobs JM,Bolival B,Assad-Garcia N,Glass JI,Covert MW
  • 細胞全体のコンピュータモデルで遺伝子型から表現型を予測する
  • Posted by 九州大学 生体防御医学研究所 統合オミクス分野 松崎 芙美子
  • 投稿日 2018/05/26

Highlight:分子レベルにおける細胞プロセスを統合することで、複雑な表現型を再現する M. genitalium の whole cell model を作成した。これによって未知の細胞挙動の予測が可能となり、実際に新規の細胞プロセスや未知のパラメータの予測に成功した。

目的:複雑な表現型が、個々の分子やそれらの関連によってどのように実現されているのかを予測し理解する。

背景:
Mycoplasma genitalium
・寄生性の細菌で、細胞壁を有さない。
・直径 0.1 μm と極めて小さい。
・582 kb の環状ゲノムを持つ (E.coli は 4.6 Mb)。※自己複製できる生物の中では最も小さい部類
・525 遺伝子 (482 がタンパク質をコード) を有する。
・1995 年に全ゲノム解読完了 (世界で 2番目にゲノムが解読された)。
・PPLO 培地で培養可能だが、栄養要求性が高く、単離培養が難しい。
・アミノ酸合成に関する酵素を著しく欠き、TCA 回路は持たない。
・細胞外皮、細胞分裂等のタンパク質、エネルギー代謝、脂肪酸合成、ヌクレオチド代謝、DNA 複製、転写、輸送タンパク質等は H.influenzae と同じくらいの割合で持つが、翻訳に関連するタンパク質の割合が多い。
・トランスポゾン変異導入により、482 個のタンパク質コード遺伝子の内、382 個が必須であることが確認されている [Hutchison et al., Science, 1999; Glass et al., PNAS, 2006]。
・近年、主に European consortium によって M. pneumoniae の各種大規模解析が行われている。Transcriptome: 定常状態に加え、熱ショック時、DNA 損傷時、細胞増殖停止時などの環境下で培養した後、トランスクリプトーム解析を行った [Guell et al., 2009]。Proteome: トランスポゾンベースで TAP-tag を導入し (689 個中) 212 個の遺伝子について TAP-MS を実施し、相互作用ネットワークを解析した [Kuhner et al., 2009]。Metabolome: 129 の酵素が触媒する 189 の代謝反応ネットワークを作成した。様々な濃度の栄養分存在下で 1300 の成長曲線を描き、代謝物濃度やフラックス等を測定した [Yus et al., 2009]。

Integrating modeling
・分子レベルで個体表現型を表現するモデルは未だ作られていない。ODE による細胞内の物理的現象の記述は広く行われているが、この方法はパラメータ情報の取得が容易ではないため、 boolean network modeling や constraint-based modeling のようなパラメータが比較的少なくて済む方法も試みられている。しかしいずれの方法も、細胞プロセスや細胞の状態に応用された例はなく、whole cell の記述には不十分である。また、筆者等と他のグループにより既に ODE, boolean, probablistic, constraind-based で作成したモジュールの統合を行っているが [Chandrasekaran et al., Proc.Natl.Acad.Sci.USA, 2010; Covert et al., Bioinformatics., 2008; Covert et al., Nature, 2004; Covert et al., J.Theo.Biol., 2001]、今回はさらに多様なモジュールにも対応できるようより一般化し、根本的に異なる細胞プロセスや実験データを扱う多様な数学的記述を同時に包含可能な統合手法の構築を試みている。

Whole cell simulation の問題点
・Complexity: 細胞内プロセスは多様で、タイムスケールが幅広い範囲にある。
・Heterogeneity: 細胞ネットワークは多様でそれぞれが異なる数学的構造を持つ上、それぞれ異なる実験手法で研究される。
・Sparsity: 一つの細胞を正確に記述した定量データがほとんどない。
・本論文では、柔軟性が高いハイブリットモデルを採用したことで、これらの問題点を克服し whole cell model を作成できた。

方法:
細胞プロセスとシミュレーションアルゴリズム
・まず多様な細胞内プロセスを 28 個に分けて独立にサブモデルを作成した。例えば DNA に関連するプロセスとして凝縮、損傷、修復、複製など、RNA に関して転写、プロセシング、修飾、アミノアシル化など、タンパク質に関して翻訳、フォールディング、リボソーム合成など、その他として代謝、細胞質分裂などである。そしてそれぞれに共通する 16 個の状態変数 (細胞状態を表す、各分子のコピー数、細胞重量など) でサブモデルを連結した。シミュレーションの際にはまず細胞変数を初期化し、その後は 1 秒以下の時間スケールではサブモデルは互いに影響を及ぼさないと仮定した上で 1 秒ごとに独立して細胞変数を計算して、各細胞プロセスに反映させた。そのうち代謝物については消費量に比例して細胞プロセスに分配した。細胞が分裂したところでシミュレーションを終了した。通常の ODE と異なるのは、1) 方程式が 28 のプロセスに分かれていること、2) 状態変数が 16 の細胞状態に分かれていること、3) 状態変数が各時間ステップで各サブモデルに分配され、サブモデルの独立性が保たれていることである。

パラメータの設定
・900 以上の論文、レビュー、書籍、データベースより各分子の機能とそれらの関連性についてデータを取得した。 これらは異なる生物種、技術、状態、実験者により取得されたものであり、データ間での矛盾を含むため、それらの整合性がとれるように調整した。まずはマニュアルでパラメータ間の拘束条件を設定し、1) その拘束条件を満たし 2) 実験値との誤差が最小になるように、パラメータを最適化した。初めは非線形最適化問題として探索したが解が得られなかったため、パラメータ間の整合性を取るということに重点を置き発見的手法で行うこととした。

初期状態の設定
・細胞の初期状態と分裂直後の状態は同一であるという制約のもと以下のように設定した。
・細胞内状態の変数の分布を統計的に近似し、分布の平均値を設定した。
上で設定した変数をもとに野生型の細胞でシミュレーションを行い、分裂直後の細胞内状態の値を計上した。
・初期値を 2 の値に設定して、再度シミュレーションを行った。
・初期値と最終値が合致するまでシミュレーションを繰り返した。

モデルの再構築
・染色体に関わる細胞内プロセスの構成: ゲノム情報から、遺伝子の位置、プロモーター、転写ユニット、タンパク質結合部位を集め、RNA の発現量や半減期から、RNA ポリメラーゼのアフィニティーを見積もった。
・機能未知遺伝子の機能的注釈付け: 触媒する酵素が見つかっていなくて、解析できなかった反応のギャップを埋めるために、ホモログの実験データ等を仕様してできる限り広く機能的注釈付けを行った。
・細かな構造の追加: それぞれのタンパク質の配列、翻訳後修飾、RNA の修飾、シグナル配列、それぞれのタンパク質の局在、タンパク質のフォールディングに必要とされるシャペロン機能、それぞれのタンパク質のサブユニット構成、ジスルフィド結合等、新たに必要となった反応を追加していった。

結果:作成した Whole cell model はアノテーションがついた 401 個の遺伝子機能と 1900 個の定量的パラメータを包含し、様々な表現型を説明した。このモデルによって、in vivo におけるタンパク質と DNA の相互作用率や、複製開始時間と複製時間の間の逆相関のような、現時点では観測不可能な細胞挙動が多数予測された。さらに、予測に基づいて実験を実施することによって、キネティックパラメータの導出や新規の生物機能の同定に成功した。

結論:包括的データに基づく whole cell model は新たな生物学的発見に貢献する。

返信(0) | 返信する