Japanese | English


研究テーマ: 次世代シーケンサを用いたデータ駆動型ゲノム解析

ゲノム (genome) は「世代を超えて受け継がれる生命の設計図」です。生命活動を維持するための全ての遺伝子はゲノム上に存在します。骨、神経、血液など身体中のあらゆる組織ではその組織に必要な遺伝子群を適切に発現させていますが、その発現を制御するための機能領域(エンハンサーなど)もやはりゲノム上に存在しています。データ量にしてDVD1枚分にも満たないヒトゲノム配列の中に、生命のあらゆる情報が詰め込まれているのです。

ゲノム配列には個人差があり、その違いによって、お酒の強さが変わったり、目の色や髪の色が変わったりします。 また、ゲノムが正常に機能しなくなるような問題のあるゲノム変異やゲノム修飾状態(エピゲノム)の異常が起きると、 がんをはじめとするさまざまな疾患を引き起こしうることがこれまでの研究でわかってきました。 ゲノム上のどこに生命活動に重要な領域があり、どこにどのような変異が入るとどのような影響があるのか、という具体的なメカニズムを知るための学問を「ゲノム学 (genomics)」と呼びます。我々の研究室はゲノム学、特にエピゲノム解析をテーマにしています。


様々なNGSアッセイ

次世代シーケンサ(NGS, 上図)を利用した種々の解析技術の発展により、遺伝子の転写レベルや、タンパク−DNA結合、ゲノム複製、立体構造制御など、ゲノム上で起きるさまざまなイベントを全ゲノム的に観測することが可能になりました。NGSデータ生成のための大規模な国際プロジェクトによる個人差・がんゲノム・エピゲノムなどのデータベースも次々に誕生しており、まさにNGS解析全盛期と言えるでしょう。 これらの大量のデータを活かして疾患に重要な領域を見つけ出し、新薬開発などに結び付ける研究(ゲノム創薬)や、より多収量で病害に強い作物への品種改良などの研究、生命の本質的な理解につながる新発見が期待されています。


それでは、大量のNGSデータから生物学的に重要な情報を得るにはどうすればよいのでしょうか?NGSデータは1サンプルでも既に全ゲノムレベルの情報量を持っており、それが数百、数千サンプルとなるとそれこそ途方もないデータ量になります。また、得られるデータの構造やデータの特性は実験法ごとにばらばらですし、技術的に難しい実験のデータは品質に大きなばらつきが生じます。 そのような玉石混交のビッグデータを元にした多種多様なゲノムイベントの解析を行うことは現在でも非常に難しく、大きな需要があるにも関わらず、大変高いスキルを持った一部の研究者しかそのような解析ができないという現状があります。 レストランに例えるなら、様々な食材(データ)は充実してきたけれど、料理するための下ごしらえ(データ整形)は全くされておらず、料理するための器具(ツール)や、料理できるシェフ(解析者)が足りてない、というような状況です。

この問題を克服すべく、我々の研究室では大量のNGSデータを統合解析する「データ駆動型解析 (data-driven analysis)」のための手法開発に取り組んでいます。仮説をもとに実験系を組み立てる生物学実験に対して、データ駆動型解析では大量の入力データの中に潜む未知の相関、特徴を抽出することで、既存知識に依存することなく重要な知見を抽出します。宝探しに例えると、宝を掘るのが生物学実験、宝のある場所の候補を推薦してくれるのがデータ駆動型解析と言えます。解析パイプラインによる半自動化によって高い解析コストを低減し、分野の発展に貢献するとともに、既存のゲノム・エピゲノムデータベースを活かした大規模解析を展開します。

データ駆動型解析は事前知識に依存しないため、誰も予想しなかったような全く新しい発見ができる可能性があります。さまざまなNGSアッセイを用いて得られたエピゲノム・立体構造・組織内不均一性など多種多様かつ大量のデータセットを横断的に解析し(マルチNGSオミクス解析)、一分子イメージングやin silicoシミュレーションなどNGS以外のテクノロジーも取り入れながらゲノム上の諸機能の連携を体系的に解き明かし、エポックメイキングな全く新しい知見を得ることを目指します。

エピゲノム解析パイプラインDROMPA

エピゲノム解析パイプラインDROMPA
(Nakato et al., Methods in Molecular Biology, 2018)

主要な研究テーマ

次世代シーケンサを用いた網羅的ゲノム解析(知見獲得)

生命系研究室との多くの共同研究を通し、以下のようなNGSアッセイについて新規手法の開発とそれらを用いた新規知見の獲得の両面で研究を進めています(Publication参照)。現在は特にChIP-seq、Hi-C、1細胞解析に力を入れています。

  • ChIP-seq: タンパク質-DNA結合およびヒストン修飾
  • DNase-seq, ATAC-seq: オープンクロマチン
  • Bisulfite-seq: DNAメチル化
  • RNA-seq: 遺伝子発現変動および新規転写物同定
  • Hi-C, ChIA-PET: ゲノム立体構造
  • Exome-seq: 遺伝子変異
  • 1細胞解析: 生体組織内細胞不均一性

データの品質評価・再構築手法の開発

大規模解析においては入力データが高品質・高信頼性であることは何よりも重要である一方、希少なサンプルや困難な環境の実験の場合、品質としては良くないデータから信頼性の高い結果を得なければならない状況にしばしば遭遇します。我々は生成されたサンプルの特性を多角的に評価するための新規品質評価手法や、ノイズを多く含むようなデータの精度を高める正規化、機械学習を用いたデータの再構築手法について研究しています。

SSP図

NGSデータにひそむ「隠れ冗長リード」の発見と、その影響を除去した品質評価指標の提案 (Nakato et al., Bioinformatics, 2018)

遺伝子ネットワーク

9種の血管内皮細胞による遺伝子発現プロファイルをもとに構築した遺伝子ネットワーク (Nakato et al., Epigenetics & Chromatin, 2019)

分野融合的な研究

数理システムや生物物理分野との共同研究による、以下のような分野融合的研究にも積極的に取り組んでいます。

  • 細胞分化のシングルセルデータを用いた疑似時系列数理モデリング
  • ポリマーシミュレーションを用いた疑似Hi-Cデータ生成と立体構造モデルの検証

計算の高速・高精度化

大規模NGS解析は入力・出力ともデータ量が膨大であるため、計算量の問題が常につきまといます。一般に計算速度と結果の精度にはトレードオフ関係が存在しますが、精度を保ちながら高速・省メモリ化するための手法を研究しています。


Copyright © 2019-2021 Nakato Laboratory All Rights Reserved.