事業成果

タンパク質特徴量の大規模解析法

タンパク質の構造安定性の大規模データの取得方法を開発2024年度更新

写真:坪山 幸太郎
坪山 幸太郎(東京大学 生産技術研究所 講師)
さきがけ
「人工タンパク質による、高次構造体の自由自在な解体・分解」(2022-2024)

約90万種類のタンパク質の構造安定性を一度の実験で測定

坪山幸太郎東京大学生産技術研究所講師ら (当時:ノースウェスタン大学ポスドク) は、タンパク質の構造安定性を効率よく測定する方法を開発した。

タンパク質の構造安定性とは、一般的には機能的な構造を持つタンパク質の割合を示す指標である。タンパク質の構造安定性が低いということは、機能的なタンパク質の割合が低いことを意味するため、細胞内で機能的なタンパク質が不足して、さまざまな疾患につながる原因となりうる。

これまでは一度の実験で、1種類のタンパク質の構造安定性しか測定できなかった。そのため、それらを比較、検証するためには多くの時間と費用がかかっていた。

今回、研究グループは、タンパク質のアミノ酸配列情報をDNA配列情報へ変換し、DNA配列を高速に読み出す技術を用いること、またタンパク質の酵素による切断速度を構造安定性へと正確に変換するアルゴリズムを構築することで、一度に約90万種類のタンパク質の構造安定性を測定することに成功した。

近年、ChatGPT をはじめとする深層学習モデル※1を基礎としたAI が目覚ましい発達を遂げており、それらを利用してタンパク質の性質を予測するAIの構築が進められているが、そのためには膨大なデータが必要となる。しかし、これまでに測定されたタンパク質の構造安定性のほぼすべてを統合したデータベースであっても約3万種類のタンパク質の構造安定性情報にとどまっていた。今回、開発された測定方法を使うことで、これまで蓄積されたデータの数十倍のデータを一度の実験で取得することができる(図1)。このことから本成果は、タンパク質を理解するためのAI開発に役立ち、それにより、さまざまな疾患の原因となるアミノ酸変異の特定やタンパク質医薬の設計を補助することなどが期待される。

※1 深層学習モデル
ニューラルネットワークと呼ばれる脳の神経回路を模倣したような構造を持つ機械学習モデル。ネットワークの層を多層化、複雑化させることで、囲碁などを含む多様な課題を高精度で解くことが可能になっている。

図1

図1 タンパク質構造安定性に重要な部位を示した「解剖図」

タンパク質における、それぞれの位置の構造安定性に対する重要性を示す (青色ほど重要で、赤色ほど重要でない)。タンパク質における構造安定性に重要な位置を示すこのような図を1つ作るために、従来の手法では1000-2000種類のアミノ酸配列の構造安定性を個別に測定する必要があり、このような構造安定性の解剖図を作成することは困難であった。

タンパク質の構造安定性の測定は手間と費用が課題

タンパク質は体のあらゆる組織の材料であり、体のさまざまな機能を調節する役割も果たす、生物が生きる上でなくてはならないものである。

ほとんどのタンパク質は、構造がほどけた状態 (Unfolded) や、きちんと折りたたまれた状態 (Folded) を含む複数の状態を行き来している。原則として、タンパク質は折り畳まれた状態でのみ本来の機能を発揮する。このタンパク質の折り畳まれた状態の割合を示す「タンパク質の構造安定性」は、機能的なタンパク質の割合を示すため、タンパク質の働きを知る上で重要な指標である。

しかし、タンパク質の構造安定性については、データが不足しているため、不明な部分が多かった。その理由は、一度に多数のタンパク質の構造安定性を測定することができず、それぞれのタンパク質について、ひとつひとつ独立して実験を行う必要があり、タンパク質の構造安定性の測定に多大な手間と時間がかかるためである。

タンパク質の構造安定性を効率よく測定する方法の開発

研究グループはタンパク質の構造安定性を効率よく測定するために、2つの工夫を取り入れた。

1つ目の工夫は、タンパク質のアミノ酸配列情報を読み取る方法である。近年、次世代DNAシーケンス※2の発達により、アミノ酸配列を直接読み取るよりも、DNA配列を読み取るほうが、正確で大規模な解析が可能である。そこで、cDNA display 法※3を用いて、タンパク質とそれに対応するcDNAをそれぞれ結びつけ、アミノ酸配列をcDNAの配列へ変換し、解析した。つまり、cDNA display法と次世代DNAシーケンスの2つの技術を組み合わせることにより、非常に多くの種類のタンパク質のアミノ酸配列を一度にまとめて解析することが可能となった。

2つ目の工夫は、タンパク質の構造安定性の定量に、タンパク質の切断酵素であるプロテアーゼを用いたことである。プロテアーゼは、構造がほどけた状態のタンパク質を切断するが、折り畳まれて安定なタンパク質を切断できない。そこで、プロテアーゼにより、タンパク質が切断される速度を測定することにより、タンパク質の構造安定性を測定することが可能となった。

これらの方法を組み合わせることで、一度の実験で約90万種類のタンパク質の構造安定性を測定することに成功した。

さらに研究グループは、天然タンパク質や人工タンパク質など約500種類のタンパク質の構造を保つ仕組みについても調べた。タンパク質のどの部位のアミノ酸が構造維持に重要なのかを調べるために、それぞれの部位のアミノ酸を他の19種類のアミノ酸へ置換した場合、アミノ酸を欠損させた場合、グリシンもしくアラニンを挿入した場合で、構造安定性を測定した。これによって、どの部位が構造維持に重要なのか、構造安定性を可視化することが可能となった(図2)。

※2 次世代DNA シーケンス
一度の解析で、百億程度までのDNA分子の配列を同定可能な基盤技術。各DNA配列の数を正確に定量できるため、※3のcDNA display法と組み合わせることで、多数のタンパク質の存在量を正確に定量することが可能となる。

※3 cDNA display 法
試験管内でタンパク質と対応するcDNAを結びつける方法。cDNA配列を解読すれば、そのタンパク質のアミノ酸配列を解読できる。

図2

図2 タンパク質の構造安定性の解剖図

(a,c)タンパク質のそれぞれの位置の構造安定性に対する重要性を示す(青色ほど重要で、赤色ほど重要でない)。
(b)(a)のタンパク質の構造図の元データ。野生型のタンパク質の構造安定性(白・黒点)と比べてそれよりも構造安定性が低下する(青)、もしくは安定化する(赤)ことを示す。1種類のタンパク質の「解剖図」を作成するために、千種類以上のアミノ酸配列の構造安定性を測定する必要がある。横軸はタンパク質中の位置を、縦軸はアミノ酸の置換や欠損、挿入を示す。

次世代タンパク質科学を下支えする基盤となりうる

近年、タンパク質の研究は、仮説を基にタンパク質の性質や機能を検証する研究から、大規模データを取得、解析する研究へと移行しつつある。それにより、幅広いタンパク質の性質や機能が明らかになってきている。このような新しいタンパク質の研究には、大規模データの取得と、その解析技術の両方が必要となる。

本成果は、タンパク質の大規模データの取得に大きく貢献する。それにより、病気の原因となるタンパク質のアミノ酸変異を予測するためのAIや次世代のタンパク質医薬を効率的に設計するためのAIの開発などに繫がることが期待される。