<背景> |
我々は日頃、周囲の状況や現在の行動から、即座に得られる結果と長期的な結果の双方の予測をもとに行動を選択している。目先の利益ばかりに目を取られて後で大損をしたり、逆に将来の大きな利益に期待しすぎて、足下の危険を見逃すなどの失敗は数知れない。利益や損失、快楽や苦しみなどの「報酬」は,行動の結果直ちに得られるものと将来的に遅れを持って与えられるものとがあるが,その双方を正しく予測し、その適切なバランスをもとに行動を選ぶことは人間の知的機能にとって非常に重要である。うつ病や薬物依存、衝動性を伴う精神障害の一つの要因は、短期と長期の報酬予測のバランスが崩れることと考えることができる。衝動的な行動を引き起こす脳内での原因としては、前頭葉や大脳基底核の特定の部位の損傷や、脳内物質セロトニンの機能低下の関与が報告されているが、その具体的なメカニズムは未だ明らかでない。 |
<「強化学習」からのアプローチ> |
行動の探索とその良し悪しを評価する報酬信号をもとに、より多くの報酬が得られるような行動を学習する方式は、理論的には「強化学習」という枠組みで定式化され、ロボット制御や人工知能などへ応用されている。近年、強化学習の理論的枠組みをもとに、人間や動物の行動学習に関わる脳機構を理解しようとする試みが進んでいる。
銅谷研究代表者は、人間や動物が未知の環境で多様な行動を学習するには、学習の進め方自体を学習する、「メタ学習」の機構が不可欠であり、セロトニンやノルアドレナリンなどの神経修飾物質系がメタ学習に関与することを指摘した。特に、これまでの臨床事例や動物実験などの知見をもとに、脳幹の縫線核から脳の広範な部位に送られるセロトニンが、どれだけ先に得られる報酬までを考慮するかという時間スケールを制御するという仮説を提唱した。
そのような報酬予測の時間スケールは,脳内ではどのように調節されているのだろうか?ひとつの可能性は、脳内には短期的な報酬から長期的な報酬まで、様々な時間スケールでの予測を行うネットワークが並列的に存在し、その時々の状況に応じて最も適したものが選択されるというものである。そこで本研究は、強化学習の理論をもとに、長期的な報酬の予測と短期的な報酬の予測がそれぞれ必要な行動学習課題を新たに考案し、ヒトが予測を行っている時の脳活動を、機能的核磁気共鳴画像法 (fMRI)を用いて測定した。 |
<「損して得取れ」課題> |
この学習課題において、被験者は画面上に提示される3種類の図形に対して左右2つのボタンのどちらを押すかを試行錯誤により学習する。図形ごとのボタンの選択に応じて+20円、?100円など報酬金額が画面に表示されるとともに、次に表示される図形が図1のようなルールで決定される。短期報酬予測条件では、被験者は単純に各図形に対して、より多くの報酬金額を与えるボタンを押すことを学習する。一方、長期報酬予測条件において大きな正の報酬が得られる図形を呼び出すには、まず小さな負の報酬を受けるボタンを選ばねばならない。つまり、目先の報酬にとらわれていては、長い目で見て最適な行動を取ることができない。この2つの条件で被験者に交互に学習を行ってもらい、その脳活動を比較した。その結果、短期報酬予測条件では前頭葉の下部や大脳基底核の一部に(図2左)、長期報酬予測条件では前頭葉の外側部や頭頂葉、大脳基底核、小脳、また脳幹でセロトニンを伝達する細胞を多く含む縫線核に活動の増加が見られた(図2右)。 |
<実験データの理論モデルによる解析> |
次に、脳の各部位がどのような時間スケールにおける報酬予測に関わるかを調べるために、被験者の脳活動データを強化学習の理論モデルに基づいて解析した。具体的には、各被験者が実際に経験した図形と報酬の時系列を、強化学習のプログラムに疑似体験させ、 報酬予測の学習を行わせた。この際、予測の時間スケールを決める値を6通りに変えて学習を行わせた。このようにして学習プログラムが推定した各被験者にとっての報酬の「予測値」と「予測誤差」信号と、各被験者の脳活動データとの相関を調べた。その結果、前頭葉と側頭葉の間に位置する「島皮質」の下部から上部に向けて、短い時間スケールから長い時間スケールでの報酬予測値に相関する脳活動のマップを発見した (図3左)。また大脳基底核の入力部にあたる線条体では、その下部から上部に向けて、短い時間スケールから長い時間スケールでの報酬予測誤差に相関する活動のマップを発見した (図3右)。
島皮質から線条体の間には、島皮質の下部は線条体の下部に、上部は上部にという並行的な結合が存在する。今回の実験結果は、これまで情動的な機能を司るとされていた線条体下部を含むネットワークが短期的な報酬予測に関わり、より高次な認知的機能を司るとされて来た線条体上部を含むネットワークが長期的な報酬予測に関わるという、時間スケールでの機能分化を示唆している。学習の理論モデルによる解析を行うことで、2つの条件間の脳活動の差を見るという、従来の解析ではわからなかった脳回路のより具体的な機能を特定することができた。 |
<本研究の意義と今後の課題> |
近年の情報通信技術の発達と経済自由化の進展は、長期的視野に立つ熟考よりも、即断即決により短期的に成果を上げることをよしとする風潮を生んでいる。その一方で、あまりに短絡的とも見える暴力犯罪や薬物依存、自殺や自傷行為の増加が懸念されており、衝動的な行動を生む社会的、文化的、生物学的な要因の解明は,今日的に極めて重要な課題である。本研究による異なる時間スケールでの報酬予測の脳回路の解明は、衝動性を生む脳機構の理解と診断、予防や対策への重要な手がかりを与えるものである。
このような報酬予測を行う脳の並列ネットワークが、セロトニンなどの脳内物質系によりいかに調整されているかを明らかにすることで、報酬予測のバランスの乱れに起因すると考えられる様々な精神障害、行動障害の解明や治療への道が開けることが期待される。 |
<論文名> |
Prediction of immediate and future rewards differentially recruits cortico-basal ganglia loops
(短期と長期の報酬予測は大脳皮質―基底核ループの異なる部位で行われる)
doi :10.1038/nn1279 |
この研究テーマが含まれる研究領域、研究期間は以下の通りである。
研究領域: |
脳を創る (研究総括:甘利俊一、(独)理化学研究所 脳科学総合研究センター センター長 ) |
研究期間: |
平成11年度~平成16年度 |
|