言葉の流れに対する脳の反応

顧問の西川伸一を中心に館員が、今進化研究がどのようにおこなわれているかを紹介していきます。進化研究とは何をすることなのか？歴史的背景も含めお話しします。

バックナンバー

言語の誕生については前回で終わり、今回から文字（Writing）について考えようと準備していたが、たまたま最近、連続的に聞こえてくる言葉の流れに対する私たちの脳の反応についての面白い研究を読んだので、予定を急遽変更し、今回はこの問題を取り上げたい。

言うまでもなく言語は私たちの脳活動から生まれた情報メディアで、個人の脳のネットワークに集め、記憶し、処理した内部・外部からの情報を、ほぼ同時的に他の個体と共有できるようにして伝達することを可能にした点で、それ以前に生物活動から生まれたDNAを含む情報メディアとは全く異なっている（言語の起源I参照）。しかしこの情報メディアは、完全に脳の活動に依存しており、言語情報は他の人間の脳回路へと集められ処理されてはじめて情報として機能する。すなわち、私たちの脳が音として流れてくる言語を聞いた時、音節で区切られた単語が集まった文章として表象された情報に注意を向け、その表象を脳内に長期記憶として持っている様々な表象と参照しながら、脳回路上の新しい表象へと転換しなおすことで、情報を理解している。従って、言語を聞いて、情報として脳内に新しく表象し直すまでの過程を知ることは、人間の脳科学に残された重要な領域だ。

言語誕生以来、私たちは言語をそれが実際に使われているのを聞いて経験する中で獲得してきた。これは学校で何かを論理だって習うというのとは違っており、単語とその時の経験を連合させる過程を繰り返しながら、単語の意味を理解し、ボキャブラリーを増やす、一種の記憶過程だ。早い遅いはあってもほとんどの子供が３歳前後でかなりの数のボキャブラリーを習得し、言語を自発的に話せるようになるのは、言語自体が人間の脳の一般的発達過程にうまく適合していることを示しているのではないだろうか。

これは、言語か各個人によって別個に習得される必要性があることから、言語自体もこの習得過程に適するように進化して来たと考えるとわかりやすい。この言語の特徴を、以前紹介した（http://www.brh.co.jp/communication/shinka/2016/post_000011.html）Deaconは、昔アップルコンピュータがアイコンを用いた画面を使って、PCオペレーションを私たちユーザーの脳に合わせるという革命を成し遂げたことにたとえている。この例えを使うと、PCが私たちの脳に合うように進化したのと同じように、私たちが経験を通して学びやすいように言語も進化しているというわけだ。

ただ、この考えが本当かどうかを判断するためには、脳が言葉の流れとして表象されている情報を、どのように処理し、脳回路を書き換えるのか理解する必要がある。現在の言語は我々の脳にフレンドリーだとしても、聴く前から情報の内容がわかることはない。順序だって並ぶ単語を一つづつ聞きながら、全体の情報の意味をどこかの時点で理解する必要がある。

この時成人の脳でどのような過程が起こっているのか想像すると、一つ一つ流れてくる単語を、作業記憶として処理しながら、意味を理解するために作業記憶を長期記憶や、意味記憶と常に参照しながら、情報をまとめ上げていると想像できる。長期記憶や意味記憶が脳内の様々な場所にバラバラに蓄積されているとすると、言葉を聞いて理解する過程は、多くの脳内領域が作業記憶と参照される脳全体の活動だとわかる。問題はこの過程に対応する脳過程をどう観測するかだ。

これまで脳の活動を記録する様々な方法が開発されているが、PETやMRIは脳の興奮に伴う血流の変化を調べる検査法であるため、実際の活動と、検査上の変化とどうしても1秒以上のズレがあり、流れてくるそれぞれの単語に対する反応をリアルタイムで調べることは難しい。このため、どうしても脳の電気活動を調べる方法に頼ることになる。研究者側から見て一番望ましい検査は、脳内に電極を電気活動を拾うことだが、おいそれとできる検査ではない。結果として、いわゆる脳波計(EEG)を用いる検査が行われるが、痒い所を「布団の上」から搔く様な話で、頭蓋の外から記録される電位変化の解釈は難しい。しかし、他に簡便な方法がない以上、EEGを出来るだけ多くの領域から記録し、得られる波形をコンピュータを用いて解析する方法が進んだ。特に、時間的に連続して生起するイベントに対するEEGの変化をEvent related potential(ERP)と呼び、小さな波形の変化を抽出して解析する方法が進んだ。

そして1980年、この分野で最も影響力の高い論文がKutaとHillyardによりScienceに発表された（Science 207:203, 1980)。この論文で示されたのは、文章を聞いている時、急に文脈に合致しない単語が紛れ込んでいると、その単語を聞いてから約400ms後にEEGの波形が明らかに変化するという現象で、N400としてこの分野で最も重要な現象として研究されている。

彼らの総説から例を挙げてみよう。「彼は毎日ヒゲと町を剃る」という文を聞いた時、文章の中の町という単語は場違いであるとだれでも思う。実際、脳の方も困惑しているのか、「町」という言葉を聞いた400ms後に電位が高まるのを観察することができる。これが、N400の発見だ。

N400はその後40年近く、文章として表象される言語に対する脳の反応を検査するための重要な指標として研究されてきた。個人的な解釈を述べるのを許してもらうなら、N400とは聴きながら作業記憶として処理する単語やその並びを、これまで脳内に形成した長期記憶と参照しながら、一つの情報へとまとめ上げる作業過程と言える様に思える。そして、文章を聴き終わるまでに、私たちは文脈を理解しており、このため逆に場違いな言葉が紛れ込むと、強く反応してしまうことになる。

考えてみると、3歳までの発達期で私たちは場違いな単語と出会うという経験を繰り返してきたはずだ。単語自体は抽象的で何の実態もない。したがって、脳内の長期記憶と対応付けられないと、全ての単語はその場に合致していないことになる。とすると、発達期に耳にする単語は全て場違いな単語で、長期記憶と連合できないという点で、意味をなさないはずだ。しかし、音と具体的な情景や物が繰り返し連合することで、単語とともに言語としての認識が、長期記憶として脳に蓄積されていく。そして、言葉を聞くたびに、外界の表象とともに、言語として蓄積した長期記憶が参照される。これが、N400として記録される過程ではないだろうか。

面白いことに、N400は例えば音楽を聴いていて不協和音や雑音を聞く時には観察されない。このことは、音楽と言語の把握が大きく異なるメカニズムで行われていることを示すとともに、N400が、言語意味が問題になるEPR過程に限定されるプロセスである過程を強く示唆している。N400という現象論が、より実際の経験や理解に転換するためには、これまでとは異なる新しい方法が必要になるだろう。しかしEEG検査は幼児期から可能な検査であることを考えると、今のままでも、発達段階で言語体験とN400を調べることで、言語についてさらに新しい発見がある予感がする。

このようにN400は奥の深い研究領域で、完全に理解されているわけではなく、これ以上説明するのはやめるが、とりあえず概要を理解してもらったところで、今日紹介したいと思っているのが、私がN400のことを知るに至ったダブリン大学からの論文で、N400をヒントに、言語理解の新しい展開を模索している。タイトルはElectrophysiological Correlates of SemanticDissimilarity Reflect the Comprehensionof Natural, Narrative Speechで雑誌Neuron 5月号に発行予定だ。

N400はたしかに言語に関わる過程の研究指標としては優れている。ただ、場違いな単語を滑り込ませるなど、これまでどうしても自然な言語からはかけ離れた人為的なセッティングで研究が行われてきた。

この研究の目的は、これまでのような人為的設定ではなく、自然な話し言葉の中で個々の単語に対するN400に相当する脳の反応を調べるための、新しい方法の開発だ。脳の記録自体は、EEGを用いる点で特に代わり映えはしない。また、脳波の小さな変化の中からN400に相当するコンポーネントを小さな波形の変化の中から取り出すこ方法も今の方法で十分だ。しかし、自然な言語に対する脳の反応を調べるためには、私たちが頭の中で行っているのに近い形で、それぞれの単語の間の関係性を評価する必要がある。例えば、机とりんごは大きく違っているが、りんごとみかんは近いといった関係だ。

このために、著者らは文章の中に出てくる単語の持つ400種類もの性質を元に４００次元空間上のベクトルとして定義し、この値を基礎に個々の単語の持つ違いを、この空間上の距離として数値化した。この方法の詳細を理解しているわけではないが、人間が恣意的に単語同士の距離を決めるのではなく、各単語の使われ方を基盤にして、単語間の違いを独立に決めたところが重要で、これにより初めて独立した言語と、人間の脳の反応の相関を数値として調べることが可能になる。４００次元と聞くと難しそうだが、おそらく自動翻訳などでAIを使って単語間の近親性を計算しているのと同じことだと思う。私たちは意味と言うと、すぐに自分の経験で考えるが、AIが発達した今は、このように多くのパラメーターを使った多次元空間での距離で定義することは普通に行われていると想像する。

様々な文章を聞かせて、EEGを記録し、文章に含まれる単語とEEGの反応の相関を調べていくと、単語自体ではないが、続いて現れる各単語間の距離と、200-500msで現れる電位とが高い相関を示すことが明らかになった。これをtemporal response function(TRF)と呼び、指標としてEEGを解釈することで、独立に定義した言語空間と脳の反応の相関が生まれる脳のメカニズムを探っている。

この論文の最も重要な発見は、ここで定義された単語同士の距離は、ランダムに単語を聞かされても、TRFを誘導しないことだ。例えばone fishと聞くときもちろん意味を理解することができるが、oneとfishの単語としての意味論的差異は大きい。驚くことに脳波、このone vs fishの違いにしっかりと反応し、fishと聞いた後300-500msでTRFの低下がみられる。すなわち、文章内の単語間の意味の違いの大きさに脳波がしっかり反応している。

しかし、同じ単語の組み合わせでも、同じ文章を逆さまに読んで聞かせた時にはTRF決して現れない。また、意味のある文章でも、周りのノイズにより理解が邪魔されると、やはりTRFは現れない。逆に、文字を見ながら文章を聞かせて理解を高めると、TRFがさらに明確になる。

これが結果の全てだが、単語間の距離という文章を構成している部分が、文章全体の文脈の中で連続的に評価されていることが大変よくわかる。この文脈を私たちが長期記憶として持っている言語空間と参照されることで形成されていく意味と捉えるとN400やTRFがこの４００msの間に起こっている過程を反映しているのは納得できる。

以前言語の2重構造について述べ、言語は個人の空間と、個人とは独立した社会が形成する言語空間をもち、それぞれは相互作用しながらも、独立して言語を進化させることを述べた（言語の2重構造参照）。私は、今回紹介した論文を読んで、この2種類の言語空間を脳科学的に扱えることを確信した。今後も是非この分野に注目して行きたい。

ちょっと脱線したが、次回からは文字について考える。

[ 西川伸一 ]

進化研究を覗く最新号へ