ひびめも

日々のメモです

二重運動性発話調整システム (dual motor speech coordination system) の神経アーキテクチャと進化

Beyond broca: neural architecture and evolution of a dual motor speech coordination system.
Hickok, Gregory, Jonathan Venezia, and Alex Teghipco. 
Brain (2022): awac454.

 

Brainの面白そうな総説を読もうと思って探したら面白そうなのがあったので読みました。

そもそもこういう言語の文献を読む際に、phonemic / phonological / phonetic / syllabic という単語が出てくるのですが、これらの区別がまったくできてなかったので先に書きます。

(i) phonemic (音素の): 音素とは、発話する単語の中にある個々の音の単位こと。たとえば英語には約45種類の音素があり、音素の中には、"b", "p", "n" などの子音のように、1文字だけに対応するものもあれば、複数の文字や文字のグループに対応した音素もあり、たとえば [ei] という音素は "a", "ay", "ai", "eigh" などと表記されることがある。bin は b-i-n の3つの音素を持っているし、weigh は w-eigh の2つの音素を持っている。一方日本語では、音素は23個ほどであるといわれている。これは、"l" と "r" の区別がなかったり、[ei] などは "え" と "い" の2つの音素とみなされるからである。
(i) phonological (音韻の): 音素より上位の概念。音節や単語のレベルにおいて個々の音素を選択し並び替えたもの。たとえば "weigh" と subway の "way" は 異なる発音 (音声) を持つが、同じ2つの音素から成り、どちらも同じ音韻である。また、「秋」と「柿」それぞれの「き」は異なる発音 (音声) を持つが、同じ単一音素であり、同時に同じ音韻を持つ。
(ii) phonetic (音声の): 発話された音の物理的性質を重視した概念。たとえば、音声が声道からどのように発生するか、聴覚システムでどのように知覚されるのか、音波としての物理的特性は何か、といった視点から音を考える場合、これを音声という。
(iv) syllabic (音節の): 音節とは、音声的な聞こえ度 (sonority) に依存して定義された、連続する言語音を区切る分節単位である。したがって、音素/音韻といったmentalな概念よりも、音声などのphysicalな概念に近いものである。たとえば、chocolate は cho-co-late という3つの音節に分解される。

大きく間違ったことは言っていないはず。

 

背景
Paul Brocaは1860年代の一連の報告において、左下前頭回後部の1つの領域 ー現在はBroca野と呼ばれているー が、「構音言語能力 (faculty of articulated language) の座」であると銘打った。Brocaは「構音言語」という語を使うにあたって、「この領域が司るのは言語能力ではなく、単語の記憶でもなく、音声や構音に対応する神経と筋の活動でもなく」「構音言語の適切な運動を調整する能力である」とした。ちょうど1世紀と少し前に、Norman GeschwindはBrocaの主張を支持し、「唇、顎、舌、軟口蓋、声帯の筋の運動を制御する運動皮質のすぐ横に存在するBroca野には、発話におけるこれらの筋の調整を行うプログラムが組み込まれている」と記述した。
しかし、現代のエビデンスはBroca野が発話運動の調整に関与するという考えに異議を唱えている。ここで我々は、運動発話の調整を、一次運動皮質における低次の構音制御と、高次の形態統語処理の、中間レベルにある計画と定義している。また、その調整ネットワークはたった1つしか存在しないという考えにも、異議が唱えられている。Broca野は一般に下前頭回の弁蓋部と三角部と定義されるが、我々は現在この領域が機能的または解剖学的に一枚岩ではなく、そしてこの異種性は発話の調整ではなく、統語や語彙選択、ワーキングメモリ、系列化といった様々な高次の処理に関連していると考えている。一方で、Brocaが記述したような発話の調整の障害 (たとえば、発語失行でみられるようなもの) は、より後方の前頭葉運動関連領域や島前部に主に関連している。発話調整ネットワークが単一であるという考え方については、多くの研究において、発話タスクに関与する腹側領域に加えて、単純な受動的または表現的発話タスクにおいて一貫して活動がみられ、直接刺激によって発話停止や発生がみられる、より背側の発話野が報告されており、このより背側の領域が発話調整において重要な追加の部位である可能性が示唆されている。この記事のトピックは、こうした二重発話調整アーキテクチャの可能性である。
我々は以下のセクションにおいて、発話の調整を (i) 喉頭制御が主に関連するピッチ関連発声 (プロソディ、歌)、(ii) 喉頭上声道制御が主に関連する音声/音節構音、の2つの並列システムに分割する、新しい神経アーキテクチャモデルの動機づけを行う。この議論は大きく2つのパートに分かれている。第1部では、中心前回に2つの分離可能な発話野が存在することを示すエビデンスを振り返り、この機能的区別の仮説の動機づけとする。第2部では、ヒトの脳がなぜ2つの分離可能な発話調整システムを進化させたかを考察する。

 

1. 2つの発話調整領域と仮説

1-1. 中心前回外側にある2つの発話野
発話調整領域がより背側に存在するというエビデンスは、Brocaが1861年に2例目の症例報告として、発話調整障害または 'aphemia' を呈したLelongを提示したときからすでに存在した。Lelongの損傷は、弁蓋部の最後部のみを含みながら、より背側の中前頭回後部にまで広がっており、Brocaの1つ目の症例と比較して局所的であった。Brocaはこの事実に注目し、「構音言語能力を発揮するためには、第3前頭回の完全性 (おそらく第2前頭回も) が不可欠であると思われる」と記述した。様々な情報源から得られた現代のエビデンスは、中心前回に2つの発話調整領域が存在することを強く支持しており、次にそれを要約する。

1-1-1. 機能画像
1990年代には、機能画像の分野からも、Broca野の弁蓋部領域に対応する腹側の後外側前頭皮質と、中心溝内の一次運動皮質というよりもむしろgyral crown上の運動前野内に存在する背側の中心前回内領域 (中前頭回のすぐ後方) の、2つの領域が発話に関連することが示されてきていた (図1)。実際の所、これらの領域の機能的役割は未だわかっていないが、こうしたエビデンスは、この2つの領域が現代的な発話処理の二重モデルを特徴づけるということを示すのに十分なものである。

図1. 音声処理に背側の中心前回領域が関与していることを示す様々な研究による脳地図 (赤色矢印)。A: 単語を復唱する際の活動と、逆再生された単語を聞いたあとに "crime" と言った際のPET活動を引き算したもの。B: 発話の聴覚 (無意味な文章を聴く) と運動 (無意味な文章を静かに繰り返す) に関連した活動を示したfMRI研究。C: 音節の聞き取り (ヒートマップ) と、同じ音節の生成 (黒枠) に関連したfMRI活動。D: Human Connectome Projectデータベースから、area 55bを示すミエリンマップ (左) とfMRIタスク活性化マップ (右)。E: 発話処理の二重処理モデルにおいて、運動性発話に関連した処理に関連する2つの前頭葉領域を示した図。

1-1-2. 脳神経外科的刺激マッピング
2つの中心前回外側発話調整領域に関するさらなるエビデンスは、直接的皮質刺激マッピングにおける発話の妨害の解剖学的分布に関する、近年の多施設後方視的研究から提供される。妨害とは、(i) 発話停止、すなわち「数を数えている間に、口腔、顔面、下顎、喉頭の筋肉の運動が明確に停止し、完全に中断される」と定義されたもので、Brocaのaphemiaに最も近いもの、または (ii) 失名辞、すなわち「絵の中の対象物の名前が言えない、または間違った単語を使って名前を間違える (e.g.「犬」の代わりに「猫」を使う)、ただしその直前の文章 (e.g.「これは・・・」) までは話すことはできる」と定義された。600人近い患者のデータを調べたところ、発話停止に関連する4つのクラスターが特定された。最も密度の高い2つのクラスターは、腹側後部前頭皮質 (緑、cluster #1) と、背外側後部前頭皮質 (黄、cluster #2) で、それぞれ中心前回に中心を持ち、他の2つは補足運動野と上部側頭葉後部に含まれていた (図2A)。弁蓋部を含む古典的なブローカ野は、発話停止に一貫した関与を示さなかったが、失名辞には関与しており、ブローカ野の高次機能を示唆する他のエビデンスと一致していた。

図2. 背側および腹側の発話調整システムに関する脳神経外科的および脳卒中に基づいたのエビデンス。A: 皮質への直接刺激により発話停止 (本文参照) を誘発する位置の地図。色はクラスター解析の結果を表す。黄と緑のクラスターは、それぞれ背側と腹側の中心前回を中心とした密度分布を持っている。B: 脳卒中後失語における復唱障害を予測する白質結合のマップ。中心前回背側および腹側の両方との結合が重要であることが示唆される。

1-1-3. 発語失行
発語失行 (AOS: apraxia of speech) は、発話の計画 かつ/または プログラミングの障害を反映すると考えられている運動性発話障害であり、機能的階層の中では高次の失語と低次の構音障害の中間に位置すると考えられている。そのため、AOSはBrocaとGeschwindの定義において発話調整障害と呼ばれたものの現代型と言える。AOSの基礎となる神経解剖学については根強い議論があるものの、腹側弁蓋領域と前島を強調する研究者がいる一方で、より背側の運動前野寄りのエビデンスを発見した報告もあり、同時に両者の重要性を強調する報告もあることは、現在の文脈において注目すべきことである。これはすなわち、脳神経外科的および機能画像的観察における二重領域仮説を支持するものである。発語失行にサブタイプがあるかどうかについては、さらに議論がある。支持を集めている一つの提案は、音声型 (主に音素の歪み、置換、付加) とプロソディ型 (主に超文節的な速度、セグメンテーション、プロソディの歪み) を区別することである。おそらく、これらの異なるサブタイプは、腹部と背側の相対的損傷度によって異なる。実際、最近の症例報告では、外科的な中前頭回後部の切除により、プロソディ障害を伴う慢性的な発語失行が報告されている。

1-1-4. 復唱
復唱は聴覚-運動発話回路の統一性の診断的検査として長く用いられてきた。これは、この検査が語彙へのアクセスと選択の負荷を減少させる一方で、より直接的な感覚運動相互作用に高い負荷をかけることができるからである。古典的モデルでは、Wernicke野とBroca野を結合すると考えられている主要な白質路である弓状束は、この能力の背景となる神経解剖の1つであった。しかし、様々な後方の側頭葉および頭頂葉領域から、背側および腹側の発話野への結合性が存在することがわかり、現実はより複雑であることが明らかとなった。近年のデータドリブンの機械学習研究は、脳卒中後失語における復唱障害の基盤となる領域間結合性を直接的に評価し、復唱障害が腹側および背側の前頭発話野の両方に対する白質結合性の障害によって予測可能であることを報告した。これらの結合性パターンはいずれも、Wernicke野とBroca野の間の弓状束を介した結合を示唆するものではなかった。むしろ、腹側発話野への重要な結合は、縁上回前部の下頭頂二次体性感覚皮質にあり、一方で背側発話野への重要な結合は、上側頭回にある聴覚皮質領域にあった (図2B)。我々は、引き続くセクションでこの感覚結合性の差異について議論する。

1-1-5. セクションのまとめと定義
健常者を対象とした様々なタスクベース機能画像パラダイム、脳外科患者に対する直接的皮質刺激、脳卒中後の損傷および白質結合パターンは、すべて中心前回外側に2つの発話野が存在することを示している。2つの発話関連領域の存在は長い間考えられてきたものの、近年の脳外科的および脳卒中後結合性研究 (上で紹介したもの) は、2つの領域のどちらも古典的なBroca野には存在せず、代わりに中心前回上に位置していることを示した。図3は2つの領域の推定位置を示しており、我々はこれらを背側中心前発話野 (dPCSA: dorsal precentral speech area) と腹側中心前発話野 (vPCSA: ventral precentral speech area) と呼ぶ。これらの位置は、機能画像および刺激マッピング研究によって得られたものであり、細胞構築学的領域と関連する機能領域とともに示されている。これらの用語を使ってはいるものの、我々はこれらの領域が発話に選択的な役割を持つわけではなく (実際、我々はdPCSAが歌に強く関連していると考えている)、単に発話の調整に際立った役割を持つと言うことを強調したい。dPCSAは中心前回にある運動前野 (細胞構築学的にはarea 6) に存在する一方で、vPCSAはarea 44の後方に存在するが、おそらくこちらも運動前野にあると考えられる。特記すべき事実として、d/vPCSAsは中心溝内に位置するわけではなく、運動前野が存在する中心前回のcrownの上に位置する。したがって、我々はそれぞれのPCSAが、低次の一次運動システムと、高次の言語/認知システムの間に位置する、中間的領域であると考えている (「二重発話調整モデル」のセクションを参照)。中心前発話野そのものに言及する際には、我々はdPCSAとvPCSAという略称を用いる。一方、より幅広くそれらが所属しているネットワークに言及する際には、「背側/腹側発話調整ネットワーク」などの呼び方を用いる。

図3. 機能的・解剖学的領域の表面レンダリングマップ。背側喉頭運動皮質 (dLMC: dorsal laryngeal motor cortex)、腹側喉頭運動皮質 (vLMC: ventral laryngeal motor cortex)、area 55b、Jülich-Brain atlasの細胞構築学的領域の最大確率地図 (色斜線部)に関して、dPCSAとvPCSAの関心領域を示した膨張脳地図。運動前野 area 6は閾値確率地図で補完している。dPCSAとvPCSAの関心領域は、Rongらの機能画像による中心前回の活動ピークから推定している。この結果は、発話停止刺激研究から得られた座標と一致している。dLMCとvLMCは、明確に喉頭運動皮質に言及しているfMRI研究の活動尤度推定 (ALE: activation likelihodd estimate) メタ解析を行うことで定義した。ALE値はP < 0.00001で閾値設定し、得られたクラスターをvPCSAおよびdPCSAの関心領域とともにfsaverage表面に投影した。Area 55bはHuman Connectome Project (HCP) のMultimodal Parcellation 1.0 altasから抽出した。運動野4a / 4p、体性感覚野3a / 3b / 1 / 2、弁蓋部Op6 / OP4、area 44の最大確率マップはすべてJülich-Brain atlasから抽出されたものである。Jülich-Brainアトラスではほとんどマッピングされていない運動前野 area 6の確率マップは、少なくとも40%の確率でarea 6である点を表示するように閾値を設定した。

1-2. 背側および腹側中心前発話野の機能的区分
このセクションでは、我々は2つの発話調整領域が持つ独特な役割に関する重要な手掛かりを提供する3つの比較的最近の発見を振り返り、dPCSAがピッチに関連した発声 (プロソディ/歌) を調整し、vPCSAは音声/音節に関連した発声を調整するという新しい仮説の動機付けとする。

1-2-1. dPCSAは発声中の声のピッチを符号化する
音声ピッチ制御に関連する運動皮質のマッピングを目的とした頭蓋内記録・刺激研究から、1組の観察が得られている。この研究における主な課題は、同じ文章を繰り返し生成するが、異なる単語を強調 (より高いピッチ) することであった (I never SAID she stole my money; I never said SHE stole my money)。上喉頭構音と強弱をコントロールした結果、ピッチのシフトとタイムロックした神経活動を示す中心前回中部の領域が特定された。また、同じ文章を被験者に再生したところ、同じ領域でピッチに相関した聴覚反応が記録された。同様の結果が非発話の歌唱タスクでも得られ、この効果は発話特異的ではないことが示さた。これは、発話とメロディの復唱タスクを用いた過去のfMRI研究とも一致した。この領域を直接皮質刺激すると、不随意的な発声が得られる。より腹側の中心前回皮質領域はピッチによる調整はされず、代わりに発声の制御 (これは異なる筋肉を含む) に関連することが示されている。著者らは、発声ピッチを制御する背側喉頭運動皮質 (dLMC: dorsal laryngeal motor cortex) を同定したと主張している。この領域がピッチ制御における役割を持つという彼らの機能的結論には同意するが、これを実際に行うのがdLMCなのかdPCSAなのかについては議論の余地がある。特に、彼らは電極グリッドを埋め込んで回の表面から記録を行ったため、中心溝内に存在する一次運動皮質よりもむしろ運動前野から記録を得ていた可能性が高い。したがって我々は、彼らが明らかにしたのはむしろdPCSAの重要な特性であったのではないかと考えている。

1-2-2. dPCSAは知覚におけるピッチ特性を符号化する
dPCSAのピッチに関連した感受性のさらなるエビデンスは、全く異なった角度から得られる。これは、聴覚皮質の外における発話に関連した周波数-時間受容野 (STRF: spectrotemporal receptive field) 特性のマッピングを目指したfMRI研究である。この研究では、異なる試行において周波数-時間スペクトラムの各部分がシグナルから切り取られるようにフィルターがかけられた発話を聞き取るというタスクが課された。すると、周波数-時間空間内の異なる領域におけるシグナルの有無と相関した神経活動が記録され、各領域のSTRFの推定が可能であった。現在の議論と関連して、dPCSAと空間的に一致した中心前回背側の部位において、発話に関連した再現性のあるSTRFが認められた (図4)。Broca野の三角部の前方に、部分的な聴覚反応を示す部位は存在したものの、vPCSAはマッピング可能なSTRFのある領域としては同定されなかった。中心前回背側の部位は、周波数-時間空間内で明瞭度と関連した領域へのチューニング (高次聴覚皮質に典型的) を示したのみならず、音声ピッチへのチューニング (高次聴覚皮質には非典型的) を示したという点で、低次聴覚皮質と類似したSTRFプロファイルを示した。さらに、中心前回背側領域は低次聴覚皮質との強い機能的結合性を示し、上述した脳卒中研究における結合性と一致した。近年の頭蓋内皮質記録研究では、この中心前回背側領域に係る聴覚情報が、発話の調整に機能的に関連していることが示された。すなわち、流暢性を阻害する遅延発話フィードバック条件においては、聴覚野や縁上回を含むネットワークの一部として、中心前回背側領域の活動が増強された。

図4. マッピング可能な周波数-時間受容野 (STRF) の分布と、2つの外側前頭STRF領域におけるSTRFマップのプロット (左図, A & B)。1つは中心前回背側に、もう1つは三角部に存在する。中心前回背側にある領域は、ピッチに関連したSTRF空間内領域に有意なチューニングを示した (黒円)。色付ドットは、3つの別々のfMRI研究の活動座標に対応している。うち2つは聴覚-運動発話反応をマップしており、1つは喉頭運動皮質をマップしている。

一方、Broca野のSTRFプロファイルは、明瞭な発話に選択的に反応し、ピッチへのチューニングは示さず、低次聴覚皮質ではなく、上側頭溝や中側頭回の高次領域との機能的結合性を示した。ここからは、この領域は高次 (e.g. 語彙) ネットワークからの入力を受けていることが強く示唆された。

1-2-3. 持続的発達性吃音には腹側感覚運動皮質が関与している
発達性吃音は、約1%では成人になっても持続する。音や音節の反復、音の延長、中断がみられ、発話ジェスチャーの開始、制御、終了の能力に障害が示唆される。吃音のある成人では、歌を歌っている最中に著明に流暢性が改善するが、ここからは腹側の発話調整システムがいくらか障害されている一方で、背側の発話調整システムが比較的保たれていることが示唆される。この疑問は、背側喉頭運動野と腹側喉頭運動野をそれぞれシードとして、背側と腹側の発話システムの白質構造的結合性を解析した近年の研究において検証された (これら2つの喉頭運動野の議論については下記を参照)。背側ネットワークと比較して、腹側ネットワークは吃音のある成人において弱い結合性を持ち、腹側ネットワークの結合性プロファイルが吃音の重症度を予測した。この研究は、腹側ネットワークが発話調整の音のレベルおよび音節のレベルにおける重要な役割を持つこと、そして障害されても歌唱が保たれ得ることを示唆している。特に、吃音ではプロソディの異常が報告されているが、歌う能力が比較的保たれていることからは、ピッチ関連音声調整の一次的な障害ではないと考えられる。

1-2-4. セクションのまとめ
上で述べた研究は、dPCSAが音声ピッチの制御を行うとともに、低次聴覚野との機能的結合性を介して音声シグナル内のピッチ関連手掛かりの符号化にも関与していることを示している。これは、こうしたピッチ関連特性を欠き、音声や音節レベルでの発話調整により深く関与しているvPMSAとは対照的である。

1-3. 二重発話調整モデル
我々は、dPCSAとvPCSAは、ピッチ関連および音節/音声関連の発話特徴を協調させる、2つの個別かつ平行した (しかし相互作用する) ネットワークの一部であると提唱する。
具体的には、
・dPCSAは、歌のみならず発話のプロソディ的側面を含むピッチ関連発声のための、聴覚に重みを置いた感覚運動制御回路の一部であり、主に背側喉頭運動皮質を介して喉頭効果器に働きかける。
・vPCSAは、音節/音声に関連した発話特性のための、体性感覚に重みを置いた感覚運動制御回路の一部であり、腹側喉頭運動皮質を介して喉頭の発声関連制御を行うのみならず、喉頭上効果器にも働きかける。
以下のセクションでは、我々は2つの発話調整領域が位置する幅広いネットワークについて議論する。

1-3-1. 発話調整のための前頭葉運動性平行階層
運動制御システムは階層的に構成されており、発話調整システムのみが異なった体型を持つと考える理由はどこにもない。不明瞭なのは、我々が考えるように平行した階層ストリームの中で、dPCSAとvPCSAが類似したレベルに位置するのか、それともどちらか一方が他方に比べて下位に位置するのかということである (3つ目に、背側および腹側運動前野領域が1つの未分化領域であるという可能性もあるが、ピッチ関連の機能的差異はこの考え方に反している)。特に、両方の発話野が高次言語処理と低次運動実装の中間にある同レベルの皮質階層に位置する、ということを示唆する皮質刺激マッピングのデータは、平行階層を主張するにあたっての1つのエビデンスである。また、以下で述べるように、dPCSAとdLMCの間に強固な関連性があることも、別のエビデンスと言えよう。

1-3-2. 背側喉頭運動皮質は音声のピッチ関連調整の皮質階層において最も低いレベルに位置する
ヒトは、喉頭制御に関連する2つの分離可能な領域を有する。一つは腹側の、他の霊長類にも存在する「運動前」皮質にあると考えられ、もう一つは背側の、他の霊長類には存在せず、系統的に若く、喉頭を制御する脳幹運動核と直接つながっていると主張される、中心溝内の「一次」運動皮質にあると考えられている。我々は、これらの領域をdLMC、および腹側喉頭運動皮質 (vLMC: ventral laryngeal motor cortex) と呼ぶことにする。dLMCとvLMCの機能的な違いはまだ詳細にマッピングされていないが、一つの大きな違いは皮質刺激マッピングの効果の違いである。dLMC近傍の領域を刺激すると母音様音声が誘発されるが、より腹側の刺激では同様の音声は誘発されず、代わりに呻き様の行動が誘発される。
喉頭制御に関わる腹側の領域に加えて背側の領域が存在するのは霊長類の中でもヒトに特有の現象であるが、一次運動野においても、ある効果器 (e.g. 手) に対する複数の運動マップが多くの種で観察されており、これは単純なソマトトピーというよりも、適応的行動や機能ドメイン (たとえば、到達、把握、手から口、防御姿勢など) に関わる運動野の構成を反映していると考えられる。同じ効果器が複数の機能ドメインに関与しうることを考えれば、同じ効果器に複数の表現が存在することは予想可能である。この考え方を喉頭に当てはめると、ヒトに2つの領域が存在することからは、喉頭制御に関連する2つの機能ドメインが示唆される。既存のエビデンスは、dLMCはピッチ関連発声のための機能ドメインの一部であり、呼吸制御など、この機能領域にとって重要な他の運動システムを含んでいることを強く指摘している。発話に関連するvLMCの機能ドメインはあまり明らかではないが、開始、タイミング、中止などにいくらか関与している可能性はある。非ヒト霊長類では、vLMCは摂食などの非音声機能における役割を持っている可能性がある。サルでは、vLMCは腹側口顔面運動システム (ventral orofacial motor system) に所属しており、口腔内把持などの機能や、舌なめずりなどのコミュニケーション的口腔ジェスチャーを含む、幅広い機能を有している。なお、サルでは生得的な発声への随意制御が限定的であり、そこに腹側運動関連皮質の関与が認められていることから、発声開始におけるヒトvLMCの役割と一致する。しかし、サルの腹側運動領域の損傷は生得的な発声の能力に影響を与えないことから、サルの腹側口顔面運動システムには発声の神経コードが含まれておらず、むしろ他の場所にコード化された発声の「サブルーチン」を随意的に誘導するためのメカニズムがあることが示唆されている。
上で提示したフレームワークは、音声ピッチ制御がdLMCに関連した機能ドメインであるという仮説に合致している。この際我々は、ピッチに関連したdPCSAと、dLMCの空間的関係性に基づいて考察を行っている。これらの領域は、図3に示したように部分的に重なっている。実際、複数の研究者が、dLMCの下位領域、すなわちsulcal LMCとgyral LMCについて言及しており、gyral LMCはdPCSAと部分的に重複している。我々は、dPCSAがsulcal LMCよりも階層的に上位に位置すると考えており、これは以下の3つの理由による。(i) dPCSAの確率的位置が運動前野内にありsulcal LMCが一次運動野内にあること (図3)、(ii) dPCSAが想像上の発話生成によって活性化されること (計画段階における役割を示唆する)、(iii) 表現的発話がない条件下でもdPCSAの音響反応特性があること (これはこの領域の前後勾配を示した先行研究/図1Cとも一致する)。なお、今回の仮説はかなり厳密な階層構造において組み立てられているが、境界線は階層を峻別するのではなく、階層的な制御の勾配を反映していると考えられる。

1-3-3. 背側中心前発話野の前方に存在する中前頭回後部の高次言語野
dPCSAの前方の中前頭回後部には、高次言語領域であるarea 55b (図1D、3) が存在する。55bは比較的髄鞘化が未発達であり、中程度に髄鞘化された2つの眼野 (eye fields) に挟まれている。55bの後方には、高度に髄鞘化された一次運動皮質があり、これには (sulcal) dLMCが含まれる。dPCSAはarea 55bの後部に重なり、area 55bの前部は中前頭回後部に伸びている。55bの前部が言語機能に関連するというエビデンスは、まさにこの領域の定義に由来しており、たとえばHuman Connectome Projectの機能活性化言語タスク (ストーリーリスニング課題) では、55b区間の前方にピーク活動がみられている。さらに、表現性失文法 (後天的な統語生成の障害) における中前頭回後部の役割を示す最近の研究や、Neurosynthデータベース (図5) を用いて行った「統語」処理に関する自動メタ分析からも、そのエビデンスが得られている。

図5. neurosynth.orgを用いて行った 'syntactic' という語に関する機能画像研究の自動メタ解析 (ヒートマップ)。Area 55b (黄色い輪郭) との関連に注目。方法と解析の詳細については、補足資料を参照。

背側発話調整ネットワークのより高次の階層は、どのような機能を担っているのだろうか。これは未解決の疑問であるが、既存のデータと合致する1つの仮説として、プロソディ計画における役割が挙げられる。これは、統語素性と相関するものであり、かつ発話生成の計画フレームとして提唱されている。プロソディ計画システムの機能不全によって、前述のような表現性失文法 (かなり重度の統語障害) が引き起こされるほどの表現的統語処理への影響が起こる可能性について、疑問を感じる人もいるかもしれない。しかし、「発話のプロソディ構造が、語彙要素とその下位構成要素の連続的順序を支配する、表現上の '骨格' を提供する」とすれば、この計画 '骨格' の障害が、統語要素の連続的順序に著しい障害をもたらす可能性は十分にあると思われる。臨床的には、この仮説は、失語症の症状論におけるプロソディ障害の役割と、その治療のためのプロソディ/イントネーション療法の使用に関して、いくつかの重要な問題を提起している。たとえば、プロソディに基づく治療は、一次的障害にプロソディ機能障害が含まれ「ない」患者においてのみ有用である。このような患者では、プロソディ情報を十分に活用できるであろう。そうはいっても、プロソディは、少なくとも2つの機能モード (言語と感情) に関与し、音量 (loudness)、持続 (duration)、リズムなど、ピッチ以外の多くの音響的特徴を制御する、複雑なシステムの総称であることに注意することが重要である。我々は、背側発話調整階層の中で中前頭回後部という高次の領域がプロソディ計画に関連しているという推測において、プロソディのどの側面が関与しているかについてまでは特定していない。一方で、dPCSAでピッチ特徴が符号化されていることを踏まえると、ピッチ関連プロソディ情報が強く関与していると予測できるかもしれない。また、このシステムが言語的プロソディに対してどの程度選択的であるか、言語的プロソディと感情的プロソディの機能または相対的寄与に関連する半球間差異があるかどうかも不明である。これらの問題については、「まとめと未解決の問題」でさらに論じる。今のところ、我々が言いたいのは、area 55b前部を含む中前頭回後部の領域は、背側階層の一部として言語計画に何らかの役割を果たすようであり、明らかに構文の側面を含み、それがある種のプロソディ計画に関連するかもしれないということである。

1-3-4. 腹側発話調整階層
背側システムにおける階層性とともに、vPCSAを含むより古典的な腹側発話言語野にも同様の階層性が存在する。vPCSAは、後方にある一次口腔運動皮質と、前方にある下前頭回後部のBroca野の間に位置する (図3)。我々は、過去の文献において、vPCSAが音節フレーム内での音声構音を調整すると主張しており、また、腹側発話調整システムの高次の階層が、音節 (弁蓋部) と形態統語論的要素 (※ 形態論: 単語より小さな単語の部品となる「語基」や「接辞」といった形態素の組み立てについての規則、統語論: 単語に相当する形態素の組み立てについての規則) (三角部) の並び替えに重要であるとする過去の仮説を支持している。腹側前頭葉に発話と言語に関係した階層性が存在することは幅広く受け入れられているため、ここでは我々はその内部構造の詳細について振り返る/主張をすることはしないでおく。

1-3-5. 結合性
脳卒中後失語における復唱障害のコネクトームマッピング研究の結果 (上述; 図2B) から、dPCSAとvPCSAに関連する異なる結合性パターンが示唆されている。すなわち、背側領域は聴覚皮質とより強く、そして腹側領域は下頭頂/二次体性感覚皮質とより強く結合している。また、上述したSTRFマッピング研究でも機能的結合性解析が行われており、dPCSAと聴覚皮質の結合性が示された。ここで我々は、これら2つの発話野の機能的結合性に関する2つの新しい解析を提示する。どちらも、Rongらによって定義されたdPCSAとvPCSAに対応するシードROIを用いている (図3)。
1つ目の機能的結合性解析は、発話に基づいたSTRFマッピングを行ったタスクfMRI研究であり、上述した研究の手法と類似した方法を用いている。もう1つの機能的結合性解析は、過去に報告されたマルチエコー安静時fMRIデータに基づいている。このデータセットの一部は一般に利用可能である。両方の機能的結合性解析の結果は図6に示されており、聴覚皮質がdPCSAと、高次体性感覚領域がvPCSAと強い結合性を持つという仮説的パターンを検証できるものであった。

図6. 背側および腹側中心前発話野の機能的結合性解析。(左) dPCSA の安静時機能的結合性マップ (冷色) とvPCSAに対する同様のマップ (暖色)。マルチエコー独立要素回帰を用いてそれぞれのROI (図3で定義される) に対する全脳マップを各被験者 (n=137) に対して生成した。次に、安静時機能的結合性がdPCSAまたはvPCSAに対して有意に高い脳領域を、ボクセルごとのpaired t検定を用いて決定した。得られたtマップをfsaverage表面に投射した。 (右) タスクfMRAに基づいた機能的結合性マップ。受動的競合音声課題 (「競合」条件) の400試行のデータを用いて、β時系列機能的結合性解析を実施した。データはMNI152テンプレートの皮質表面モデルに投影され、図3のように定義されたdPCSAとvPCSAの関心領域内の平均時系列をシードとして、機能的結合性の表面ノード単位の推定 (最小二乗分離β時系列、ピアソン相関) が得られた。第2レベルのコントラストt-map (dPCSA結合性 vs vPCSA結合性) を求め、FDR補正後のP<0.01で閾値を設定し、Advanced Normalization Toolsによるレジストレーションフュージョンを用いてfsaverage表面に投影した。方法と解析に関する詳細については補足資料を参照のこと。

1-3-6. セクションのまとめ
このセクションでは、発話調整をサポートする平行した階層ネットワークについて議論を行った。それぞれのネットワークについて、最も低次のレベルとしての一次的運動皮質領域を扱い、中心前発話野に対応する中間的レベル、そしてより高次の言語領域について含めた議論を行った。腹側の階層は、Broca野を階層の最上位に据える有名な下前頭発話/言語ネットワークに対応している。一方、背側の階層はdLMC、dPCSA、中前頭回後部言語野を含んでおり、特に3つ目の領域については我々はプロソディ計画の中核的領域であると仮説を立てている。dPCSAは聴覚に強く偏重した入力を受け取っている一方で、vPCSAは体性感覚に強く偏重した入力を受け取っているというところからは、これら2つの中心前発話野は、感覚入力の優位パターンの観点から、異なっていると言うことができる。図7は、提唱したアーキテクチャの略図である。

図7. 二重発話調整システムモデルの模式図。入力ラベル (矢印) は、排他的なものではなく、指定された入力タイプへの偏りがあることを意図しており、また白質経路の解剖学的位置を反映することは意図していない。形態統語論的経路に関する詳細な議論については、Matchin and Hickokを参照のこと。dLMCの腹側にある口顔面運動皮質の位置は、Guentherのメタアナリシスに基づいている。

我々は、発話調整に関する新しいアーキテクチャを提唱した。これは、発話調整システムを、2つの平行する、しかし相互作用する階層構造に分割したものである。我々は上で提示した主張について高い確信度を持っているものの、このアーキテクチャの新規性からは、「なぜ」このようなアーキテクチャが進化してきたのかを考えることが有用であると思われる。もしこのアーキテクチャが進化的に合理的なのであれば、我々の新しい神経アーキテクチャの主張のもっともらしさを高めることができよう。さらに、ピッチと明瞭な発話 (articulate speech) の調整はヒトにおいて高度に統合されているため、これらの能力に関して別々に進化的歴史を考えることは、背側と腹側の発話調整システムの個別の役割を分離して考えるにあたっての重要な手がかりとなり、同時に上で提案したような重要な臨床的洞察を生むにあたっても有用である。次にこうした点について考えてみよう。

 

2. 二重発話調整アーキテクチャの進化
人間の発話や言語能力の進化的起源は、ダーウィンが発話の前段階として歌によるコミュニケーションシステムが進化したと推測して以来、深い関心と多くの議論を呼んでいる。現代でも支持されているこの考え方は、二重発話調整システムと何らかの関係があるかもしれない。というのも、現在提案している神経アーキテクチャモデルでは、歌と明瞭な発話を制御するメカニズムが分離しており、進化の歴史が分離している可能性があるからである。dPCSAは聴覚に偏った感覚入力を受け、かつスペクトラルな音響手がかりを利用する皮質眼野の間に位置している (次セクション「dPCSAは運動前野の目標指向性システムから進化した」を参照) ことも関係している。以下では、dPCSAが現在の位置に進化したのは、言葉を話す前の我々の祖先が、背側運動前野に適切な種類の感覚入力を持っていたからだという可能性を評価する。また、喉頭上構音調整に関わる腹側システムの進化に関する既存の主張を検討し、背側と腹側の発話調整システムの出現順序の可能性について議論し、次に我々の提案と言語進化に関する理論との関係について簡単に考察することにする。

2-1. 背側中心前発話野は運動前野の目標志向性システムから進化した
我々は、目標志向性定位に用いられる運動前野への聴覚入力と、背側発話調整システムの進化との間に関係性があることを提案する (言語と注意システムの進化的関係については、Martins and Boeckxを参照)。この議論の論理は、(i) 運動調整システムはフィードバック制御を可能にするための適切な種類の感覚入力を必要とする、(ii) 音声ピッチ特徴の制御は聴覚的ピッチ関連符号からの入力を必要とする、(iii) 非ヒト霊長類の脳でピッチ関連符号を使うことが知られている皮質運動ネットワークは背側中心前領域を含む定位システムだけである。したがって、ピッチに関連した発声のための運動調整システムが進化したとしたら、それはすでに関連する感覚入力信号を持つネットワーク、つまり背側運動前野の近くにあるはずである。次に、この議論を詳しく説明する。

2-1-1. 空間定位システムと背側中心前発話野は隣り合っている
マカクザルでは、背外側運動前皮質と前頭眼野は背側感覚運動路の一部を構成しており、聴覚シグナルの空間的定位に関わるとされる尾側の非一次聴覚野から入力を受け取っている。前頭眼野は特に多くの聴覚応答細胞を有しており、感覚に基づいた定位反応および潜在的空間注意を引き起こすのに非常に適している。前頭眼野が視覚だけでなく聴覚入力を利用し、定位システムの一部を構成するという事実は、ヒトarea 55bとdPCSAが背側の前頭眼野と腹側の運動前眼野の中間に位置することを考えれば、きわめて重要である。ヒトを対象としたfMRI研究では、背外側運動前野内に聴覚駆動の空間的注意ネットワークが同定されている。

2-1-2. 空間的定位はピッチを含むスペクトラル聴覚的手がかりを利用する
水平平面内での聴覚的な空間的定位は、2つの耳に届く音響シグナルの音量および時間的遅延の違いに主に基づいて行われるが、垂直平面内での音の定位は、ピッチを含むスペクトラル音響手がかりに強く依存する。自然界の聴覚シーンの統計は、標高に基づく周波数勾配を示し、高音域の音は標高の高い場所に音源を持つ傾向がある。ヒトは、これらの手がかりを空間的定位に役立てるともに、音源の標高の判断に用いる。ヒトの外耳のフィルタリング特性がこの垂直方向のピッチ勾配を増強するために進化したことを考えると、空間的定位におけるスペクトラル手がかりの利用は、進化的に適応的であるはずである。また、聴覚的なピッチと視空間的な標高の間のクロスモーダルな対応を検出する能力は、ヒトの新生児や家庭犬でも報告されており、文化的な説明を否定している。より一般的には、発声されるスペクトラル手がかりは動物の大きさと相関があり、こうした手がかりの変調は様々な哺乳類で社会的コミュニケーションに使用されていることを考えると、これらの情報は聞き手にとって重要であり、空間的位置の手がかりとして以上に、定位/注意システムで使用されていても不思議ではないだろう。関連する事項として、ヒトの前頭眼野は聴覚的および視覚的刺激の両方に対して「超高速」反応を示す。この反応は、単純な刺激の有無ではなく、ピッチを含む感覚的特徴に影響を受ける。このような超高速反応は、迅速な定位に有用であると考えられる。ここから、このシグナルでは、より多くの処理を必要とし長い潜時を伴うはずの高次のオブジェクトベースの特徴ではなく、比較的低次の聴覚的特徴が伝達されていると考えられる。
聴覚反応領域は、サルではより腹側の前頭前皮質および運動前皮質に同定されている。しかし、前頭前皮質は腹側の 'what' 経路の一部である吻側聴覚皮質から入力を受けており、より複雑な情報を符号化している。この領域では、種特異的な鳴き声の実行と知覚に関与する聴-運動反応が記録されている。しかし、これらの反応は、聴覚的特徴を用いて鳴き声そのものを符号化するというよりも、むしろ外的刺激に反応して生得的な鳴き声を適切に選択する能力を反映していると思われる。運動前皮質では、身体の近くの近位の位置に空間的選択性を持つ神経細胞が報告されているが、これらの細胞はピッチに対するチューニングは示さず、むしろ広帯域音に強い反応を示す。さらに、耳の周りや頭の後ろに体性感覚受容野を持ち、これが頭の周りの物体 (e.g. 虫など) への動作をガイドするのに理想的な特性であると考えられる。
このように、背側運動前皮質とその近傍の眼野は、腹側運動前皮質ではなくそこに存在する聴覚的定位ネットワークのおかげで、我々の祖先種の段階から、進化途上の聴-運動/ピッチ関連音声生成-学習回路に欠かせないピッチ関連手がかりを含む豊富な音響情報を受け取ることができていたと言える。鳥類における歌の進化から得られた比較エビデンスからは、歌前 (pre-song) の聴覚入力を持つ脳領域が歌の進化の標的であることが示されている。

2-1-3. 運動前皮質は幅広い目標志向性定位システムのハブである
聴覚的手がかりは、目による空間定位を超えて目標指向的な行動を引き起こすことがあり、ヒトおよび非ヒト霊長類では、背外側運動前野がこの能力に関与していることが何度も報告されている。たとえば、聴覚的リズムによる同調 (entrainment) には背側運動前野が関係するが、視覚的ペースによる同調はそうではなく、より腹側の運動前野が関係するという研究もある。また、楽器演奏家は聴覚と手の運動の連合が強いが、非音楽家よりも背側運動前野に強い活動を示す。サルは、「モンキーピアノ」を使ってピッチシーケンスを再現する訓練を受けると、以前に「演奏」することを学んだ聴覚シーケンスを受動的に聞いた際に、背側運動/運動前野の腕関連領野を活性化する傾向がある。
前頭眼野に関する研究では、より幅広い定位および注意ネットワークが指摘されている。実際、「眼野」という名前は眼選択的活動を暗示するものの、ヒトや非ヒト霊長類において眼と頭の定位行動を調べた研究では、前頭「眼」野がどちらの効果器に対しても制御的・調整的側面で関与していることが示されており、これらの領野がより幅広い定位ネットワークのハブであることが示唆された。このため我々は、随意的喉頭制御とdPCSAは、この背側運動前野にある聴覚反応性の目標志向性定位システムから進化したのではないかと考えている。

2-1-4. 音声ピッチ制御と非音声的定位の関係についての行動学的エビデンス
dPCSAおよびその関連するネットワークがより一般的な定位システムから進化したのだとしたら、関係ネットワークを共活性化させる音声的および非音声的ジェスチャーの両者には、相関を見出すことができるかもしれない。こうした相関は、実際に音楽的・言語的文脈の両者において観察されている。
行動学的研究により、喉頭のピッチコントロールと頭や顔の動きの間に強い相関があることがわかった。たとえば歌手の場合、歌っている最中に頭や眉を上げるが、その振幅は音程の上昇の大きさと強い相関がある。頭の動きはピッチ関連音声生成に有利ではないので、これを歌の質を高めるための戦略として説明することはできない。話している最中の頭の動きも、プロソディ的ピッチや語彙のトーンと相関する。このような非音声的な頭や眼の動きは、ピッチと十分に強く相関し、観察者にピッチ情報の冗長な視覚的手がかりを与える。また、発話中のピッチアクセントは、発話中の手振り身振りと相関しており、因果的に関係がある可能性がある。すなわち、発話計画の同じプロソディフレームの2つの表現方法である可能性がある。これらすべてが、喉頭ピッチ制御と非音声的ジェスチャーの対応を示しており、両者が系統学的につながっているという仮説と合致している。

2-2. 喉頭上声道協調は腹側口顔面制御システムから進化した
2-2-1. フレーム-コンテンツ仮説
MacNeilageによる発話生成進化のフレーム/コンテンツモデルは、音節フレーム内で音韻的セグメントを構音する能力がどのように進化したのかを説明している。基本的な考え方は、音節は顎の周期的な開閉によって形成され、そこに様々な音声ジェスチャーが連結され、異なる母音 (開相) と子音 (閉相) が形成されるというものである。フレーム/コンテンツ仮説によれば、音節の顎周期は、咀嚼に特徴的な顎の周期的動作から進化したもので、非ヒト霊長類ではコミュニケーション上のリップスマッキングで観察されている。特にリップスマッキング (唇を鳴らす) は、発声を伴わないが (ただし後述を参照)、発話周波数帯の顎振動周期と同期した、唇、顎、舌の動きを含む発話に似たジェスチャーを伴う。したがって、リップスマッキングは咽頭上発話調整に先立つ前適応として非常に有力な候補となる。

2-2-2. リップスマッキングには腹側前頭運動前領域が関与する
McNeilageは、周期的顎運動の神経源は内側運動システム (e.g. 補足運動野) であると主張したが、近年のマカクザルにおける研究は、外側腹側運動ネットワークが摂食運動およびリップスマッキングの両方に関わっていることを指摘した。たとえば、Ferrariらは、ヒトのBroca野のホモログと推定されるF5において、つかむ、吸う、噛む、リップスマッキングなどの様々な口唇動作の実行中に反応するニューロンを特定した。最も多く記録されたのは、摂取に関連する動作反応であった。また、約半数 (48.7%) の神経細胞が視覚応答特性を有していた。聴覚的な反応については研究されていない。より最近のfMRI研究では、リップスマッキングジェスチャーをするマカクザルについて、一次運動皮質と腹側 (背側ではない) 運動前野を含む幅広い運動ネットワークの活性化が報告され、非コミュニケーション的顔面運動制御のものと重なっていた。これはリップスマッキングコミュニケーション・ジェスチャーが腹側口顔面運動制御ネットワークから発達したことを強く示唆している。
リップスマッキング動作の生成時に活性化される腹側運動領域は、社会的なコミュニケーションに関わる聴覚信号には反応しないようである。あるユニット記録研究では、マカクザルのF5ニューロンは、紙が破れるような物体-動作関連音に反応することが報告されているが、サルの鳴き声に対する反応は見られなかった。別の研究では、マカクザルが食べ物の提示に対して「クー」と鳴くように訓練された。F5細胞の集団は、鳴き声の開始前または開始前後に反応したが、鳴き声の録音や自発的な鳴き声の発生時には反応しなかった (腹側運動野には生得的な鳴き声の符号は存在しないが、自発的に鳴き声を開始する役割は果たすという見解に一致する)。
これらの研究は、腹側口顔面運動ネットワークが喉頭上声道協調の進化の基盤となったというエビデンスを提供しており、さらにヒト以前の祖先においてこのシステムが声という聴覚信号に特異的な感受性があったわけではないということを強調している。

2-2-3. 背側・腹側システムの機能・位置に関する代替仮説
Brownらは、dLMC (ひいてはdPCSA) の位置について、開顎のための運動皮質がより背側に分布していることに関連しているという別の説を提唱している。しかし、サルの開顎運動皮質の分布を詳しく調べても、顎を開く時と閉じる時の反応が腹側と背側の両方で起こることから、この主張には強い支持はない。Belykらは、dLMCとvLMCの両方が発声時に呼吸と音声を統合する役割を果たすことを示唆しているが、vLMCとdLMCの機能差は、(i) vLMCのみが喉頭の体性感覚刺激に反応すると考えられ、(ii) vLMCは細胞構築学的に一次運動野および一次体性感覚野の中間と思われる、という事実を反映しているかもしれないと指摘している。この仮説は、背側と腹側の発話調整回路の主要な特性は、異なる感覚入力 (i.e. 聴覚と体性感覚) に対する相対的な感受性であるという見解を支持し、運動ソマトトピーに基づく組織化を否定するという点で、我々の仮説と広く一致すると考えている。

2-3. 背側・腹側発話調整システムの進化順序
上のセクションでの議論を踏まえると、発話/歌を行う以前の我々の祖先では、腹側声道/vLMCシステムが、咀嚼、口腔内把持、コミュニケーションとしてのリップスマッキングのための口顔面運動を調整していたという仮説は合理的であるように思われる。そして、背側システムは発声には関係せず、定位と注意に関係する。Darwinやその他の研究者に従って我々が提唱するのは、発話のための進化の次のステップとして、ピッチに基づく歌のようなものが進化したということである。これは、dLMCが喉頭を支配する脳幹神経核に直接結合するような進化を遂げることで達成されたと思われる。また、dLMCは定位ネットワークから聴覚偏重型の運動調整回路を継承した。この運動調整回路は、dPCSA、およびおそらく聴覚運動野Sptによって仲介されるものである。一度ピッチに基づいた歌様システムが定着した後に、口顔面ジェスチャーの随意的制御をすでに行っている腹側システムが、vPCSAおよびBroca野にある高次の調整システムの出現によって、音声/音節調整のために精緻化されたのだろう。このように我々は、機能的な面ではピッチ調整が先行し、これが音声調整の基盤となったと考えている。
ピッチの調整が音声の調整に先行したという仮説は、4つのエビデンスによって支持されている。第一に、ピッチの制御は、聴覚フィードバックのみを用いた単純な線形システムとしてモデル化できるという点で、より単純な工学的課題である。対照的に、構音のための多次元的な喉頭上システムの制御には、非線形な感覚運動マッピングと体性感覚フィードバックの統合が必要となる。第二に、ピッチメロディとアクセントを顕著に含むプロソディは、単語学習において、また前述のように発話の計画フレームとしても、重要な役割を持っている。したがって、もしピッチの調整が最初に進化したのであれば、より計算量の多い複雑なタスクである喉頭上声道制御の発達を潜在的に促進することができる。これは、我々の三つ目のエビデンスにつながる。すなわち、歌としてのピッチ制御が、歌を歌う複数の種において進化しているのは確かだが、音源とフィルター器官の両方を調整することによって明瞭な発話を行う能力は、オウムとヒトにしか見られない (そしてどちらもピッチ制御を備えている)。最初の2点とこのような音声学習能力のパターンを考慮すると、歌は完全に協調のとれた発話のために必要な事前適応であると言えるかもしれない。四つ目に、乳児の発声は、cooing (「あーあー」といった声) から、歌様の発声、そして音節様の喃語へと発達する。興味深いことに、10ヶ月児におけるcooingと喃語の発声時の皮質直接記録では、背側 (cooing) と腹側 (喃語) の異なる位置の中心前回の神経活動が見られた。
最後に、発話のプロソディを総合的に特徴づけるためには、ピッチ、タイミング、レベル、音色を考慮する必要があるが、これらの共同制御には、背側と腹側の発話調整システムの統合が確実に必要である。後述するように、進化のパズルの重要な部分は、これらの別々のシステムが「なぜ」存在するようになったかだけでなく、発話運動制御の多次元にわたる調整のために「どのように」統合されるようになったかである。この統合の細かなレベルまでの詳細は、どちらかのシステムへの障害が複雑な発話行動にどのように影響を与えるかを予測するにあたり重要である。たとえば、「どちらか一方」のシステムが損傷すると、それらの統合に決定的に依存する行動が全面的に破壊されるのか、あるいは、個々の行動要素が選択的に破壊されるのか (e.g. ピッチ輪郭や発話速度などのプロソディ要素)、などである。したがって、背側ピッチ関連システムなしでも多くのことが達成できる可能性や、背側システムだけでは完全に統合されたシステムで実現されるピッチとプロソディのすべての要素をサポートするには不十分である可能性を提起することによって、ピッチ関連喉頭調整が喉頭上調整に先行しているという主張を複雑にすることは確かなのかもしれないが、これらの主張だけでは有力な証拠にもなっていないのが現実である。

2-4. 言語の進化理論との関係
前述のように、今回の二重調整仮説は、ダーウィンの 'song-first hypothesis' と一致している。そして、歌と明瞭な発話には異なるシステムがあり、後者はより計算が複雑であることを示すことで、間接的にそれを支持している。しかし、他の著者は、言語の進化において、初期の模倣的/ジェスチャー的前言語段階を主張している。言語における音声的基盤とジェスチャー的基盤はしばしば対立するが、どちらも統合システムの一部として基礎的な役割を果たすことができる。実際、ジェスチャーコミュニケーションとプロソディックコミュニケーションは、人間の発達の初期に出現し、どちらも言語習得の語彙、構文、語用論の側面で基礎的な役割を果たすと主張されている。
この二重調整モデルは、ピッチ関連音声調整と非音声ジェスチャーの間にもっともらしい神経関連性を提供するという点で、これらの進化論的仮説の間に橋を架けられる可能性がある。

2-5. まとめと特筆すべき疑問点
扱うべき疑問は多く残っている。たとえば、2つのシステムの「間」の調整が必要であることは明らかであり、このような調整が阻害されることが、失語などの発話調整障害の原因であることは確かである。これは、今後の研究にとって重要なテーマとなるであろう。さらに、リズムはプロソディや歌の生成において重要な特徴であり、発話調整障害の原因ともなり得る。リズムタイミングは音声計画にも重要な役割を果たすことから、発声リズムの生成が背側と腹側の発話調整回路 (またはその相互作用) にどの程度依存しているかを明らかにすることは極めて重要である。リズム同期、すなわち音声ビートに運動を同期させる能力は、2つの経路の協調を可能とするのに必要な機能である。また、呼吸制御も発話調整におけるもう一つの重要な要素であり、今後の研究において2つのシステムとの関連で検討する必要がある。さらに、これらのシステムの正確な境界、2つの階層の間にある下前頭溝内皮質の機能、階層レベルの詳細など、より詳細な機能・解剖学の疑問にも答える必要がある。
右半球の「下」前頭回後部に支えられていると主張される感情的プロソディに関する先行研究が、dPCSAによるピッチ関連プロソディ制御という現在の仮説と矛盾するのではないかと考える人もいるかもしれない。我々は、2つの理由から、この仮説が矛盾するとは考えていない。第一に、表現的感情的プロソディ障害を持つ患者が右下前頭回を含む病変を持つことが多いのは事実だが、感情的プロソディに対する半球間特異性の程度はまだ疑問が残っており、病変の大きさや先験的密度分布を制御できる大規模なサンプルで下前頭回の重要性の特異性を確認する大規模病変-症状マッピング研究はこれまで行われていない。次に、表現性プロソディ障害の症例で障害される音響的発話の特徴に関する最近の分析では、ピッチの高さの制御よりも、セグメント継続時間のタイミングと声の音色の特徴が指摘されている。プロソディがピッチ以外の多くの特徴を含む複雑なシステムであることを考えると、今後の研究では、ピッチと他の特徴を切り分けることが重要であると思われる。
最後に、側性化に関する重要な疑問がある。腹側調整システムが左優位であることはよく知られているが、背側調整システムはこれまであまり研究されてこなかった。最近のいくつかの皮質刺激/記録研究では、音響発話特徴および喉頭発声に対する反応が、左「および」右のdPCSA/dLMCにおいて示唆されている。また、聴覚-運動性発話および歌タスクにおけるdPCSAの機能活動は、Sptなどの他の聴覚運動領域が左優位であるのに対して、両側性である。ここから、dPCSAそのもの (機能的には、発話ピッチの調整を担う) は、少なくとも両側性の構成を持っていることが示唆される。また、統語機能と中前頭回後部との関連 (e.g. 図5) が左優位であることから、背側システムの上位レベルでは、より強い側性化パターンがみられるのかもしれない。また、感情的プロソディは右半球が優位であるという長年の見解は、中心前発話野が介在する発話生成レベルにおける非対称性と矛盾しない。しかし、右半球の損傷で感情的プロソディ障害がよく見られるのは事実だが、左半球の損傷でも同様の障害が見られるようであり、非対称性の強さには疑問が残る。同様に、言語的プロソディについても、強い側性化効果を見出すことはできなかった。このように、背側経路の側方化パターンは、特に異なる階層レベルや異なるサブ機能への適用については、かなり不透明な状態が続いている。さらに、歌・プロソディの生成と、その他の音声・言語・呼吸制御の生成とが、大脳半球で分離している可能性を示す証拠もあり、いまだ整理が必要である。また、音声生成におけるこれらの対称/非対称パターンと、聴覚知覚における仮説的な非対称パターンとの関係も興味深い。これらの問題やその他の問題は、今後の研究に委ねたい。

 

感想
最後のほう意味わからんかった。感想は後日系again。