COLUMN

No23. 声に宿る感情を読み解く(発声と聴覚のしくみ)

テクノロジー

はじめに

今回のコラムは、初めて音声感情解析の分野に触れる方々を対象に、話者の声から聞き手が感情を推定するしくみの理解の第一歩として、感情を含んだ「声」がどのように作られ、耳に届き、そして脳で認識されるのかを、物理や医学の専門知識がなくてもわかるように、順を追ってご説明します。

1.声は「感情の窓」

私たちは毎日、人の声を聞きながら生活しています。
会話、電話、会議、プレゼン…。その中で「声のトーン」で相手の気持ちを察したことはありませんか?
たとえば、「はい」と一言だけでも、それが怒っているのか、驚いているのか、落ち込んでいるのか、ある程度わかることがあります。
つまり、声には言葉の意味(言語情報)だけでなく、感情のニュアンス(非言語情報)も含まれています。

2.発声から声の理解までの流れ

図1を参照してください。
人間は発声者の脳が肺、声帯、喉や口蓋(まとめて声道と言います)などに指令を発して空気の振動を作ります。
これが声です。
声は口とその周囲に満ちている空気を振動させ、この振動が聞き手の耳に伝わり、それに応じて耳の中の鼓膜が振動します。
鼓動の振動は耳の奥にあるカタツムリ管(蝸牛とも言います)に伝えられます。

この中はリンパ液で満ちており鼓膜の振動はリンパ液の振動に変わります。
振動の周波数に応じてカタツムリ管内部の刺激される位置が異なり、その位置情報が聴神経を通じて脳に送られます。
脳はこの情報の時間的な変化からもともとの声による空気振動の波形を脳内で再現させることにより声が聞こえたと理解できるようになります。
では一つずつ少し細かく見て行きましょう。

3.声が生まれるしくみ:発声機構


図2に発声にかかわる体の部位をごく簡単に図示します。

(1)「肺からの空気」が声の原動力

声は話者の脳が肺に指令を出して肺から空気を押し出し、 声帯を振動させ音を出させます。
そしてやはり脳から指令を出して喉頭、咽頭、口腔、鼻腔(これらを総称して声道と言います)の形を変えてその音を整え、声として発声させます。
この流れは、ちょうどクラリネットのような木管楽器に似ています。
肺は空気の供給源、声帯はリード(音のもと)、口や鼻は共鳴器(音色を決める)です。

(2)声帯の「振動」が音を作る

声帯は、喉ぼとけの奥にある二枚のヒダです。
このヒダが肺からの空気でプルプルと振動すると、ブーーンという音のもと(=声の種)ができます。
このとき、声帯の振動周波数が高いと「高い声」に、周波数が低いと「低い声」になります。
つまり、声の高さ(音の周波数)=声帯の振動の速さです。
日本人の声帯の前後長は男性で24mmから25mm、女性で16mmから17mmです。
この長さが小さいと高い音が、大きいと低い音が出ます。
従って女性の方が高い声が出ます。

(3)口・舌・鼻で「音色」が決まる

声帯から出た音は、口・舌・鼻を通ることで「言葉らしい音」に加工されます。
これを共鳴・調音といいます。
音の通る道を「声道」と言います。
これは特別な器官があるわけでは無く、喉頭、咽頭、口腔、鼻腔を指します。
声帯で発せられた振動する空気が通過し、鼻や口から出ることにより声が出ます。
声道の役割はクラリネットに例えると管の部分になり、空気振動を共鳴させる共鳴器の役割を持ちます。
クラリネットの管の形は変化しませんが、声道はグニャグニャしており形が変わります。
これにより声道では声帯からの音をさまざまに調節し声を特徴づけます。
声道の長さは男性で17cm程度、女性で14cm程度であり、男性の方が女性よりも長いことが知られています。
このとき、舌や唇の動きによって母音や子音の違いが生まれます。
つまり、声帯が「音のもと」を作り、それを「声」に仕上げるのが口の仕事です。

(4)声の波形

声を分かりやすく図示する手法として波形があります。
波形にはいくつかの種類があるのですが、横軸に時間をとり、縦軸に空気の圧力(音圧あるいはマイクロフォンの出力電圧)をとって図示したものを図3に示します。
この図は女性が「あ」と発声したときのものです。
時間の単位はこの図の横軸の長さが1秒程度と考えてください。

この波形の中には声に関するさまざまな情報が含まれています。
感情情報は最終的には声として発せられる空気振動の波形情報の中に含まれることになります。

3. 声を受け取るしくみ:聴覚機構

次に、声を聴くしくみについて説明します。
図4に示すように空気の振動は鼓膜を振動させ、その振動情報は耳の中にある小さな骨(耳小骨)により梃子の原理で増幅されてカタツムリ管に伝わります。

このカタツムリ管が非常に重要な働きをします。
管内のリンパ液は鼓膜から伝えられた波形に従って振動して波が起こります。
この波の波高の位置により鼓膜からの入力波形の周波数が分るのです。
例えば非常に高い周波数の音が入力された場合には、カタツムリ管の入り口付近にリンパ波の波高が形成され、それがカタツムリ管内部の聴覚神経を刺激します。
この刺激は電気信号に変換され聴覚神経を伝わって脳に送られます。
カタツムリ管の内部のどの位置の神経が刺激されるかにより音の周波数が分り、刺激の強さでその周波数の音のエネルギーが分かります。
図5は「あ」という音に対して周波数とそれに対応するエネルギーの大きさをグラフにした図です。

これを周波数分析グラフあるいは周波数スペクトルと言います。時間的な波形から周波数スペクトルに変換することを専門的な用語でフーリエ変換と言います。
専門的には「カタツムリ管はフーリエ変換をする器官である」と表現します。
ちなみに、このしくみを発見したのはハンガリー生まれの物理学者で生理学者でもあった ゲオルグ フォン ベケシー博士で、この功績により1961年度のノーベル医学生理学賞が授けられました。
音響学の分野でノーベル賞を受賞したのは彼だけです。

4.感情を理解するしくみ

実は、音の意味を理解するのは耳ではなく「脳」です。
脳は、カタツムリ管から送られた信号を処理して、周波数スペクトルを認識し、次のような情報を読み取っています。

  • 声の高さ(周波数)
  • 声のエネルギー(音圧)
  • 声の変化(抑揚やテンポ)
  • 声の質感(音色)

にこれらの特徴を組み合わせて、私たちは「この人は怒ってるな」「ちょっと寂しそうだな」といった感情を読み取っているのです。怒ったとき、人は無意識に声を強く、速く、高くします。
逆に、悲しいときには声が小さく、ゆっくり、低くなります。
こうした声の特徴的なパターンが感情を伝えるカギになります。
声のパターンと感情の対応関係は成長に従い脳内に形成され記憶されます。
すなわち声パターンと感情との関係を示したデータベースが脳内に作成されて行きます。
赤ちゃんの時には単純な感情のデータべースしかありませんが、大人になるに従って複雑な感情のデータベースが形成されていきます。
脳は声の情報が入力されると、このデータベースを参照して声に含まれる感情を判断しています。

おわりに

以上が発声と聴覚のしくみ及び感情を認識するしくみの概要です。
当社が扱っている音声感情解析は、このしくみと同じで、音の音響学的なパターンを分析して感情を解析する仕組みです。
鼓膜の代わりにマイクロフォンを、カタツムリ管の代わりに高速フーリエ変換を、脳の代わりにLVAというテクノロジーを用いて感情を解析しています。

音声感情解析AI「ALICe」とは