イケボの向こう側

Nier Katze
5月23日
読了時間: 7分

イケボってなんだ。って最初思いました。聞いたとき。いわゆるイケメンボイスというやつです。

わたくし、FF14始めてまあフレンドとかできて初めてVCしたときびっくりしたんですよ。イケボって言われて。そんなこといままでの人生で一回もない。え？声？？みたいな。

いったいどうして・・・と思っていて、最近あーこれ認知のフィルターのせいかあと悲しい現実に気づきました。

みなさんもイケボのひとけっこう見てるでしょ。配信とかでも。わたくしも1イケボとしてその向こう側はいったいどういうものか教えて差し上げたいと思います。

１：そば屋のはなし

いきなり話はぶっとんでいくのですが、むかし近所にあったおそばやさんのお話をちょっとさせてください。イケボと何の関係あるんだとか思うかもですが、まあちょっと聞いてください。

そのそば屋、入るとものっすごいかわいい声で「いらっしゃいませーーー」っていわれるんですよ。

そのかわいさたるや、入ってくる男ほぼすべてがきょろきょろして相手を探すレベル。

ところが、そば屋にはおばあさんが一人座っているだけなのです。

みんなもう頭が？？？？？？状態です。

種明かしをすると、まあこの声このおばあさんから発せられているものなのですが、年齢も時代も何もかも飛び越えてあんなかわいい美しい声がキープできるのかと驚かされるのです。

例えとして適切かはわかりませんが、はっきりといえるのは、声と容姿、年齢がまったく相関しないタイプの人が世の中には一定数います。

おばあさん、歳とって歩くのきつくなったっていう理由でそば屋を閉じてしまったのですが、声は別としておそばはたいへんおいしかったので残念です。

２：認知フィルターのはなし

では、なぜわたくしはゲームでVCするまで言われたこともほとんどなかったイケボなる評価をいただいたのでしょうか。

これは認知の順番と、フィルターが影響しています。どういうことか。ちょっと説明しますね。

まず最初にこの動画をみてください。短い動画です。

https://www.youtube.com/watch?v=lhe8sRkWh5I&t=13s

大阪府警が暴力団の事務所に強制捜査している動画なのですが、この動画の冒頭、「大阪や！あけんかいこらあ」と叫んでいる人がいます。

このひと、帽子を外して、５ｍｍくらいの長さで丸坊主にしたらわたくしにたいへん感じが似ています。そっくり。年齢も。40後半といったところです。

そこでこのひとが遠くから歩いてくるのを想像してください。あなたが立っていてそこにこの人が歩いてきます。

そうすると、人間の認知の順番はこうなります。

１・姿が見える

２・だんだん近づいてきて顔かたちが見える

３・目の前に来る。口をひらいてなにかをしゃべりだす

その場合、認知の種別としては、

１・視覚

２・視覚　相貌の認識・評価

３・聴覚　音声の認識・評価

となります。人間の視覚聴覚には不思議なことに思ったよりも多くの認識補正がかかっています。どういうことかといいますと、いわゆる「みたまま」「きいたまま」を純粋に認識しているわけではないのです。

思ったよりも多くの補正が脳で実施され、その結果を認識しているにすぎないのです。

例えばですけど、そこにあったはずのものなのに、気づくまで見えていなかったことってないですか？視覚情報としては目から入ってきていたはずなのに認識できていなかったこと。

これは目から入ってくる視覚情報をそのまますべて認識しているわけではないことの証左になります。

ものすごく高性能なVRゴーグルを死ぬまでかぶっているのと実は同じなのです。

視覚をサンプルにしてお話しましたが、聴覚も実はかなり補正がかかっています。難聴の患者様なんかが補聴器をつけたとき、健康な時とくらべて何が一番違和感があるかというと「あらゆる音が大きく聞こえる」という点です。つまり脳が「この音は重要、この音はそうじゃない」っていうのを選別してくれていたんですね。補聴器をつけるとそういうフィルターがききにくくなります。（長くつけていると、補聴器からの情報に合わせて脳がまた補正をかけていくので慣れていきます）

つまり、ここからわかる悲しい現実を書くとこういうことになります。

１・わたくしが近づいてくる。　→　あー、おじさんだ。なんかちょっとこわいかんじだな

２・よく近づいて顔とかわかる　→　なんかブサイクなおっさんだなあ

３・しゃべりだす　→　おっさんだなあ・・

つまり、１と２の容貌視覚認識によって、イケメンであるかもしれないという仮定はしっかり脳で否定されているわけですね。そのため、純粋な音声情報としての声がいわゆるイケボであったとしても、聴覚の補正がかかってしまうのです。つまり、イケボではないという判定がされます。

悲しいことですが、人間の認知の仕組みからするとこういうことになります。

これが、ゲームのVCだとどうでしょう。

１・キャラが近づいてくる　→　みこってだー。モンクかー！かわいいなー

２・よく近づいて顔がわかる　→　ちょっとボーイッシュでかわいいなー

３・しゃべりだす　→　え！？声よくない！？

つまり視覚情報のフィルターが、最後に来る聴覚情報にネガティブな影響を与えないんですね。

これが、わたくしがゲームのVCでいきなりイケボと言われた原因です。

こわいですねえ。これ。いい年してちょっといい気になりましたもんね。あぶないあぶない。

おっさんも、おばさんも、イケボカワボとかいわれていい気にならないようにしましょうね・・・・・。

３：脳の情報処理のすばらしさ

でもこれ、よく考えると非常に効率的かつすばらしい脳の仕組みなんですよね。

AIなんかでもそうですけど、コンピュータでなんらかの認識をさせようとするとき、得られた情報のどこが重要で、どこがそうでもないかというところを判定させるのって難しいんですよ。あと統合された情報の判定もそうです。

人間の目も耳もたいへん優れたセンサーで、入ってくる情報の総量ってものすごく多いわけです。

脳は神経細胞の集合体で、基本的には内部の電位の変動によってコンピュータと同じく様々な処理をするわけですが、様々なセンサー、つまり視覚、聴覚、触覚などから得られた情報を一瞬で統合し、なにが重要でそうではないかを補正し、我々に世界を認識させてくれている。

上記の例で言うと、視覚はおっさんを認識してるけど聴覚ではイケメンボイス、統合して考えた時にちゃんと「おっさんだぞ。イケメンじゃないぞ」という認識を付与して、聴覚からくる錯誤を自動的に訂正してくれているわけです。なので、リアルで出会ってきた人たちはわたくしの声をきいても「イケボ」とか評価しないわけです。

困るでしょ？視覚は10点、でも聴覚は100点、平均で55点だからフツメン！とか脳が判定したら。ちゃんと重視すべき情報と捨てるべき情報を判定して、統合したうえで評価するから正確に「ただのおっさんだな」と判定できているわけなのです。あたりまえのようでいて、これは相当高度な情報の統合と取捨分別、判定評価の仕組みです。

まあ、悲しい現実ではあるんですけど、それ以上に脳ってやっぱすげえなあって思うんですよね。

当たり前ですけど、目からは視覚情報が、耳からは聴覚情報が、皮膚からは触覚情報や温度の情報が、舌からは味覚情報が、鼻からは聴覚情報が常に山のように流れ込んできていて、それを常に統合し、判定し、我々の多くはその情報に従って間違えることがありません。

あらゆる生物は世界をセンサーで認識し、統合して判定して生きているわけですけど、同じことをコンピュータでやろうとするとマジで大変なんですよね。各情報の同期をとるのも大変だし。判定の基準値をいちいち設定しないとだし。AIなんかつかえばかなりうまくできはするんですけど、膨大な学習が必要ですし。

でも生き物って、生まれてしばらくしたらだいたい基本的な情報統合と判定ができますもんね。

まあ、イケメンじゃないよっていう悲しい現実もしっかりとあるわけですが。

４：余談

京極夏彦さんの作品に「姑獲鳥の夏」っていう作品がありまして、これは視覚情報や聴覚情報の認識錯誤をうまくトリックにつかった大変面白い作品です。

作品の雰囲気もたいへんよろしいので、興味があったら是非読んでみてください。

脳の認識と、外の世界についての示唆については、養老孟司先生の「唯脳論」がおすすめです。これもすごい面白い！

イケボの向こう側

１：そば屋のはなし

２：認知フィルターのはなし

３：脳の情報処理のすばらしさ

４：余談

最新記事

コメント