美空ひばりとAIと「不気味の谷」

最近、NHKの番組を見ていて、不覚にも泣きそうになりました。

この番組です。

ＡＩでよみがえる美空ひばり
https://www6.nhk.or.jp/special/detail/index.html?aid=20190929

過去の音声を学習して音声合成モデルを作成

僕は、美空ひばりに、何か重ね合わせるような思い出があるとか、
そういう年代ではないので、最初は、
「AI」というキーワードに惹かれて見始めたのです。

ヤマハが「ボーカロイド」という音声合成ソフトを
発売していることはもともと知っており、
この技術が番組内で登場した時点で、
再現度をすぐに想像しました。

「そう思って聞けば、美空ひばりの歌声に聴こえなくもない」
というくらいではないかなと思ったのです。

番組の内容のほとんどは、
ヤマハの音声合成技術を使って、故・美空ひばりの歌声をどう
再現するかというところに充てられています。

このために、過去の生歌の音声データが
レコード会社から提供されたほか、
美空ひばりの養子（甥）にあたる親族から、
家族用に残されていた音声テープなどが提供され、
喋りや歌声がディープラーニングされていきました。

ダメ出しを経て新たな声の変化が加えられていった

ところが当初ヤマハの想定した合成音声モデルで
過去の音声素材をディープラーニングするだけでは、
再現というレベルには達しなかったようです。

途中、ファンクラブやプロデューサーの秋元康に
ダメ出しされるシーンがありました。

しかし、さらに、美空ひばりの歌声を解析した結果、
ホーミーに近い特殊な発声法が織り込まれていたといった
知見が投入されていきます。

当初想定されていなかった
声の変化モデルが盛り込まれ、
声の変化を重視したモデルへと、
パラメーターがチューニングされていきます。

そうした紆余曲折を経て、
番組の最後で流れた歌声は、

とんでもなく予想の上を行ってました。

しかもそれを聴いた関係者、美空ひばりの親族の方や、
ファンクラブの方々が歌を聴きながらボロボロ泣いているわけです。

その様子を伝える映像にジーンときてしまいました。

もちろん機械の作る声ですから、よく聴けば、
もう少し、力を込めて歌うポイントがあるはずだとか、
息遣いがないのが逆に不自然だ、
などと思える部分はあるのですが、
背景を知らずに「昔の未発売音源だ」という説明で聴かされたら、
僕はそのまま信じてしまうだろうなと思いました。

賞賛と批評と批判

で、ネット上の世間の反応も少し調べたのですが、

・素直に、感動したという感想
・本物はもっと凄かった、しょせんは合成にすぎないという意見
・死者への冒涜だという指摘

などの反応があったように思われます。

まあ、本物の方がもっと凄い、というのは、そりゃそうだ、という話だと思います。

僕が興味深いなと思ったのが、これが死者への冒涜だという指摘ですね。

僕自身はこれが冒涜だとは感じませんでしたが、
これを冒涜という感じ方があったということは、ひょっとすると、

歌声や映像が、本物と似すぎていて気持ちが悪い、

という、生理的な不快感をもたらした可能性はあるのかなと僕は思っています。

だってこれが、しょせんは機械合成だね、とすぐにわかるような低品質なものだったら、
冒涜かどうかという議論にはならず、
「ただのマガイモノだ」という感想にしかならないと思うんです。

そこで思い出したのが、以前、こういう話題をどこかで見た気がする、
なんだっけと、1日かかって思い出したのが、これでした。

「不気味の谷現象」
https://ja.wikipedia.org/wiki/不気味の谷現象

（ウィキペディアより）
ロボット工学者の森政弘が1970年に提唱した。
森は、人間のロボットに対する感情的反応について、ロボットがその外観や動作において、
より人間らしく作られるようになるにつれ、より好感的、共感的になっていくが、ある時点で突然強い嫌悪感に変わると予想した。
人間の外観や動作と見分けがつかなくなるとふたたびより強い好感に転じ、人間と同じような親近感を覚えるようになると考えた。

外見と動作が「人間にきわめて近い」ロボットと「人間とまったく同じ」ロボットは、見る者の感情的反応に差がでるだろうと予想できる。
この二つの感情的反応の差をグラフ化した際に現れる強い嫌悪感を表す谷を「不気味の谷」と呼ぶ。

上の説明によれば、
ロボットが人間に似ていくにつれて

(a)そこそこ似ている＝好感が持てる
↓
(b)もっと似ている＝嫌悪感を感じる
↓
(c)見分けがつかない＝親近感を持てる

という段階があるということです。

これは学術的には単なる仮説ですが、
裏付けがとれたとする研究結果も後に発表されており、
比較的、信ぴょう性のある仮説だと受け止められているようです。

NHKの番組制作意図を
このロジックに則って考えた場合、
番組制作者は
(b)を超えて(c)の段階を達成できるAIの可能性を
提示したかったのだろうなと思います。

それほど美空ひばりの歌声を聴きこんでいない僕は
たぶんこのレベル分けでいうと、(c)なんだろうと思います。
すなわち、僕に対しては、番組の狙い通りの反応を獲得しました。

ですが、この「似ている」とか「見分けがつかない」は主観的なものですから、
同じものを聴かされたときに、(a)(b)(c)の反応が混在していると考えるのは自然なことだと思います。

冒涜と表現した方は、ひょっとすると(b)なのかもしれない。

親族やファンクラブの方々にとっては(a)だったのか(c)だったのか、そこは番組を見ただけではよくわかりません。

この技術を積極活用する歌手が出てくる可能性は

で、僕の感想というか妄想になるのですが、

美空ひばりはもう亡くなって30年になりますが、
まだご健在でも、お歳を召された歌手のお方って
おられるじゃないですか。
紅白歌合戦などで久々に登場しても
「もう昔の歌声じゃない」といわれるような。

あるいは、若くして喉頭がんで声を出せなくなった歌手、
事故等で昔の歌い方ができなくなってしまった歌手も、
おられます。

今回のヤマハの技術は、
そうした方にとって、
若いときの歌声を資産として残す方法、
という考え方が、たぶんこれから検討されていくだろうなと思うのです。

たとえば、
「若い頃の合成の声で新曲をリリースする」可能性だってありえるはずです。

もしそのような手法を駆使するシンガーが出てきたときに、
聴き手はどう反応するのだろう？

そしてそのような活用でも
「気持ち悪さ」ではなく「親近感」だけを聴き手に残せる合成音声には
あと何年の技術進歩で到達するのだろう。

まだ存命中の歌手であれば、素材集めも、解析も
しやすいはずで、
実現はもうそんなに遠くないところまで、
来ているんじゃないかな、と、期待したくなります。

あるいは、芸能関係だけではなく、幼い頃に親を亡くしてしまった子供に、
物心ついてから、親の合成音声で何かを語りかけることが
特別な意味を持ちうるとか、
そんな技術の使い方も、ひょっとしたらありえるのかもしれません。

見る人によってもっといろいろなことを考えだすきっかけとなる番組だと思います。

人工知能に関心のある方は、このNHKの番組は再放送やオンデマンド等で見た方がいいと思います。

最終成果の歌はここで

[NHKスペシャル] AIでよみがえる美空ひばり | 新曲あれから | NHK
https://www.youtube.com/watch?v=nOLuI7nPQWU

HTML Comment Box is loading comments...