音声合成技術と5G通信でゲームはどう変わる?NTTドコモ担当者に直撃!【Unite Tokyo 2019】 | GameBusiness.jp

音声合成技術と5G通信でゲームはどう変わる?NTTドコモ担当者に直撃!【Unite Tokyo 2019】

この秋から試験的な運用の始まった5G。多くのゲーム関係者が興味を持っている5GについてNTTドコモへの取材を行いました。

ゲーム開発 ゲームエンジン
音声合成技術と5G通信でゲームはどう変わる?NTTドコモ担当者に直撃!【Unite Tokyo 2019】
  • 音声合成技術と5G通信でゲームはどう変わる?NTTドコモ担当者に直撃!【Unite Tokyo 2019】
この秋から試験的な運用が始まった5G。多くのゲーム関係者も興味を持つ次世代通信規格ですが、通信キャリアとして5Gの鍵を握るNTTドコモが「Unite Tokyo 2019」に出展していました。今回は、イノベーション統括部担当部長の秋永和計氏に出展した感想や通信業から見たゲーム業界の印象をお聞きしました。




秋永氏(写真左)にお話をお聞きしました


ーー今日はよろしくおねがいします。自己紹介をお願いします。

秋永氏(以下、敬称略)NTTドコモのイノベーション統括部の秋永です。私の部署では主にNTTドコモのR&Dの研究開発成果と、パートナーである外部の皆さんの技術をかけ合わせて新しいビジネスを生み出す活動をしています。

今回のUnite Tokyo 2019では、NTTドコモが資本・業務提携を締結したフロリダに本社を置くMagic Leap社の提供するxRデバイスの「Magic Leap One」の展示を行いました。私はゲーム業界やxR業界の開発者の皆さんと「Magic leap」について話し合うコミュニティを担当しています。

またコミュニティとは別に、音声認識と音声合成によるAIの対話システムも担当しており、NTTドコモでは2012年からしゃべってコンシェル「ひつじのしつじくん」などをはじめとするAIエージェントも展開中です。私は音声認識や音声合成のビジネスをもっと一般化したいという思いがあり、「AIエージェントAPI」というサービスを開発実現し、2019年4月にサービスを開始しました。

私達が今回Unityにフォーカスしたのは、ゲームやxRの世界などは音声認識や音声合成の親和性があると考えたからなんですね。例えばVR上ではキーボード入力ができないので、音声入力は使いやすいのではと感じました。Uniteでのデモで使用した「Magic Leap One」や「Oculus Quest」はマイクの性能も良いので音声認識との相性は良いと思います。

ーー「中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方」でご登壇されていましたね

秋永我々は音声合成に自信を持っており、声優さんの声を一定量収録するだけで我々の音声合成技術を活用することでほぼ同じ音声を作ることができます。ゲーム業界では声優さんのボイスを個別に収録されていると伺っていますが、声優さんの収録時間の確保が難しいと聞いておりましたので、私どもの技術はそういった問題を解決するのに役に立つと考えています。実際に、いくつかのゲーム会社からはご連絡をいただいています。

ーー確かに、声優さんの収録にはスケジュール調整が難しく録り直しが困難だという課題がありますね

秋永収録の課題以外に、新しい体験として、音声認識と音声合成の組み合わせによって、キャラクターが自分の名前を呼んでくれるような新しい体験も実現できるのかなと思っています。今回、「AIエージェントAPI」のUnity用のSDKを開発し、お披露目をしたのが今回の出展で一番大きなトピックですね。

ーー展示ブースもありましたね。従来の音声合成とは異なるのでしょうか

秋永従来の音声合成技術では、声によってキャラクター性を表現するのは難しかったのですが、このあたりの表現能力がかなり向上しています。今回の登壇でも我々の音声合成ボイスを聞いていただけたかと思います。たとえば、今回はキャラクターに合ったツンツンした声を出すことができました。講演で披露した音声はの大部分は音声合成で作成しています。

ーー声に表情が出ていて驚きました。音声合成について解説をいただけますか

秋永一言でいいますと、声の特徴を抜き出して、日本語の言い方に当てはめる技術ですね。この工程に我々はディープラーニングを用いて学習し、同じような声を再現できるようにしています。声優さんによって異なりますが、約2~4時間の収録で基本的な再現性の高い声を作ることができると思います。

ーー対話技術について、ずっと研究をされているわけですね。スマートスピーカーが流行する以前から積み重ねてこられたのですね

秋永はい。我々は音声対話エンジンを法人向けにご提供していたのですが、フルセットで提供すると年間で1000万円くらいかかっていました。今回このエンジンの見直しを行い、皆様が使いやすい価格でのご提供が出来るようになりました。

ーー対話となると、音声合成だけでなく音声認識も大切になってきますね

秋永音声認識は非常に精度の高いものを提供できています。また、音声認識後の対話制御では自然言語処理をしているのですが、この部分もディープラーニングを用いて飛躍的な解析精度の向上ができています。例をあげると「品川さん問題」と僕らが呼んでいる問題がありましたがこれもクリアできました。

ーー「品川さん問題」とは?

秋永「品川駅の近くにある品川さん家に行く」と言ったときに、地名である品川と人名である品川を区別して処理ができるようになっています。機械学習を用いて、文脈の中での単語の用途を判別しています。例えば「どこから来たの?」と質問したら、「北海道だよ」とか「北海道です」と返答がくるだろうと会話そのものを予測して、地名だけを理解できるようにしています。だから聞いたことのない海外の地名も判別することができます。

ーー会話を理解して返答ができるのですね。音声認識は方言なども認識できるのでしょうか

秋永音声認識はよほど難解な方言でなければ問題ないです。音声認識でイントネーションを拾えなくても、自然言語処理の部分でカバーできるので理解できないということはないです。ただ、音声合成は難しいですね。音声合成は方言毎に別の学習が必要です。というのは、方言は語尾が上がる下がるで意味が異なるケースもあります。それを学習するには前後の発言や意味関係で理解する必要があるので、方言対応の労力は外国語のエンジンを作るくらいのスケールになってしまうんです。これも研究開発を進めている分野ですね。

ーー方言はそれだけ奥深いのですね。Unite Tokyo2019に出展をした感想も教えていただけますか

秋永初めての参加でしたが、講演を含めてUnityのユーザーは非常に熱心で期待の高さを感じました。音声認識や音声合成についても現在の研究段階でここまでできるならこんなことができるのでは?という声もいただくことができましたね。

ーー余談になりますが、普段ゲームはされますか

秋永私ですか?そうですね……ゲーマーほどではないですが、VRですと『Beat Saber』は面白いですね。社内で『Beat Saber』部ができたらいいなと思っています。

ーー5Gついてもお聞きしてよろしいでしょうか?ゲームはどのように進化するのでしょう?

秋永5Gについては、いわゆる低レイテンシーの通信がゲーム業界にも変化をもたらすと考えています。対戦格闘ゲームのようなミリ秒で判定が決まるようなゲームにも対応できる技術を提供できるはずです。これに加えて、クライアント-サーバー間の物理距離の問題もモバイルエッジコンピューティング(MEC)と呼ばれる技術で、我々の基地局や交換機の近くにサーバーを置くことで物理距離を縮めて低レイテンシーを実現できると考えています。技術的な検証や実現する方法についても様々なゲーム開発者の方々と議論しています。

ーーゲームセンターの店内対戦も実は一度店外のサーバーを経由したりしていますからね。他にもメリットはあるのでしょうか

秋永5Gではネットワークスライシングという技術がありますね。今は通信を提供したときにその場所で使える最大の帯域幅でデータを送るので、混雑する場所に行くとその場所の帯域をその場所にいる利用者で分け合うのでどうしても通信が遅くなったり切断してしまいます。

ーー回線が細くなると呼ばれる状態ですね

秋永そうですね。ネットワークスライシングでは帯域を保証して通信を確保するというもので、いわば専用レーンのようなイメージです。ゲームだと対戦プレイヤーが落ちちゃうことを防いだり、ストリーミング放送でいうと綺麗な映像を途切れなく視聴できるようになります。

ーーゲームは人が集まるイベントが多いので、回線の問題は悩ましいですね。最近は会場マップもすべてweb上にありますからね

秋永カンファレンスやイベントなどの混雑した環境でWiFiが使えなくなるという課題は5Gの世界では専用帯域の確保でクリアできるようになると思います。実際には通信の公平性とどうバランスをとるかという課題はありますが、この技術をどうやって皆さんにお届けするか社内でも議論を重ねています。5Gは基本的に帯域幅が大きいことが特長ですが、さらに通信エリアは小さいけれど帯域の広いミリ波の周波数帯の電波を使うことで、混雑しても安定した通信が技術的にご提供できるはずです。NTTドコモとしては様々な帯域を使って、従来の4GLTEとは違った通信サービスのご提供を目指しています。

ーー大きな変革の時期にあるのですね。東京ゲームショウ2019でも大々的に出展されていましたが、今後もそうしたゲームイベントや今回のUniteのようなカンファレンスにも出展していくのでしょうか

秋永我々も5Gをどういう領域に使ってもらえるのか直接開発者の方にお聞きしたいので、ゲームクリエイターに会える展示やxR系のイベントに積極的に参加したいと思っています。

ーー今回、Uniteに参加しての感想を教えてください

秋永ゲームエンジンがゲームだけのものではなく、ゲームと他産業との距離が近くなっていると感じましたね。基調講演では自動車分野への応用についても言及がありましたが、自動運転のトレーニングにUnityを使うみたいな例は面白い取り組みだと思いました。機械学習の領域では強化学習という分野がありまして、この分野ではシミュレーションを盛んに利用しています。これをゲームととらえるのか、シミュレーションととらえるのかの違いだけで、ゲームエンジンはゲーム分野だけの技術じゃない。と思いましたね。

ーーUnityの汎用性が高くて他分野にも進出できているのでしょうね。最後にこの記事をご覧の皆さんに一言お願いします

秋永「Magic Leap」のような新しい感覚を提供するデバイスや、AIによる音声対話のような新しい技術が登場すると、そこに様々な新しい価値が生まれるので、ゲーム業界向けにもそういった新しいテクノロジーやデバイスを提供していきたいです。是非、今回登壇した我々の講演 も見てもらえたらと思います。

ーー今日はどうもありがとうございました
《HATA》

関連ニュース

特集

人気ニュースランキングや特集をお届け…メルマガ会員はこちら