“表情豊かなアバター”に“歌うモナリザ”も 「感情を表現する生成AI」の進化と活用
生成AIがまた一歩、人間に近づいた。動画生成AIのプラットフォーム「Synthesia」を展開する英国のSynthesiaは、豊かな表情で発話する「expressive AI Avatars(エクスプレッシブ AIアバター)」を4月25日にリリース。怒りや興奮が表情から伝わるAIアバターは、技術の進化を感じさせる。
また、同時期に発表されたMicrosoft Research AsiaのAIフレームワーク「VASA-1」は、静止画と音声クリップから、人物が話したり、歌ったりする動画を生成する。さらに、5月13日(米国時間)に発表されたOpenAIの新AIモデル「GPT-4o(フォー・オー)」は、人間と話しているかのような自然な音声会話を実現する。
世界のスタートアップが取り組むイノベーションの"タネ"を紹介する連載企画【Global Innovation Seeds】第53弾では、どんどん“人間らしく”なっていく生成AIの進化を伝えたい。
※サムネイル画像:Synthesiaの公式ホームページより
感情を持っているようなAIアバター「expressive AI Avatars」
以下2つのポストは英国企業のSynthesiaがリリースしたばかりの「expressive AI Avatars」の紹介動画だ。喜び、怒り、興奮といった感情を表情と語調、ボディランゲージで表しながら、自然に発話するAIアバターの様子が映し出されている。繊細な表情の変化や人間らしい発話に驚かされた人も多いかもしれない。
https://twitter.com/synthesiaIO/status/1785256446969462953
https://twitter.com/synthesiaIO/status/1783140418563010992
▲160以上が制作されているSynthesiaの次世代AIアバター(Synthesiaの公式ホームページより)
Synthesiaの公式ホームページには、年代、性別、人種の異なる複数の次世代AIアバターがずらりと並んでいる。2024年5月時点で160以上のアバターの種類があり、服装もビジネスシーンで使いやすいスーツや制服、作業着から、Tシャツやノースリーブなどカジュアルなものまで幅広い。
これらのアバターを活用すれば、テキストを用意するだけで、表情豊かで自然な音声の動画をわずか数分で作れるという。発話可能な言語は130以上となる。
▲expressive AI Avatarsの開発には、俳優が話す姿を撮影したデータを活用しているそうだ(Synthesiaの公式ホームページより)
このexpressive AI Avatarsは、同社のスタジオで数十人の俳優が身振り手振りを加え表情豊かに話す様子を撮影し、それをアバターに反映させて作り出しているそうだ。
Synthesiaの動画生成AIプラットフォームは、年間で36分のビデオ制作、6人のAIアバターと制限はあるが無料でも利用できる。有料プランは「Starter」(22ドル/月)、「Creator」(67ドル/月)、「Enterprise」(要相談)の3つとなる。
研修にマーケティングも。AIアバターのユースケース
2017年に創業したスタートアップでありながら、Synthesiaのサービスはすでに大手を含む多くの企業に導入されている。2社の導入事例を紹介したい。
<Zoom>トレーニング用動画の制作
Zoomでは、1000人を超える営業担当者のトレーニング動画の制作にSynthesiaを活用し、業務を大幅に効率化している。動画制作の手順は以下のとおりとなる。
1、作成したスクリプトをSynthesiaにアップロードしてアバターを選択、シーンの詳細を追加してAI動画を生成する
2、AI動画とその他のトレーニングモジュールをオーサリングツール(文字や画像、音声、動画などの要素を組み合わせて一つのソフトウェアやメディア作品を組み立てるソフトウェア)に統合し、学習コンテンツを完成させる
それまでは、15分の動画を制作するために丸1日の撮影時間がかかっていたという。クオリティを上げるために複数回の撮り直しが発生していたためだ。また、動画の内容を更新する場合は、その都度、撮り直しが発生していた。Synthesiaの導入により、効率的に動画制作ができるように。以下のとおり、劇的な効率化につながっているそうだ。
時間の節約:90%
動画の制作数:200以上(制作期間は約6ヶ月)
従業員一人あたりのコスト削減:1,000〜1,500ドル(約16〜23万円)
※Zoomのトレーニング動画
<Doculife>製品紹介動画の制作
ドイツに本拠地を置き、企業向けのSaaSを提供するDoculifeでは、主力製品の紹介動画の制作にSynthesiaを導入し、成果を上げている。動画制作の手順は以下のとおりとなる。
1、作成したスクリプトをSynthesiaにアップロードする
2、アバターを選択し、商品の説明動画(画面録画)をアップロードする
3、スクリプトとアップロードされたビデオ映像が一致していることを確認して、動画を生成する
同社の担当者は、当初、自身がナレーションを担当して紹介動画を制作していたが、満足するクオリティに達するまでには撮り直しが発生し、時間を要した。また、マーケティングキャンペーンに合わせた動画制作の規模拡大や予算を考えても、従来の方法では困難だったという。同社では、動画制作のスピードが20倍になる成果が得られている。
※Doculife社の製品紹介動画
顔写真がしゃべったり、歌ったりするAIフレームワーク「VASA-1」
Microsoft Research Asiaが2024年4月16日(米国時間)に発表したAIフレームワーク「VASA-1」もまた、インパクトのある生成動画が話題を集めている。1枚の静止画像と音声クリップから、あたかも写真の人物が話したり、歌ったりしているような動画を作成できるのだ。モナリザがラップを歌うSNS投稿は、720万回以上も表示されている。
話している動画を見ても、本当にその人物が話しているかのような生き生きとした表情と自然な発話が実現している様子がわかる。
このVASA-1は、あくまで研究のデモンストレーションであり、Microsoft Research Asiaは製品やAPIのリリース予定はないと伝えている。
▲VASA-1のデモンストレーションは、多くのバーチャルキャラクターが活用されている(Microsoft Research Asiaの公式ホームページより)
VASA-1の紹介ページに掲載されている全ての肖像画像は、モナリザを除いて、動画生成AIの「StyleGAN2」、 または「DALL-E-3」によって生成されたバーチャルなキャラクターとなる。同社のホームページには、「私たちはバーチャルな対話型キャラクターのための視覚的な感情スキル生成を探求しており、現実世界のいかなる人物にもなりすましていない」と記されている。
平均0.3秒で応答、人間らしく会話する「GPT-4o」
発表以来、各所で取り沙汰されているOpenAIの新AIモデル「GPT-4o」も、その進化を見せ付けた。OpenAIが「人間とコンピュータのより自然な対話への一歩だ」と表現したGPT-4oは、テキスト、音声、画像、動画のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成する。
▲OpenAIが発表したデモ動画に、多くの人々が驚きや興奮の反応を示した(OpenAIの公式ホームページより)
音声入力に対して最短約0.2秒、平均約0.3秒で応答でき、これは会話における人間の応答時間と変わらない速さだという。このポストはOpenAIが公式ホームページやSNSで発表したGPT-4oとの会話の動画だ。AIの笑い声や戸惑った様子、自然に繰り広げられる会話は驚くべきリアルさで、言われなければ多くの人がAIだと気づかないのではないか。
2つの異なる言語(イタリア語と英語)を高速で同時通訳する動画も公開された。
このデモ動画では、数学の宿題を解こうとしている子どもに対して、家庭教師のように答えに導くアシストをしている。会話が自然であることはもちろん、子どものやる気を引き出すような配慮も見られる。
GPT-4oは上記のほか、書籍のページを書き起こす、手書きのプロトタイピングをコードに起こすなど、さまざまな活用事例が報告されている。こちらのポストも参考になりそうだ。
各社の新サービス誕生により、生成AI活用の幅は大きく広がっている。このムーブメントはまだまだ続きそうだ。
編集後記
今回の各社の発表は、生成AIの技術に特段くわしいわけではない筆者でも「新たな時代の到来」を感じるほどのインパクトがあった。発表されたばかりで、どう使えばいいか模索中の段階ではあるが、続々と報告されている活用事例を見る限り、仕事や学習に大いに活かすことができそうだ。
(取材・文:小林香織)