中国インターネットサービス大手のテンセント(
00700)は28日、大規模言語モデル「騰訊混元(Tencent Hunyuan)」のオンラインイベント「オープンソースデー」を開き、感情を込めた対話が可能な複数のキャラクター(アバター)を同時に生成する動画生成モデル「HunyuanVideo-Avatar」を公表した。同モデルはユーザーがアップロードした人物画像と音声を解析し、人物が置かれた環境や音声に込められた感情などを理解した上で、キャラクターが話したり歌ったりする映像を生成できる。
「HunyuanVideo-Avatar」は、騰訊混元の動画生成大規模モデルと、テンセント・ミュージック(
01698)の「天琴実験室」が開発したMuseV技術を統合して開発され、オープンソースで提供する。騰訊混元のプロジェクトチームは26日に発表した技術文書で、「HunyuanVideo-Avatar」を「複数キャラクターのための高精細音声駆動人物アニメーション」と位置付け、「キャラクター画像注入モジュールや音声感情モジュール、顔認識対応音声アダプターの技術革新により、従来の先端手法を超える性能を達成した」と述べた。