プロジェクト概要
プロジェクト概要
音声信号処理に関しては、リップシンクと声質変換の研究が2本の柱です。まず、入力された音声信号に対して、同期した口の動きを生成するリップに シンクの研究は、1987年以来の長い歴史があります。音声言語の事前知識を駆使して、時間系列的な要素を考慮してHMM(隠れマルコフモデル) で口形状を推定する”AniFace”は1つの集大成としての位置づけです。またデータベースを必要とせず、音声認識のプロセスも経ずに、音声 信号から直接口形状を推定する課題は、長い間解決されていないテーマとなっています。発話速度に応じて口の開き具合を調整することで、不連続性を 解決する研究や、時間的な変化を簡易な曲線近似を行う方法など、様々提案をしてきました。
声質変化の研究では、Straightをベースにして、別の人物の個性をある人の声をベース忠実に再現するテーマに挑戦してきました。現時点 で、音声データベースに基づいて、他人の声の線形ブレンドによって、その人らしい声質を実現することに成功しています。また、どれだけ本人の声質に近いかどうかの、声質類似性評価尺度 を独自に提案しました。
音響信号処理に関しては、マイクアレイ(HARK)を利用し、音源分離の研究を行っています。最終的には、カメラと連動させ、大勢の人物の中でカ メラで写したターゲット人物の声を分離してクリアに再生するシステムの実現をめざします。また、音楽情報処理では、ある楽器で演奏したセンテ ンスから、このセンテンスを含む楽曲をビッグデータ中から検索する手法をNMF(Non-negative Matrix Factorization)によって解決する手法を提案いています。異なる楽器による入力を許容したり、演奏スピードやコードに依存しないロバストな検 索手法の確立をめざしています。
プロジェクト写真
プロジェクト写真
関連するテーマ
関連するテーマ