プロジェクト概要

プロジェクト概要

音声や音響信号処理は、画像処理やコンテンツ処理とも密接に関連する重要なテーマです。特に、キャラクタ合成において必要となるプレスコ音声に同期したリップシンク自動生成は、長く研究が行われてきました。さらに最近では、任意の楽器で簡単なメロディーを演 奏すると、それを含む音楽コンテンツをビッグデータから検索し、提示してくれる研究なども行っています。

音声信号処理に関しては、リップシンクと声質変換の研究が2本の柱です。まず、入力された音声信号に対して、同期した口の動きを生成するリップに シンクの研究は、1987年以来の長い歴史があります。音声言語の事前知識を駆使して、時間系列的な要素を考慮してHMM(隠れマルコフモデル) で口形状を推定する”AniFace”は1つの集大成としての位置づけです。またデータベースを必要とせず、音声認識のプロセスも経ずに、音声 信号から直接口形状を推定する課題は、長い間解決されていないテーマとなっています。発話速度に応じて口の開き具合を調整することで、不連続性を 解決する研究や、時間的な変化を簡易な曲線近似を行う方法など、様々提案をしてきました。

声質変化の研究では、Straightをベースにして、別の人物の個性をある人の声をベース忠実に再現するテーマに挑戦してきました。現時点 で、音声データベースに基づいて、他人の声の線形ブレンドによって、その人らしい声質を実現することに成功しています。また、どれだけ本人の声質に近いかどうかの、声質類似性評価尺度 を独自に提案しました。

音響信号処理に関しては、マイクアレイ(HARK)を利用し、音源分離の研究を行っています。最終的には、カメラと連動させ、大勢の人物の中でカ メラで写したターゲット人物の声を分離してクリアに再生するシステムの実現をめざします。また、音楽情報処理では、ある楽器で演奏したセンテ ンスから、このセンテンスを含む楽曲をビッグデータ中から検索する手法をNMF(Non-negative Matrix Factorization)によって解決する手法を提案いています。異なる楽器による入力を許容したり、演奏スピードやコードに依存しないロバストな検 索手法の確立をめざしています。

プロジェクト写真

プロジェクト写真

6-3.音声類似度評価 音源分離・再現_Akahori_250

関連するテーマ

関連するテーマ

フレーズによる楽曲検索

フレーズによる楽曲検索

声質変換

声質変換

音声類似度評価

音声類似度評価

音源分離・再現

音源分離・再現