音声のガイドライン

SGXは、ユーザーがインプットする音声ファイルからアニメーションを生成するため、音声ファイルの品質がアニメーションの品質に影響します。このページでは、音声ファイルを作成する際のガイドラインをまとめました。
SGXで対応しているファイル形式、サンプリングレート、ビット深度は以下のとおりです。
対応しているファイル形式
wav
mp3
ogg
aiff
au
対応しているサンプルタイプ
モノラル音声のみ。ステレオは非対応のため、処理できません。
ビット深度:16ビット以上
サンプリングレート:16kHz以上
音声ファイル作成のベストプラクティス
SGXにインプットする音声の品質が高ければ、生成されるアニメーションアウトプットの品質も高くなります。SGXで使用する音声を制作する際のベストプラクティスを、以下に記載します。
バックグラウンドノイズを最小限に抑える:周囲の音やBGMがわずかでも入っているとアニメーションの品質に影響する可能性があるため、ノイズが入らないようにしましょう。
処理されていない未加工の音声を使用する:リバーブなどの効果は、アニメーションの品質に影響を及ぼすおそれがあります。
圧縮されていない音声を使用する:圧縮すると、SGXで使用する情報の量が減り、アニメーションの品質が下がる場合があります。
音が反響する空間では録音しない:反響音が収録されると、リバーブ同様、生成されるアニメーションの品質が低下するおそれがあります。
話者は1人のみ:SGXでは、各音声ファイルにつきアニメーション化されるのは1人だけです。
パディング:音声ファイルの最初と最後に余白がないと、音声が急に始まったり終了したりすることになり、顔の動きが前後の演技と自然につながらなくなります。そのため、音声ファイルの最初と最後には無音部分を少し設けるようにしてください(=パディング)。SGXのプリロールとポストロールオプションを使用することもできます。