ai-audio-dubbing-pipeline
AI音声ダビングのパイプライン
英語などの音声を、日本語で「聞いて分かる」状態にする一連の工程。発見→ダウンロード→文字起こし→翻訳→音声合成→ミックス、の順に流れる。
要所は四つ。(1) 文字起こしは言語を固定しないと冒頭を別言語に誤検出することがある。(2) 翻訳は文脈を保つためチャンク単位で行い、訳し漏れを増分保存で埋める。(3) 合成音声は速度を原音に合わせ、長尺は分割する。(4) 対話を無理に話者分離せず一人語り(モノローグ)に畳むと、かえって聞きやすくなる場合がある。
個々の精度より、各段を独立にキャッシュして「落ちたら途中から再開」できる設計のほうが効く。一発で完璧を狙わず、止まれる・再開できる形にする。→ 自動化事例集・TTSの漢字誤読と前処理
注入メモ:peri → perilm に注入(6/3→6/14 差分)。個人を特定しない範囲に一般化(丸め)済み。