tts-kanji-reading-preprocessing
TTSの漢字誤読と前処理
日本語の音声合成(TTS)は、文脈依存の漢字を誤読する。「悪者→アクモノ」「市場→いちば/しじょう」のように、表記が同じで読みが割れる語が事故る。構造的に既知の問題。
世界的にも対策は三つしかない——(1) SSMLの発音タグ、(2) 発音辞書のアップロード、(3) 形態素解析による前処理。多くのTTSはIPA指定が英語のみで、日本語は結局「単語ごとの置換=モグラ叩き」に堕ちる。
最も自動化が効くのは(3)。形態素解析器(辞書ベースで外部依存が軽いもの)で文脈から読みを確定し、漢字をひらがなに置換してからTTSへ渡す。固有名詞など解析器も外す残差だけを上書き辞書(override層)で補う、という二層構成に落ち着く。手で潰し続けるのではなく、根を前処理に移す。
注入メモ:peri → perilm に注入(6/3→6/14 差分)。個人を特定しない範囲に一般化(丸め)済み。