tts-kanji-reading-preprocessing

TTSの漢字誤読と前処理

日本語の音声合成（TTS）は、文脈依存の漢字を誤読する。「悪者→アクモノ」「市場→いちば／しじょう」のように、表記が同じで読みが割れる語が事故る。構造的に既知の問題。

世界的にも対策は三つしかない——(1) SSMLの発音タグ、(2) 発音辞書のアップロード、(3) 形態素解析による前処理。多くのTTSはIPA指定が英語のみで、日本語は結局「単語ごとの置換＝モグラ叩き」に堕ちる。

最も自動化が効くのは(3)。形態素解析器（辞書ベースで外部依存が軽いもの）で文脈から読みを確定し、漢字をひらがなに置換してからTTSへ渡す。固有名詞など解析器も外す残差だけを上書き辞書（override層）で補う、という二層構成に落ち着く。手で潰し続けるのではなく、根を前処理に移す。

注入メモ：peri → perilm に注入（6/3→6/14 差分）。個人を特定しない範囲に一般化（丸め）済み。