Mozcを郵便番号対応にする

MozcとGoogle日本語入力の違いを調べてみると、辞書が違うということと(Mozcはgoogleのロボットが集めてきた辞書ではなく、IPAの辞書を使っている)、郵便番号から住所の変換がサポートされていないということがわかった。

とこらが、ソースのsrc/data/dictionary_ossにあるREADME.txtを読むと、郵便局のホームページからダウンロードしたデータを加工してソースに取り組むためのPythonスクリプトが準備されていた。

早速やってみました。mozc_base.exeというファイルが少し大きくなりましたが、地名のほか、事業者が登録することができる追加の郵便番号の情報も取り込むことができました。

前回同様にバイナリをこちらにおいておきました。

このREADME.txtを読むとWebからの大規模単語辞書は公開されませんでしたがMozc自体の性能を上げるために固有表現や「社員証」といった複合語などはIPA辞書から追加して強化してくれているようです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

two × 4 =