今までの予測入力には大きく分けて二つのタイプがある。
- 辞書にあるものを先頭一致で補完するタイプ(省略補完)
- ドキュメント中の単語と共起して単語を補完するタイプ(動的補完)
このうちの1においてさらに
- 静的な辞書を用いるもの(国語辞書など)
- 動的な辞書を用いるもの(ユーザー辞書など)
の二つに大別できるだろう。
以下に、各システムの予測入力の特徴を列挙してみる。
MS-IME
- 優先度あり
- 字面のみを用いる(意味を考えない)
- 共通部分を抜き出す
- メモリorファイルに書き出す
- 予測候補はユーザーの変換履歴からのみ
- 先頭一致
ATOK
- 優先度あり
- 形態素で区切って、それぞれを予測に反映
- 最小の形態素と次の形態素を加えたものを表示する(次の形態素を加えたものの方が優先度が高い)
- 合わせたら一つの意味となりそうなものが前に来ていたら、くっつけて登録
- よく使うもの(?)は自動的にユーザー辞書に収録
- メモリorファイルに書き出す
- 予測候補は各種辞書(カスタマイズ可能)、ユーザーの変換履歴
- 先頭一致
Nanashiki
- 優先度あり(一番最後に発見した単語)
- 予測候補はコンテキスト文書(辞書化しない)
- migemoで動的サーチ後に周辺を茶筅で切って、単語の先頭ならば候補にする
Kukura
- 優先度あり(最近閲覧した文書)
- 予測候補は閲覧した文書
- あらかじめ茶筅で単語を切っておく
- 候補は名詞、未知語及びそれらの複合語
- 複合語はすべての候補の組み合わせを有効にしていない
PRIME
- 要調査
MS-IMEとATOKの違い
- MS-IMEでは、意味を全く考えないため、"新潟大学"、"新潟大地震"を確定するとその共通部分である"新潟大"が一番優先度が高くなるが、ATOKでは同様の確定をしても"新潟大学"、"新潟大地震"しかでない
- ATOKでは"新潟"で確定後に"大"を確定すると"新潟大"が登録される
- ATOKでは"複合名"で確定後に"名"を消して"名詞"を確定しても"複合名名詞"が登録されることはない
携帯電話の予測入力システム
- POBox(Prediction Operation Based On eXample)
- APOT(Advanced Prediction Optimization Technology)
POBoxとAPOTの違い
- APOTはPOBoxよりも付属語が長めに区切られる(例: "~して" → POBox: "~","し","て" APOT: "~","して")
- APOTは直前に使われた候補が先頭
- POBoxは頻度の高い候補が先頭
従来の予測入力での不便な所
- 数字や英数カナ変換で入力した文字は学習されない
- コピーアンドペーストは学習されない
携帯電話とパソコンの違い
- 入力するキーの数(=入力にかかる時間)
私が使う、『予測入力』
- 特殊な複合名詞(簡単な文であれば、いちいち予測入力候補を探さずに、一気にタイピングして変換をするのが早い)
- 繰り返し入力
予測用複合名詞の用意
- ユーザーの確定履歴から
- いま編集中の文章のコンテキストとなる文章から
- ユーザーが選べるように辞書を用意しておく
0 件のコメント:
コメントを投稿