予測入力まとめ | presosaiso

2008/01/14

予測入力まとめ

今までの予測入力には大きく分けて二つのタイプがある。

辞書にあるものを先頭一致で補完するタイプ(省略補完)
ドキュメント中の単語と共起して単語を補完するタイプ(動的補完)

このうちの1においてさらに

静的な辞書を用いるもの(国語辞書など)
動的な辞書を用いるもの(ユーザー辞書など)

の二つに大別できるだろう。
以下に、各システムの予測入力の特徴を列挙してみる。

MS-IME

優先度あり
字面のみを用いる(意味を考えない)
共通部分を抜き出す
メモリorファイルに書き出す
予測候補はユーザーの変換履歴からのみ
先頭一致

ATOK

優先度あり
形態素で区切って、それぞれを予測に反映
最小の形態素と次の形態素を加えたものを表示する（次の形態素を加えたものの方が優先度が高い）
合わせたら一つの意味となりそうなものが前に来ていたら、くっつけて登録
よく使うもの(?)は自動的にユーザー辞書に収録
メモリorファイルに書き出す
予測候補は各種辞書(カスタマイズ可能)、ユーザーの変換履歴
先頭一致

Nanashiki

優先度あり(一番最後に発見した単語)
予測候補はコンテキスト文書(辞書化しない)
migemoで動的サーチ後に周辺を茶筅で切って、単語の先頭ならば候補にする

Kukura

優先度あり(最近閲覧した文書)
予測候補は閲覧した文書
あらかじめ茶筅で単語を切っておく
候補は名詞、未知語及びそれらの複合語
複合語はすべての候補の組み合わせを有効にしていない

PRIME

要調査

MS-IMEとATOKの違い

MS-IMEでは、意味を全く考えないため、"新潟大学"、"新潟大地震"を確定するとその共通部分である"新潟大"が一番優先度が高くなるが、ATOKでは同様の確定をしても"新潟大学"、"新潟大地震"しかでない
ATOKでは"新潟"で確定後に"大"を確定すると"新潟大"が登録される
ATOKでは"複合名"で確定後に"名"を消して"名詞"を確定しても"複合名名詞"が登録されることはない

携帯電話の予測入力システム

POBox(Prediction Operation Based On eXample)
APOT(Advanced Prediction Optimization Technology)

POBoxとAPOTの違い

APOTはPOBoxよりも付属語が長めに区切られる(例: "～して" → POBox: "～","し","て" APOT: "～","して")
APOTは直前に使われた候補が先頭
POBoxは頻度の高い候補が先頭

従来の予測入力での不便な所

数字や英数カナ変換で入力した文字は学習されない
コピーアンドペーストは学習されない

携帯電話とパソコンの違い

入力するキーの数(=入力にかかる時間)

私が使う、『予測入力』

特殊な複合名詞(簡単な文であれば、いちいち予測入力候補を探さずに、一気にタイピングして変換をするのが早い)
繰り返し入力

予測用複合名詞の用意

ユーザーの確定履歴から
いま編集中の文章のコンテキストとなる文章から
ユーザーが選べるように辞書を用意しておく

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)