予測入力まとめ | presosaiso

2008/01/14

予測入力まとめ

今までの予測入力には大きく分けて二つのタイプがある。

  1. 辞書にあるものを先頭一致で補完するタイプ(省略補完)
  2. ドキュメント中の単語と共起して単語を補完するタイプ(動的補完)

このうちの1においてさらに
  1. 静的な辞書を用いるもの(国語辞書など)
  2. 動的な辞書を用いるもの(ユーザー辞書など)

の二つに大別できるだろう。
以下に、各システムの予測入力の特徴を列挙してみる。

MS-IME
  • 優先度あり
  • 字面のみを用いる(意味を考えない)
  • 共通部分を抜き出す
  • メモリorファイルに書き出す
  • 予測候補はユーザーの変換履歴からのみ
  • 先頭一致

ATOK
  • 優先度あり
  • 形態素で区切って、それぞれを予測に反映
  • 最小の形態素と次の形態素を加えたものを表示する(次の形態素を加えたものの方が優先度が高い)
  • 合わせたら一つの意味となりそうなものが前に来ていたら、くっつけて登録
  • よく使うもの(?)は自動的にユーザー辞書に収録
  • メモリorファイルに書き出す
  • 予測候補は各種辞書(カスタマイズ可能)、ユーザーの変換履歴
  • 先頭一致

Nanashiki
  • 優先度あり(一番最後に発見した単語)
  • 予測候補はコンテキスト文書(辞書化しない)
  • migemoで動的サーチ後に周辺を茶筅で切って、単語の先頭ならば候補にする

Kukura
  • 優先度あり(最近閲覧した文書)
  • 予測候補は閲覧した文書
  • あらかじめ茶筅で単語を切っておく
  • 候補は名詞、未知語及びそれらの複合語
  • 複合語はすべての候補の組み合わせを有効にしていない

PRIME
  • 要調査

MS-IMEとATOKの違い
  • MS-IMEでは、意味を全く考えないため、"新潟大学"、"新潟大地震"を確定するとその共通部分である"新潟大"が一番優先度が高くなるが、ATOKでは同様の確定をしても"新潟大学"、"新潟大地震"しかでない
  • ATOKでは"新潟"で確定後に"大"を確定すると"新潟大"が登録される
  • ATOKでは"複合名"で確定後に"名"を消して"名詞"を確定しても"複合名名詞"が登録されることはない


携帯電話の予測入力システム
  1. POBox(Prediction Operation Based On eXample)
  2. APOT(Advanced Prediction Optimization Technology)

POBoxとAPOTの違い
  • APOTはPOBoxよりも付属語が長めに区切られる(例: "~して" → POBox: "~","し","て" APOT: "~","して")
  • APOTは直前に使われた候補が先頭
  • POBoxは頻度の高い候補が先頭

従来の予測入力での不便な所
  • 数字や英数カナ変換で入力した文字は学習されない
  • コピーアンドペーストは学習されない

携帯電話とパソコンの違い
  • 入力するキーの数(=入力にかかる時間)

私が使う、『予測入力』
  • 特殊な複合名詞(簡単な文であれば、いちいち予測入力候補を探さずに、一気にタイピングして変換をするのが早い)
  • 繰り返し入力

予測用複合名詞の用意
  • ユーザーの確定履歴から
  • いま編集中の文章のコンテキストとなる文章から
  • ユーザーが選べるように辞書を用意しておく

0 件のコメント: