Skip to content

feat: 漢字の閉じ開き傾向の POS カテゴリ単位学習 #171

@send

Description

@send

背景

漢字の閉じ開き(漢字で書くか、ひらがなで書くか)はユーザーごとに癖がある。現在の UserHistory は (reading, surface) ペアごとの unigram boost で対応しているが、一語ずつの学習なので汎化しない。

例:

  • ください を学習しても いただく には波及しない
  • 「この人は補助動詞をひらがなで書く傾向がある」というパターンを捉えられない

アイデア

POS カテゴリ単位で閉じ開きの傾向を学習し、同カテゴリの未学習語にもブーストを波及させる。

対象カテゴリ例

カテゴリ 漢字 ひらがな
形式名詞 事・物・所 こと・もの・ところ
補助動詞 下さい・頂く・戴く ください・いただく
接続詞 又・及び・然し また・および・しかし
副詞 更に・殆ど・沢山 さらに・ほとんど・たくさん

動作イメージ

  1. ユーザーが ください を選択
  2. 補助動詞カテゴリの「ひらがな傾向スコア」が上昇
  3. 次回 いただく の変換時、同カテゴリのスコアで少しブーストがかかる

現状の POS 体系における非自立語の判別

Mozc 辞書は自立/非自立を区別しており、閉じ開き学習の土台がある。

補助動詞: 動詞,非自立 vs 動詞,自立

用法 POS ID 例
「水を下さい」(本動詞) 動詞,自立 790
「食べてください」(補助動詞) 動詞,非自立 1716

いただく も同様に自立/非自立で別エントリがあり、接続コストで前の「て」に繋がるときは非自立が選ばれる。

形式名詞: 名詞,非自立 vs 名詞,一般

用法 POS
「大きな事故」(実質名詞) 名詞,一般
「食べること」(形式名詞) 名詞,非自立 ID 2065

名詞,非自立 には こと・もの・ところ・とき・ため・はず・つもり・わけ・うち 等の形式名詞が含まれる。事故物語 等の実質名詞は 名詞,一般 なので POS ID が異なり、誤波及しない。

現状の課題

  • 非自立語は content word 扱い: 動詞,非自立名詞,非自立 も、pos_map.rs で content word のまま。function word 扱いは 助詞助動詞 のみ
  • 閉じ開きへの活用がない: 自立/非自立の区別は接続コストに反映されるが、漢字/ひらがなの選好には使われていない
  • 土台はある: 非自立 → ひらがな優先というルールを入れる基盤は POS 体系に既にある

検討事項

  • POS カテゴリの粒度: Mozc の POS 体系のどのレベルで分けるか。細かすぎると汎化しない、粗すぎると誤波及する
  • 誤波及の防止: 事故下手 のように固有の意味を持つ漢字語が引きずられないようにする必要がある。閉じ開きの対象は表記揺れがある語に限定すべき
  • 既存学習との関係: 個別語の unigram boost との併用バランス。カテゴリブーストは弱めにして、個別学習を優先すべきか
  • 対象語のリスト管理: どの語が閉じ開きの対象かを定義するリストが必要。辞書側にフラグを持たせるか、別テーブルにするか
  • 非自立語の扱い: 動詞,非自立 / 名詞,非自立 をひらがな優先のデフォルトにするか、学習ベースに留めるか

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions