-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
背景
漢字の閉じ開き(漢字で書くか、ひらがなで書くか)はユーザーごとに癖がある。現在の UserHistory は (reading, surface) ペアごとの unigram boost で対応しているが、一語ずつの学習なので汎化しない。
例:
くださいを学習してもいただくには波及しない- 「この人は補助動詞をひらがなで書く傾向がある」というパターンを捉えられない
アイデア
POS カテゴリ単位で閉じ開きの傾向を学習し、同カテゴリの未学習語にもブーストを波及させる。
対象カテゴリ例
| カテゴリ | 漢字 | ひらがな |
|---|---|---|
| 形式名詞 | 事・物・所 | こと・もの・ところ |
| 補助動詞 | 下さい・頂く・戴く | ください・いただく |
| 接続詞 | 又・及び・然し | また・および・しかし |
| 副詞 | 更に・殆ど・沢山 | さらに・ほとんど・たくさん |
動作イメージ
- ユーザーが
くださいを選択 - 補助動詞カテゴリの「ひらがな傾向スコア」が上昇
- 次回
いただくの変換時、同カテゴリのスコアで少しブーストがかかる
現状の POS 体系における非自立語の判別
Mozc 辞書は自立/非自立を区別しており、閉じ開き学習の土台がある。
補助動詞: 動詞,非自立 vs 動詞,自立
| 用法 | POS | ID 例 |
|---|---|---|
| 「水を下さい」(本動詞) | 動詞,自立 | 790 |
| 「食べてください」(補助動詞) | 動詞,非自立 | 1716 |
いただく も同様に自立/非自立で別エントリがあり、接続コストで前の「て」に繋がるときは非自立が選ばれる。
形式名詞: 名詞,非自立 vs 名詞,一般
| 用法 | POS | 例 |
|---|---|---|
| 「大きな事故」(実質名詞) | 名詞,一般 | — |
| 「食べること」(形式名詞) | 名詞,非自立 | ID 2065 |
名詞,非自立 には こと・もの・ところ・とき・ため・はず・つもり・わけ・うち 等の形式名詞が含まれる。事故・物語 等の実質名詞は 名詞,一般 なので POS ID が異なり、誤波及しない。
現状の課題
- 非自立語は content word 扱い:
動詞,非自立も名詞,非自立も、pos_map.rs で content word のまま。function word 扱いは助詞・助動詞のみ - 閉じ開きへの活用がない: 自立/非自立の区別は接続コストに反映されるが、漢字/ひらがなの選好には使われていない
- 土台はある: 非自立 → ひらがな優先というルールを入れる基盤は POS 体系に既にある
検討事項
- POS カテゴリの粒度: Mozc の POS 体系のどのレベルで分けるか。細かすぎると汎化しない、粗すぎると誤波及する
- 誤波及の防止:
事故や下手のように固有の意味を持つ漢字語が引きずられないようにする必要がある。閉じ開きの対象は表記揺れがある語に限定すべき - 既存学習との関係: 個別語の unigram boost との併用バランス。カテゴリブーストは弱めにして、個別学習を優先すべきか
- 対象語のリスト管理: どの語が閉じ開きの対象かを定義するリストが必要。辞書側にフラグを持たせるか、別テーブルにするか
- 非自立語の扱い:
動詞,非自立/名詞,非自立をひらがな優先のデフォルトにするか、学習ベースに留めるか
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels