jlreq-unicode-notes

JLReq文字クラス

v2文字クラスリスト

削除のものは~~文字クラス~~表記に
Unicode属性での置き換え検討の場合はサマリーを（詳細は下）

リスト＋検討状況

cl-01 Opening brackets / 始め括弧類
- Unicodeでの置換: General Category = Ps/Pi, EAW = F/A/W, Decomposition Type != Vertical/Small
cl-02 Closing brackets / 終わり括弧類
- Unicodeでの置換: General Category = Pe/Pf, FAW = F/A/W, Decomposition Type =! Vertical/Small
cl-03 Hyphens / ハイフン類
cl-04 Dividing punctuation marks / 区切り約物
cl-05 Middle dots / 中点類
cl-06 Full stops / 句点類
cl-07 Commas / 読点類
cl-08 Inseparable characters / 分離禁止文字
cl-09 Iteration marks / 繰返し記号
cl-10 Prolonged sound mark / 長音記号
cl-11 Small kana / 小書きの仮名
~~cl-12 Prefixed abbreviations / 前置省略記号~~
~~cl-13 Postfixed abbreviations / 後置省略記号~~
cl-14 Full-width ideographic space / 和字間隔
- U+3000だけなので文字指定？
cl-15 Hiragana / 平仮名
- Script = Hiragana, Identifier Type != Obsolete 93文字、小書きが混じる
cl-16 Katakana / 片仮名
- Script = Katakana, Decomposition Type != Circle/Square, EAW = F/A/W, Identifier Type != Obsolete 113文字、小書きが混じる
cl-17 Math symbols / 等号類
- 文字を縦書きでの扱いに特化して整理する
cl-18 Math operators / 演算記号
- 文字を縦書きでの扱いに特化して整理する
cl-19 Ideographic characters / 漢字等（漢字以外の例）
~~cl-20 Characters as reference marks / 合印中の文字~~
~~cl-21 Ornamented character complexes / 親文字群中の文字（添え字付き）~~
~~cl-22 Simple-ruby character complexes / 親文字群中の文字（熟語ルビ以外のルビ付き）~~
~~cl-23 Jukugo-ruby character complexes / 親文字群中の文字（熟語ルビ付き）~~
~~cl-24 Grouped numerals / 連数字中の文字~~
~~cl-25 Unit symbols / 単位記号中の文字~~
cl-26 Western word space / 欧文間隔
- 現状はU+0020の半角空白のみ
cl-27 Western characters / 欧文用文字
~~cl-28 Warichu opening brackets / 割注始め括弧類~~
~~cl-29 Warichu closing brackets / 割注終わり括弧類~~
~~cl-30 Characters in tate-chu-yoko / 縦中横中の文字~~

クラス自体の改廃

2020/10/20議論
- 削除: cl-24 連数字中の文字
  - JLReq中での参照箇所10カ所
  - 記述ごと削除なので含まれる文字・別表での扱いは検証しない
- 削除: cl-30 縦中横
  - JLReq中での参照カ所0カ所
  - 縦中横ブロックの塊で漢字1文字として扱う記述にして文字クラスは削除
- 削除: cl-21 親文字群中の文字（添え字付き）
  - JLReq中での参照カ所4カ所
  - JLReqでは扱わない方向ということで検証しない
- 削除: cl-25 単位記号中の文字
  - JLReq中での参照カ所5カ所
  - JLReqでは扱わない方向ということで検証しない
- 削除: 文脈依存クラス
  - 参照カ所は要確認、機能を絞った扱いの表が必要かも、ただし文字クラスとしては不要
  - cl-20 合印中の文字
    - JLReq中での参照箇所4カ所
  - cl-22 親文字群中の文字（熟語ルビ以外のルビ付き）
    - JLReq中での参照箇所0カ所
  - cl-23 親文字群中の文字（熟語ルビ付き）
    - JLReq中での参照箇所0カ所
  - cl-28 割注始め括弧類
    - JLReq中での参照箇所3カ所
  - cl-29 割注終わり括弧類
    - JLReq中での参照箇所3カ所
2020/12/01議論
- 1) JIS-Unicode対応への疑問符
- 2) cl-03のハイフン類の波線と長音としての利用の分離？
- 3) 抜くことにした文字: U+00AB (cl-01 -> 27), U+00BB (cl-02 -> 27)
- 4) cl-12,13を削除
  - 全角のものは漢字と同じ扱い、欧文幅のものは cl-27 （日本語以外の放り込み場所）に分配することになりました
    - この区別は UAX 50 の Vertical Orientation が R のものは欧文、U/Tu は和文ということで明確
  - cl-12 前置省略記号、cl-13 後置省略記号、ともJLReq内での参照カ所2カ所（べた組と分割禁止）
- 6) U+4EDDの挙動は漢字と同じ
2020/12/16議論
- cl-15/16に変体かな・合字を追加、enclosed circleはcl-19のまま - cl-19とはルビがかかるかどうかの違い
  - cl-15/16とcl-19がJLReqで同時に出現していない箇所は、3.3.8のルビのはみ出し、部分のみ
- cl-17/18は日本語縦組みで正立で利用される記号のみにして整理

Unicode属性での表現

JLReq v2の表でUnicodeでEAW=Naのものは対応するU+FFXXの文字で置き換える
- NKFC_Casefoldなどで対応をみる (例)
基本的にEAW=F/A/W + Decomposition Type != Vertial/Smallでフィルタリングしたものから
cl-01 始め括弧類
- 提案: General Category = Ps/Pi, EAW = F/A/W, Decomposition Type != Vertical/Small
  - 追加される文字はU+2329, U+301A
  - U+2329はDeprecatedにマークされている
  - JLReq表とUnicodeの対応 (TSV)、Unicode Ps/Piの全リスト (TSV)
- 表にあるU+00ABは削除
cl-02 終わり括弧類
- 提案: General Category = Pe/Pf, FAW = F/A/W, Decomposition Type =! Vertical/Small
  - 追加される文字はU+232A, U+301B, U+301E
  - JLReq表とUnicodeの対応 (TSV)、Unicode Pe/Pfの全リスト (TSV)
  - 表にあるU+00BBに対応するEAW=F/A/Wの文字が見当たらない
- 表にあるU+00BBは削除
cl-03 ハイフン類
- General Category = Pd, FAW = F/A/W, Decomposition Type =! Vertical/Smallとの比較
  - U+2014, U+2015, U+3030, U+FF0Dが追加になる
  - JLReq表とUnicodeの対応 (TSV)、Unicode Pdの全リスト (TSV)
cl-04からcl-10の文字とUnicodeの対応 (TSV)
- cl-08 U+2014 (Pd)以外はGeneral Category = Po/Lm
- General Category = Po, FAW = F/A/W, Decomposition Type =! Vertical/Small: Unicodeの該当文字リストと対応文字クラス (TSV)
- General Category = Lm, FAW = F/A/W, Decomposition Type =! Vertical/Small: Unicodeの該当文字リストと対応文字クラス (TSV)
cl-15, cl-16については、Scriptだけで切ってくると小書きが入る。が、分離可能な属性がない
- Script = Hiragana: 小書き、変体かなを含む379文字
  - ひらがな U+3041-3096 (U+3041 小書きのぁなどを含む)
  - 繰り返し U+309D,309E
  - U+309F (より), U+1F200 (ほか)
  - 歴史的かな U+1B001,U+1B150-1B152
  - 変体かな U+1B002-U+1B11E
- Script = Katakana: 小書き、丸付きなどを含む304文字
  - カタカナ U+30A1-30FA (U+30A1 小書きのァなどを含む)
  - 繰り返し U+30FD,30FE
  - U+30FF (こと)
  - アイヌ発音用小書きのカタカナ U+31F0-31FF
  - 丸付きカタカナ U+32D0-32FE
    - Decomposition Type = Circleで抜ける
  - 2-4文字組んだ文字 U+3300-3357
    - Decomposition Type = Squareで抜ける
  - 半角カタカナ U+FF66-FF9D (EAW=Narrow)
  - 歴史的カタカナ U+1B000、小書き U+1B164-1B167
    - U+1B000のみIdentifier Type = Obsolete
- 歴史的を抜いてで、小書きを含めてしまっていいなら以下で対応つく
  - cl-15 Script = Hiragana, Identifier Type != Obsolete 93文字
  - cl-16 Script = Katakana, Decomposition Type != Circle/Square, EAW = F/A/W, Identifier Type != Obsolete 113文字
cl-11 小書きのかな
- JLReq利用箇所は6カ所、2.1.2の小書きの定義、3.1.1.cの縦横で異なる字面、3.1.7行頭禁足(2)、3.3.8ルビ(2)
- 条件付き行頭禁足はLine Break = Consitional Japanese Starterで実現
cl-19 漢字等
- Script = Han (すべてEAW+W)
  - CJK Radical, Kangxi Radicals
  - U+3005 々, U+3007 〇, U+303B
  - 蘇州号碼
  - CJK Unified Ideographs + Extension A + Extension A,B,C,D,E,F
  - CJK Compatibility Ideographs + Suppliment

議論リストでのピックアップ参照リスト

ミーティング議事録系
文字クラス関係のサマリー
- 利用箇所一覧の説明