w3c-memo

HTMLにおける空白の扱いについて

関連項目

Unicodeの仕様

HTMLにおける文字のカテゴリと文字参照

Unicode code pointからのリンクはUnicode utilities, character propertiesの該当文字のページ。

文字カテゴリ

Unicodeへの参照以外にも、いくつかのカテゴリが定義されており置換(読み替え)で利用される。

文字参照

空白関係で利用される文字参照のリスト、展開先のコードポイントとCSSプロパティーによる置換などをコメントで含めて。全リストはNamed character referencesにある。文字参照名に貼ってあるリンクはこのリストのページ内の該当業へのリンク。

置換

CSS仕様

以下、この文書記述時点での最新ドラフト準拠。

CSS Text (Level 3)

CSSの空白処理で影響する対象は、各仕様で明記がない限りdocument white space characters (css-text-3 4.1)となる U+0020, U+0009, U+000A の文字。UCD General_Category=ZsのU+0020, U+00A0以外の15文字はother space separatorsとされる。 またこのセクションの定義により、U+000Aや言語ごとにunicodeで定義された改行文字はsegment breakとなり、プロパティーの設定によっては表示に反映される。 U+0009, U+000A, segment breakの表現に当てはまらないControl characters, General_Category=Ccの文字は、フォント上で不可視の場合でも何らかの形で可視表示せねばならず、`Other Symbols’ (General_Category=So)として扱う。

推奨される(結果が同じであれば必須ではない)文字列処理の順序はAppendix Aにあり、以下の順になる。

white-space 空白の畳み込みを行うかの制御

ざっくりいうと、preエレメント的な扱いの拡張の設定と、畳み込み規則の詳細定義

これらの処理で保持された(畳み込まれなかった)空白はpreserved white spaceと呼ぶ。

空白文字処理 section 4.1

改行と単語区切り section 5

検討点

概要

定義されている属性

アライメント・単語揃え

両端揃えなどの設定と、揃えにした場合の空白挿入の扱いについて

空き量

単語間(word-spacing)、文字間(letter-spacing)の空き量の指定

行端処理

CSS Text Level 4 での追加

空白処理以外では

Word boundaries

分かち書きなどのために利用できる設定の導入で、wbrやU+200Bを挿入することで位置を定義する。

空白除去処理

空き量調整