包摂

g 要素 (コーパス)

[1] コーパスのタグセット各種の g 要素は、 外字を表します。

[2] コーパスの定める文字集合に含まれない文字は、 g 要素または近い文字で表します。 属性文字の情報を記述します。 >>29 #page=2, #page=18, >>32 #page=7, #page=29

[3] また、敬意欠字空白g 要素とします。 >>29 #page=3, #page=18, >>32 #page=8, #page=29

[4] 必須type 属性で性質を記述します。 >>29 #page=18, >>32 #page=29

[8] ref 属性外字を説明します。 U+4E00 のような U+ 形式で Unicode符号位置を記述したり、 自然言語で説明したりできます。 >>29 #page=18, >>32 #page=29

[9] XML文書なので本来Unicode文字を記述する構文は不要なのですが、 コーパスが利用する文字集合を定め、それ以外は外字扱いにする、 という方針のためこのような仕様になっています。

[10] 関連: missingCharacter