[1] コーパスのタグセット各種の
g
要素は、
外字を表します。
[2]
コーパスの定める文字集合に含まれない文字は、
g
要素と〓
または近い文字で表します。
属性に文字の情報を記述します。
>>29 #page=2, #page=18, >>32 #page=7, #page=29
[3]
また、敬意欠字の空白は g
要素とします。
>>29 #page=3, #page=18, >>32 #page=8, #page=29
[4]
必須の type
属性で性質を記述します。
>>29 #page=18, >>32 #page=29
外字
>>29 #page=18, >>32 #page=29
は、コーパスの文字集合で表せないことを意味します。包摂
>>29 #page=18
は、
JIS X 0213 の包摂規準に従うと表せないものの、
拡張包摂規準 (コーパスの包摂規準) で JIS X 0213
の文字に縮退されたものを意味します。敬意欠字
>>29 #page=18, >>32 #page=29
は、
敬意欠字を表します。[8]
ref
属性で外字
を説明します。
U+4E00
のような U+
形式で Unicode符号位置を記述したり、
自然言語で説明したりできます。
>>29 #page=18, >>32 #page=29
[10]
関連: missingCharacter