
[1] [[コーパスのタグセット]]各種の 
[DFN[[CODE[g]]]] [[要素]]は、
[[外字]]を表します。

[2] 
[[コーパス]]の定める[[文字集合]]に含まれない[[文字]]は、
[CODE[g]]
[[要素]]と[CODE[〓]]または近い[[文字]]で表します。
[[属性]]に[[文字]]の情報を記述します。
[SRC[>>29 #page=2, #page=18, >>32 #page=7, #page=29]]

[3] 
また、[[敬意欠字]]の[[空白]]は [CODE[g]] [[要素]]とします。
[SRC[>>29 #page=3, #page=18, >>32 #page=8, #page=29]]

[4] 
[[必須]]の [DFN[[CODE[type]]]] [[属性]]で性質を記述します。
[SRC[>>29 #page=18, >>32 #page=29]]

- [5] [DFN[[CODE[外字]]]]
[SRC[>>29 #page=18, >>32 #page=29]]
は、[[コーパス]]の[[文字集合]]で表せないことを意味します。
- [6] [DFN[[CODE[包摂]]]]
[SRC[>>29 #page=18]]
は、
[[JIS X 0213]] の[[包摂規準]]に従うと表せないものの、
拡張包摂規準 ([[コーパス]]の[[包摂規準]]) で [[JIS X 0213]]
の[[文字]]に[[縮退]]されたものを意味します。
- [7] [DFN[[CODE[敬意欠字]]]]
[SRC[>>29 #page=18, >>32 #page=29]]
は、
[[敬意欠字]]を表します。

[8] 
[DFN[[CODE[ref]]]] [[属性]]で[CODE[外字]]を説明します。
[CODE[U+4E00]] のような [CODE[U+]] 形式で [[Unicode符号位置]]を記述したり、
[[自然言語]]で説明したりできます。
[SRC[>>29 #page=18, >>32 #page=29]]

;; [9] [[XML文書]]なので本来[[Unicode文字]]を記述する構文は不要なのですが、
[[コーパス]]が利用する[[文字]]の[[集合]]を定め、それ以外は[[外字]]扱いにする、
という方針のためこのような仕様になっています。

[REFS[

- [29] [CITE[[L[『明六雑誌コーパス』の仕様]]]],
[[近藤明日子]],
[[田中牧郎]],
[TIME[2023-11-26T08:07:49.000Z]] <https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf>
- [31] [CITE@ja[国立国語研究所学術情報リポジトリ]], [TIME[2023-11-26T08:12:17.000Z]] <https://repository.ninjal.ac.jp/records/3302>
-- [32] 
[CITE[[L[『国民之友コーパス』解説書[BR[]]第1.1 版]]]],
[[[L[近藤明日子]]]],
[[[L[2014]]]],
[CODE[kokumin_manual_v1_1.pdf]]

]REFS]


[10] 
関連: [CODE[missingCharacter]]
