* [CODE[corr]] 要素

[1] [[コーパスのタグセット]]各種の 
[DFN[[CODE[corr]]]] [[要素]]は、
修正、[[校訂]]を表します。

[2] 
[[誤植]]と思われる箇所は修正して [CODE[corr]] [[要素]]とします。
[[属性]]に原文の文字を示します。
[SRC[>>29 #page=3, >>32 #page=8]]

[3] 
[[漢文体]]・[[候文体]]は、
[[返読]]、[[補読]]、[[仮名開き]]をして [CODE[corr]] [[要素]]とします。
[[属性]]に原文の文字を示します。
[SRC[>>32 #page=8]]

[5] 
[CITE[明六雑誌コーパス]]
では、
[[必須]]の
[DFN[[CODE[type]]]]
[[属性]]を、

- [6] [DFN[[CODE[erratum]]]]: 「誤字」
- [7] [DFN[[CODE[excess]]]]: 「衍字」
- [8] [DFN[[CODE[omission]]]]: 「脱字」

とします。
[SRC[>>29 #page=16]]

[11] 
[CITE[国民之友コーパス]]
では、
[[必須]]の
[DFN[[CODE[type]]]]
[[属性]]を、

- [12] [DFN[[CODE[erratum]]]]: 「誤植の種類が誤字であることを表す。」
- [13] [DFN[[CODE[excess]]]]: 「誤植の種類が衍字であることを表す。」
- [14] [DFN[[CODE[omission]]]]: 「誤植の種類が脱字であることを表す。」
- [15] [DFN[[CODE[返読前]]]]: 「返読の対象となる文字の、訓読前の文字と位置を表す。」
- [16] [DFN[[CODE[返読後]]]]: 「返読の対象となる文字の、訓読後の文字と位置を表す。助動詞な[BR[]]どは仮名に開いてテキスト化する。」
- [17] [DFN[[CODE[補読]]]]: 「補読された文字を表す。」
- [18] [DFN[[CODE[仮名開き前]]]]: 「返読は伴わないが仮名に開く対象となる文字の、開く前の文[BR[]]字と位置を表す」
- [19] [DFN[[CODE[仮名開き後]]]]: 「返読は伴わないが仮名に開く対象となる文字の、開いた後の[BR[]]文字と位置を表す」

とします。
[SRC[>>32 #page=26]]


[9] 
[CODE[type]]
が
[CODE[erratum]],
[CODE[excess]],
[CODE[返読前]],
[CODE[仮名開き前]]
のとき、
[DFN[[CODE[originalText]]]]
[[属性]]に原文文字を示します。
[SRC[>>29 #page=16, >>32 #page=26]]

[10] 
[[ルビ文字列]]を訂正する場合、
[CODE[ruby][ruby (コーパス)]] や [CODE[lRuby]]
の 
[CODE[rubyText]]
は訂正後の[[ルビ文字列]]とします。
そしてそれを
[CODE[corr]]
に入れます。
[CODE[corr]] の [DFN[[CODE[subType]]]]
[[属性]]を [DFN[[CODE[ruby]]]]
とします。
[CODE[originalText]] [[属性]]を訂正前の[[ルビ文字列]]原文とします。
[SRC[>>29 #page=16, >>32 #page=26]]

[20] 
返読の前後、仮名開きの前後は対になっています。
[DFN[[CODE[id]]]]
[[属性]]が同じもので対になります。
[[属性値]]は [[XML文書]]内の固有のIDとされます。
[SRC[>>32 #page=26]]
例文では[[数字列]]になっています。

[21] 
前は[[空要素]]にし、後は変更後のものを[[内容]]にします。


[22] 
[CITE[明六雑誌コーパス]]
では[[漢文]]の[[書き下し][書き下し文]]を
[CODE[corr]]
ではなく専用の
[DFN[[CODE[kanbun]]]]
[[要素]]で記述していました。

[23]
記述方法は[[要素名]]以外ほぼ同じです。
[CODE[kanbun]]
[[要素]]の
[DFN[[CODE[type]]]]
には、
[CODE[返読前]],
[CODE[返読後]],
[CODE[補読]]
を指定できます。
[SRC[>>29 #page=19]]



[REFS[

- [29] [CITE[[L[『明六雑誌コーパス』の仕様]]]],
[[近藤明日子]],
[[田中牧郎]],
[TIME[2023-11-26T08:07:49.000Z]] <https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf>
- [31] [CITE@ja[国立国語研究所学術情報リポジトリ]], [TIME[2023-11-26T08:12:17.000Z]] <https://repository.ninjal.ac.jp/records/3302>
-- [32] 
[CITE[[L[『国民之友コーパス』解説書[BR[]]第1.1 版]]]],
[[[L[近藤明日子]]]],
[[[L[2014]]]],
[CODE[kokumin_manual_v1_1.pdf]]

]REFS]

* [CODE[correction]] 要素 (C-XML)

[24] [CITE@ja[[[C-XML]](文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ)]], [TIME[2023-12-02T04:40:25.000Z]] <https://clrd.ninjal.ac.jp/bccwj/c-xml.html>

>[SNIP[]]correction タグ(誤植の修正した文字を表す)があります。
[EG[
[PRE[
生活基<correction type="erratum" originalText="盟">盤</correction>に
伸びを示し<correction type="omission">て[ASIS[G]]lt;/correction>いる
整備を<correction type="excess" originalText="を" />図るべく
]PRE]
]EG]

* 関連

[4] 関連: [CODE[gap]], [CODE[unclear]]

* メモ