originalText=""

corr 要素 (コーパス)

corr 要素

[1] コーパスのタグセット各種の corr 要素は、 修正、校訂を表します。

[2] 誤植と思われる箇所は修正して corr 要素とします。 属性に原文の文字を示します。 >>29 #page=3, >>32 #page=8

[3] 漢文体候文体は、 返読補読仮名開きをして corr 要素とします。 属性に原文の文字を示します。 >>32 #page=8

[5] 明六雑誌コーパス では、 必須type 属性を、

とします。 >>29 #page=16

[11] 国民之友コーパス では、 必須type 属性を、

とします。 >>32 #page=26

[9] typeerratum, excess, 返読前, 仮名開き前 のとき、 originalText 属性に原文文字を示します。 >>29 #page=16, >>32 #page=26

[10] ルビ文字列を訂正する場合、 rubylRubyrubyText は訂正後のルビ文字列とします。 そしてそれを corr に入れます。 corrsubType 属性ruby とします。 originalText 属性を訂正前のルビ文字列原文とします。 >>29 #page=16, >>32 #page=26

[20] 返読の前後、仮名開きの前後は対になっています。 id 属性が同じもので対になります。 属性値XML文書内の固有のIDとされます。 >>32 #page=26 例文では数字列になっています。

[21] 前は空要素にし、後は変更後のものを内容にします。

[22] 明六雑誌コーパス では漢文書き下しcorr ではなく専用の kanbun 要素で記述していました。

[23] 記述方法は要素名以外ほぼ同じです。 kanbun 要素type には、 返読前, 返読後, 補読 を指定できます。 >>29 #page=19

correction 要素 (C-XML)

[24] C-XML(文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ), https://clrd.ninjal.ac.jp/bccwj/c-xml.html

correction タグ(誤植の修正した文字を表す)があります。

生活基<correction type="erratum" originalText="盟">盤</correction>に
伸びを示し<correction type="omission">てGlt;/correction>いる
整備を<correction type="excess" originalText="を" />図るべく

関連

[4] 関連: gap, unclear

メモ