[REFS[
-
[1] [CITE@ja[C-XML(文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ)]], [TIME[2023-12-02T04:32:05.000Z]] <https://clrd.ninjal.ac.jp/bccwj/c-xml.html>
-
[7] 
[CITE@ja[[[M-XML]](統合形式XMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ)]], [TIME[2023-12-02T06:37:44.000Z]] <https://clrd.ninjal.ac.jp/bccwj/m-xml.html>
-
[16] 
[CITE@ja[XMLによる形態論情報と文書構造情報の統合 [[現代日本語書き言葉均衡コーパス]](BCCWJ)]], [TIME[2023-12-02T06:45:10.000Z]] <https://clrd.ninjal.ac.jp/bccwj/integration.html>


]REFS]

* マーク付け言語

[FIG(short list)[ [3] [[C-XML]]

- [CODE[correction]]
- [CODE[ruby][ruby (コーパス)]]
- [CODE[missingCharacter]]

]FIG]

[FIG(short list)[ [8] [[M-XML]]

- [CODE[SUW]]
- [CODE[LUW]]
- [CODE[sentence]]
- [CODE[superSentence]]
- [CODE[ruby][ruby (コーパス)]]
- [CODE[quote][quote (コーパス)]]

]FIG]

* C-XML 本体

[2] [[C-XML]] 本体の[[要素]] [SRC[>>1]]

>
,*	,*タグ名		,*内容
,*サンプル 	,sample 	,サンプリングによって1サンプルとされた文書要素
,*,sampling 	,サンプル抽出基準点などサンプリングに関する情報
,*階層構造[BR[]](文書構造) 	,article 	,同一著者による、同一テーマのひとまとまりの文書要素
,*,blockEnd 	,意味のまとまりや形式のまとまりを区切るためのマーカー
,*,cluster 	,title 要素が包括する文書要素全体
,*,titleBlock 	,title 要素とそれに付随する要素全体
,*,title 	,特定範囲の文書要素の内容を代表する記述
,*,orphanedTitle 	,不特定範囲の文書要素を代表する記述
,*,list 	,箇条書きなど、列挙された文書要素の集まり
,*,paragraph 	,段落を表す文書要素
,*,sentence 	,文に相当する文書要素
,*図表[BR[]](文書構造) 	,figureBlock 	,図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
,*,figure 	,付随する文書要素のある図・表・写真・絵など
,*,caption 	,図表についてのタイトルや説明
,*,table 	,表
,*引用[BR[]](文書構造) 	,quotation 	,図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
,*,citation 	,当該article 要素の本文において言及される、他文献からの引用要素
,*,source 	,引用文献についての情報(文献名、著者名、著者情報など)
,*,speech 	,発話の引用・書き起こし、心内発話の描写
,*,speaker 	,話者を明示的に表した文字列やマーク
,*,quote 	,当該article 要素とは異なる著作物からの引用や、発話・心内発話の引用・描写・書き起こし
,*注記[BR[]](文書構造) 	,noteBody 	,注記とその注記の範囲
,*,noteBodyInline 	,傍注など行外に付随する形式で現れる注記
,*その他[BR[]](文書構造) 	,abstract 	,article 要素、またはcluster 要素の概要に相当する文書要素
,*,authorsData 	,著作者表示・署名にあたる要素
,*その他[BR[]](文書構造) 	,contents 	,目次に相当する文書要素
,*,profile 	,著者や登場人物のプロフィールに相当する文書要素
,*,rejectedBlock 	,サンプル範囲内において、削除対象となったブロック要素の存在
,*,verse 	,詩、和歌、俳句、歌謡などの韻文
,*,verseLine 	,韻文における行
,*文字・表記 	,ruby 	,ルビ付き文字
,*,correction 	,原文の誤植を訂正した文字
,*,missingCharacter 	,JIS X 0213:2004 で規定されている文字以外の文字(JIS 外字)
,*,enclosedCharacter 	,連続や参照などのラベルとして機能している囲み付きの文字
,*,cursive 	,変体仮名
,*,image 	,JIS X0213:2004が規定する諸記号に含まれていない記号類や絵文字
,*,superScript 	,数式や化学式などに用いる上付きの文字
,*,subScript 	,数式や化学式などに用いる下付きの文字
,*,fraction 	,帯分数の中の真分数部分
,*,delete 	,抹消線などによって削除された本文要素
,*,br 	,物理改行
,*,info 	,補助的な付与情報
,*,rejectedSpan 	,サンプル範囲内において、削除対象となったインライン要素の存在
,*,substitution 	,別の文字で代用入力されている JIS X 0213:2004 規定文字

* Yahoo!知恵袋サブコーパスタグセット

[4] [DFN[Yahoo!知恵袋サブコーパスタグセット]] [SRC[>>1]]

>
,*タグ名 	,*内容
,sample 	,質問本文と回答本文を対にしたもの
,OCQuestion 	,質問本文を表す
,OCAnswer 	,回答本文を表す
,br 	,改行を表す
,webLine 	,Webデータに対して、自動で付与される、論理行相当の行を表す。
,sentence 	,文に相当するまとまりを表す。
,rejectedBlock 	,削除要素を表す
,ncr 	,変換元データの数値文字参照を削除または「〓」に置換したことを表す。
,Info 	,補助的な付与情報

* Yahoo! Blog サブコーパス

[5] [[Yahoo! Blog]] 用 [SRC[>>1]]

>rejectedBlock タグのtype属性に ASCIIArt を追加した。これは、サンプル作成時に削除された、いわゆる「アスキーアート」を表す。

* 教科書サブコーパス

[6] 
教科書サブコーパス用 [SRC[>>1]]

>
,*	,*タグ名		,*内容
,*言語的な階層構造を記述する要素 	,book 	,【追加】  教科書1冊に相当するまとまりを表す。
,*,cluster 	,【変更】  検定教科書の目次に示された章題・節題等により包括される、ひとまとまりの文書要素を表す。
,*特定の言語構造を記述する要素 	,copyright 	,【変更】  citation要素以外で、著作権処理が別途必要であった文書要素を表す。
,*,supplement 	,【変更】  教科書の主文(主要な学習内容)とは異なる書式を施され、かつ主文に対して特定の機能を有し、その機能ごとに包括されるひとまとまりの文書要素を表す。
,*,skippedBlock 	,【追加】  教科書コーパスの語彙表の作成に際し、語彙調査対象外となる文書要素を表す。
,*文字・表記に関する要素 	,surrogatePair 	,【追加】  〓で表示されている文字が、JIS X 0213:2004で規定されているがサロゲートペアを使用する文字であることを示す。
,*,subRuby 	,【追加】  横書きの場合本文下側、縦書きの場合本文左側の行間にルビを付された本文中の文字を表す。
,*,root 	,【追加】  √のかかった部分のうち、マークアップしなければ√のかかる範囲が誤って解釈されてしまう恐れのある部分を表す。
,*,skippedSpan 	,【追加】  教科書コーパスの語彙表作成に際し、語彙調査対象外となる文中の文字列を表す。

* M-XML

[9] [[M-XML]] [SRC[>>7]]

- [15] [CODE[mergedSample]]
- [13] [CODE[SUW]]
- [14] [CODE[LUW]]
- [10] [CODE[NumTrans]] : 数字変換
- [11] [CODE[fraction]] : [[分数]]
-- [CODE[denominator]]
-- [CODE[vinculum]]
-- [CODE[numerator]]
- [12] [CODE[info]] : 改ページ位置


[17] [SRC[>>16]]

>C-XMLではsentenceタグが多重の入れ子になることを認めていましたが、M-XMLではこれを修正しました。上位のsentenceはsuperSentenceという文書構造タグとし、下位のsentenceはそのまま残し、superSentence直下のテキストを新たにsentence type= " fragment "としています。

>
ルビ(ruby)や引用(quote)タグが形態論情報の切れ目と一致しないなどの問題がある場合は、問題が生じないようにタグを修正しています。

[18] 関連:
[[並行マーク付け]]





* 関連

[SEE[ [[コーパスのタグセット]] ]]

* メモ


[19] [CITE@ja[XMLによる文書構造の記述 現代日本語書き言葉均衡コーパス(BCCWJ)]], [TIME[2023-12-02T06:48:14.000Z]] <https://clrd.ninjal.ac.jp/bccwj/XML.html>
