M-XML

C-XML, M-XML

マーク付け言語

[3] C-XML
[8] M-XML

C-XML 本体

[2] C-XML 本体の要素 >>1

タグ名内容
サンプルsampleサンプリングによって1サンプルとされた文書要素
samplingサンプル抽出基準点などサンプリングに関する情報
階層構造 (文書構造)article同一著者による、同一テーマのひとまとまりの文書要素
blockEnd意味のまとまりや形式のまとまりを区切るためのマーカー
clustertitle 要素が包括する文書要素全体
titleBlocktitle 要素とそれに付随する要素全体
title特定範囲の文書要素の内容を代表する記述
orphanedTitle不特定範囲の文書要素を代表する記述
list箇条書きなど、列挙された文書要素の集まり
paragraph段落を表す文書要素
sentence文に相当する文書要素
図表 (文書構造)figureBlock図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
figure付随する文書要素のある図・表・写真・絵など
caption図表についてのタイトルや説明
table
引用 (文書構造)quotation図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
citation当該article 要素の本文において言及される、他文献からの引用要素
source引用文献についての情報(文献名、著者名、著者情報など)
speech発話の引用・書き起こし、心内発話の描写
speaker話者を明示的に表した文字列やマーク
quote当該article 要素とは異なる著作物からの引用や、発話・心内発話の引用・描写・書き起こし
注記 (文書構造)noteBody注記とその注記の範囲
noteBodyInline傍注など行外に付随する形式で現れる注記
その他 (文書構造)abstractarticle 要素、またはcluster 要素の概要に相当する文書要素
authorsData著作者表示・署名にあたる要素
その他 (文書構造)contents目次に相当する文書要素
profile著者や登場人物のプロフィールに相当する文書要素
rejectedBlockサンプル範囲内において、削除対象となったブロック要素の存在
verse詩、和歌、俳句、歌謡などの韻文
verseLine韻文における行
文字・表記rubyルビ付き文字
correction原文の誤植を訂正した文字
missingCharacterJIS X 0213:2004 で規定されている文字以外の文字(JIS 外字)
enclosedCharacter連続や参照などのラベルとして機能している囲み付きの文字
cursive変体仮名
imageJIS X0213:2004が規定する諸記号に含まれていない記号類や絵文字
superScript数式や化学式などに用いる上付きの文字
subScript数式や化学式などに用いる下付きの文字
fraction帯分数の中の真分数部分
delete抹消線などによって削除された本文要素
br物理改行
info補助的な付与情報
rejectedSpanサンプル範囲内において、削除対象となったインライン要素の存在
substitution別の文字で代用入力されている JIS X 0213:2004 規定文字

Yahoo!知恵袋サブコーパスタグセット

[4] Yahoo!知恵袋サブコーパスタグセット >>1

タグ名内容
sample質問本文と回答本文を対にしたもの
OCQuestion質問本文を表す
OCAnswer回答本文を表す
br改行を表す
webLineWebデータに対して、自動で付与される、論理行相当の行を表す。
sentence文に相当するまとまりを表す。
rejectedBlock削除要素を表す
ncr変換元データの数値文字参照を削除または「〓」に置換したことを表す。
Info補助的な付与情報

Yahoo! Blog サブコーパス

[5] Yahoo! Blog>>1

rejectedBlock タグのtype属性に ASCIIArt を追加した。これは、サンプル作成時に削除された、いわゆる「アスキーアート」を表す。

教科書サブコーパス

[6] 教科書サブコーパス用 >>1

タグ名内容
言語的な階層構造を記述する要素book【追加】 教科書1冊に相当するまとまりを表す。
cluster【変更】 検定教科書の目次に示された章題・節題等により包括される、ひとまとまりの文書要素を表す。
特定の言語構造を記述する要素copyright【変更】 citation要素以外で、著作権処理が別途必要であった文書要素を表す。
supplement【変更】 教科書の主文(主要な学習内容)とは異なる書式を施され、かつ主文に対して特定の機能を有し、その機能ごとに包括されるひとまとまりの文書要素を表す。
skippedBlock【追加】 教科書コーパスの語彙表の作成に際し、語彙調査対象外となる文書要素を表す。
文字・表記に関する要素surrogatePair【追加】 〓で表示されている文字が、JIS X 0213:2004で規定されているがサロゲートペアを使用する文字であることを示す。
subRuby【追加】 横書きの場合本文下側、縦書きの場合本文左側の行間にルビを付された本文中の文字を表す。
root【追加】 √のかかった部分のうち、マークアップしなければ√のかかる範囲が誤って解釈されてしまう恐れのある部分を表す。
skippedSpan【追加】 教科書コーパスの語彙表作成に際し、語彙調査対象外となる文中の文字列を表す。

M-XML

[9] M-XML >>7

[17] >>16

C-XMLではsentenceタグが多重の入れ子になることを認めていましたが、M-XMLではこれを修正しました。上位のsentenceはsuperSentenceという文書構造タグとし、下位のsentenceはそのまま残し、superSentence直下のテキストを新たにsentence type= " fragment "としています。

ルビ(ruby)や引用(quote)タグが形態論情報の切れ目と一致しないなどの問題がある場合は、問題が生じないようにタグを修正しています。

[18] 関連: 並行マーク付け

関連

コーパスのタグセット

メモ

[19] XMLによる文書構造の記述 現代日本語書き言葉均衡コーパス(BCCWJ), https://clrd.ninjal.ac.jp/bccwj/XML.html