タグ名 内容 サンプル sample サンプリングによって1サンプルとされた文書要素 sampling サンプル抽出基準点などサンプリングに関する情報 階層構造 (文書構造) article 同一著者による、同一テーマのひとまとまりの文書要素 blockEnd 意味のまとまりや形式のまとまりを区切るためのマーカー cluster title 要素が包括する文書要素全体 titleBlock title 要素とそれに付随する要素全体 title 特定範囲の文書要素の内容を代表する記述 orphanedTitle 不特定範囲の文書要素を代表する記述 list 箇条書きなど、列挙された文書要素の集まり paragraph 段落を表す文書要素 sentence 文に相当する文書要素 図表 (文書構造) figureBlock 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素 figure 付随する文書要素のある図・表・写真・絵など caption 図表についてのタイトルや説明 table 表 引用 (文書構造) quotation 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素 citation 当該article 要素の本文において言及される、他文献からの引用要素 source 引用文献についての情報(文献名、著者名、著者情報など) speech 発話の引用・書き起こし、心内発話の描写 speaker 話者を明示的に表した文字列やマーク quote 当該article 要素とは異なる著作物からの引用や、発話・心内発話の引用・描写・書き起こし 注記 (文書構造) noteBody 注記とその注記の範囲 noteBodyInline 傍注など行外に付随する形式で現れる注記 その他 (文書構造) abstract article 要素、またはcluster 要素の概要に相当する文書要素 authorsData 著作者表示・署名にあたる要素 その他 (文書構造) contents 目次に相当する文書要素 profile 著者や登場人物のプロフィールに相当する文書要素 rejectedBlock サンプル範囲内において、削除対象となったブロック要素の存在 verse 詩、和歌、俳句、歌謡などの韻文 verseLine 韻文における行 文字・表記 ruby ルビ付き文字 correction 原文の誤植を訂正した文字 missingCharacter JIS X 0213:2004 で規定されている文字以外の文字(JIS 外字) enclosedCharacter 連続や参照などのラベルとして機能している囲み付きの文字 cursive 変体仮名 image JIS X0213:2004が規定する諸記号に含まれていない記号類や絵文字 superScript 数式や化学式などに用いる上付きの文字 subScript 数式や化学式などに用いる下付きの文字 fraction 帯分数の中の真分数部分 delete 抹消線などによって削除された本文要素 br 物理改行 info 補助的な付与情報 rejectedSpan サンプル範囲内において、削除対象となったインライン要素の存在 substitution 別の文字で代用入力されている JIS X 0213:2004 規定文字
タグ名 内容 sample 質問本文と回答本文を対にしたもの OCQuestion 質問本文を表す OCAnswer 回答本文を表す br 改行を表す webLine Webデータに対して、自動で付与される、論理行相当の行を表す。 sentence 文に相当するまとまりを表す。 rejectedBlock 削除要素を表す ncr 変換元データの数値文字参照を削除または「〓」に置換したことを表す。 Info 補助的な付与情報
rejectedBlock タグのtype属性に ASCIIArt を追加した。これは、サンプル作成時に削除された、いわゆる「アスキーアート」を表す。
タグ名 内容 言語的な階層構造を記述する要素 book 【追加】 教科書1冊に相当するまとまりを表す。 cluster 【変更】 検定教科書の目次に示された章題・節題等により包括される、ひとまとまりの文書要素を表す。 特定の言語構造を記述する要素 copyright 【変更】 citation要素以外で、著作権処理が別途必要であった文書要素を表す。 supplement 【変更】 教科書の主文(主要な学習内容)とは異なる書式を施され、かつ主文に対して特定の機能を有し、その機能ごとに包括されるひとまとまりの文書要素を表す。 skippedBlock 【追加】 教科書コーパスの語彙表の作成に際し、語彙調査対象外となる文書要素を表す。 文字・表記に関する要素 surrogatePair 【追加】 〓で表示されている文字が、JIS X 0213:2004で規定されているがサロゲートペアを使用する文字であることを示す。 subRuby 【追加】 横書きの場合本文下側、縦書きの場合本文左側の行間にルビを付された本文中の文字を表す。 root 【追加】 √のかかった部分のうち、マークアップしなければ√のかかる範囲が誤って解釈されてしまう恐れのある部分を表す。 skippedSpan 【追加】 教科書コーパスの語彙表作成に際し、語彙調査対象外となる文中の文字列を表す。
C-XMLではsentenceタグが多重の入れ子になることを認めていましたが、M-XMLではこれを修正しました。上位のsentenceはsuperSentenceという文書構造タグとし、下位のsentenceはそのまま残し、superSentence直下のテキストを新たにsentence type= " fragment "としています。
ルビ(ruby)や引用(quote)タグが形態論情報の切れ目と一致しないなどの問題がある場合は、問題が生じないようにタグを修正しています。
[19] XMLによる文書構造の記述 現代日本語書き言葉均衡コーパス(BCCWJ), https://clrd.ninjal.ac.jp/bccwj/XML.html