コーパスのタグセット

コーパスのタグセット

[3] 日本語研究用コーパス各種のXML文書では、 一連の似たような、しかし少しずつ違う語彙が使われています。

文書型

[36]コーパス要素属性

洒落本コーパス

[26] >>25 #page=6

文書構造では,洒落本テキストの実態に合わせ,書籍という形状的単位ではなく,見出しに相 当する単位を一記事と見た。また会話や割書きや引用を切り出し,その下位要素として文を配置 した。「文」という単位は,「△は「○○。○○。」と言った。」のように,会話文の中の一文とし ての「文」を,引用を包括する大きな単位としての文が包む,というように本来重層的である。 しかし本コーパスを近世口語資料としてみれば,会話文の利用が主体となることが想定され,会 話文の中の単位としての「文」を切り出すことがより重要である。それに加え,データの複雑化 を避ける意味もあり,引用をまたがない細かい単位としての文のみを設定することとした。

[27] >>25 #page=7

表 2 「洒落本コーパス 0.5」のタグセット

要素(タグ)名説 明
<text>1 作品全体
<front>前付相当の箇所(序文等)
<body>主本文相当の箇所
<back>後付相当の箇所(跋文,刊記等)
<article>1 記事の範囲(「回」相当)
<titleBlock>記事とは認められない,<text> 直下レベルでの表題周り
<p>段落を表す。タイトルや署名等を除く主本文
<block>記事中のタイトルなど,主本文とは切り分けたい段落要素
<q>@type=“会話” (<speech>)ひとまとまりの会話文。ひまわり用に <speech> を <q> に統合。 本要素に話者情報を付与。
@type=“引用” (<quotation>)文献等からの引用や手紙など。ひまわり用に <quotation> を <q> に統合。
@type=“割書” (<warigaki>)割書き箇所。ひまわり用に <warigaki> を <q> に統合。
<s>
<verse>謡などの節付け箇所や和歌など韻文であることが明確な箇所
<delivery>会話文の様式等を指定する記述
<speaker>話者の表示
<corrSpan>振り仮名等により文字列の置き換えを行った短単位以上の箇所
<hi>小書き・傍線・囲みなどの文字列に対する装飾
<SUW>語(短単位)
<lRuby>本行の左側に振られた振り仮名等の文字列
<r> (<ruby>)本行の右側に振られた振り仮名文字列。ひまわり用に <ruby> を <r> に。
<add>本文の補入箇所
<kanbun>訓み下す際文字位置を置き換えた漢文等の箇所
<vMark>底本原文が濁点無表記であった箇所
<odoriji>底本原文が 1 字分の踊り字であった箇所
<corr>誤字・脱字・衍字等の本文の修正
<g>外字・絵文字等準拠する文字セットでは表示できない文字
<char>1 字を表す単位,@script=“カタカナ”で,カタカナ表記箇所に使用
<info>本文テキストに割って入れられなかった記号,丁付情報等
<pb><lb>底本の改ページ位置・改行位置
<opb>原本画像の丁や画像リンクとの対応

[28] >>25 #page=8

市村・河瀬・小木曽(2012)では,会話・引用箇所・割書きについて,<speech>,<quotation>, <warigaki> と,要素を分けて設定していたが,本仕様では,本文中の性質の異なるテキスト要素 を <q> でマークし,会話文を表す「会話」と,文献引用等を表す「引用」,地の文や注記に相当 する「割書」の 3 種を属性として書き分けた。なお,無表示の物は「割書」ではない本文である。 割書き内の会話文は認定していない。

「人情本コーパス」のタグセット

[9] >>1 「洒落本コーパス」に対する追加 #page=6

[18] 全体 >>1 #page=8

表 1 「人情本コーパス」のタグセット

階層タグ説明
文以上1corpusコーパス全体
2textテキスト一冊のまとまり
3front序文
body本文
back跋文
4article記事
titleBlock全体のタイトルの記述
5p本文のひとかたまり
block内題などのブロック要素
6speech会話文
warigaki割書き
quotation字下げ,手紙など
7s一文
文未満8speaker話者
hi囲み,傍線
rルビ
lr左ルビ
odoriji踊り字
vMark濁点無表記箇所
goji合字
corr本文修正箇所
unclear原本の不鮮明箇所
gap判読不明箇所
位置情報pb頁開始位置
lb行開始位置

[6] >>2>>1g, char が追加されている。

[20] >>19 #page=6

表 1:タグセット

タグ説明属性
corpusコーパス全体
textテキスト一冊のまとまりtitle, volume, year, year_w url, vol
front序文
body本文
back跋文
article記事type
titleBlock全体のタイトルの記述
p本文のひとかたまり
block内題などのブロック要素
speech会話文source
warigaki割書き
quotation字下げ、手紙など
s一文
speaker話者
hi囲み、傍線rend
rルビrt
lr左ルビrt
odoriji踊り字originalText
vMark濁点無表記箇所
goji合字
g外字などの特殊文字type
charカタカナなどscript
corr本文修正箇所type, subType, originalText
unclear原本の不鮮明箇所
gap判読不明箇所
pb頁開始位置n,num
lb行開始位置

[7] >>4>>2kana (属性 jibo, 要素内容平仮名, 属性値変体仮名字母), rb (連綿切れ目を表す空要素) が追加されている。

[5] 「人情本コーパス」のタグセットは「洒落本コーパス」のタグセット に 「概ね準拠」している。 >>4 p.223

「表記・図版情報付き版本コーパス」の「表記情報用拡張仕様」「図版情報用拡張仕様」

[21] 表記・図版情報付き版本コーパスは、 人情本コーパスタグセットに、 表記情報用拡張仕様図版情報用拡張仕様を追加した XML文書型を採用しています。 >>8

[22] >>8 #page=2

表 2 人情本コーパスのタグセット(抜粋)

情報種別タグ(要素)説明
構造corpusコーパス全体
textテキスト1冊のまとまり
body本文
p本文のひとかたまり
s
speech会話文
quotation引用、手紙など
speaker話者
版面pb頁開始位置
lb行開始位置
warigaki割書き
r右ルビ
文字goji合字
g外字などの特殊文字
unclear原本の不鮮明箇所
校訂odoriji踊り字展開箇所
vMark濁点無表記箇所
corr本文修正箇所
形態論SUW短単位

[23] 表記情報用拡張仕様 >>8 #page=3

rb 要素:連綿文字列の切れ目を示す.

kana 要素:現行仮名と異体の仮名(変体仮名) を表す.属性として,字母の情報(jibo)と 文字コードの情報(ref)を持つ.

choice 要素:テキスト中の同じ場所で,異な る符号化記述をまとめる.原文(sic 要素) と校訂本文(corr 要素),本行文字列(r 要 素)とルビ文字列(rt 要素)

[24] 図版情報用拡張仕様 >>8 #page=3

figure 要素:図版とそれに付随する要素を示 す.

graphic 要素:図版の URL を示す.

head 要素:図版のタイトル相当の文書要素を 示す.

caption 要素:図版に付随する文書要素(タイ トル以外)を示す.

figDesc 要素:subject 要素(対象),sex要素 (性別), name 要素(名前),hair 要素(髪 型),clothes(着物), additional 要素(付 随して描かれているもの.内部を item 要素 で記述)により,図の内容を記述する.

「明六雑誌コーパス」の「XML タグセット」

[30] >>29 #page=4

表 1 XML タグセット

タグ名説明詳説する節番号
magazine雑誌 1 号分を表す。4.1.
front雑誌中で前付けに相当する文書要素を表す。4.2.
body雑誌中で中心本文に相当する文書要素を表す。4.3.
article1 記事を表す。4.4.
titleBlock前付け・中心本文の中にあり、記事とは認められない文書要 素を表す。4.5.
p記事中の段落に相当する文書要素を表す。4.6.
block記事中にあり、段落とは見なせない文書要素(記事タイトル・ 記事著者・小見出し等)を表す。4.7.
figureBlock図表を表す。4.8.
warigaki割書された文字列を表す。4.9.
quotation発話部分や他の文献からの引用を表す。4.10.
superS引用や割書を含むため、複数の s 要素に分割された文を表す。4.11.
s文を表す。4.12.
odoriji踊字で表記されていたことを表す。4.13.
span漢字片仮名交じり文の片仮名を平仮名に変換したテキストを 作成する際、片仮名のまま残した文字列を表す。4.14.
gap抹消・破損等で判読できない文字列の存在を表す。4.15.
pb原本での改ページ位置を表す。4.16.
lb原本での改行位置を表す。4.17.
SUW語(短単位)を表す。4.18.
ruby本行の右側に振られたルビを表す。4.19.
lRuby本行の左側に振られたルビを表す。4.20.
corr誤植を校訂したことを表す。4.21.
unclear不鮮明ではあるが字体が推定できる文字を表す。4.22.
vMark濁点無表記の文字を表す。4.23.
g外字・敬意欠字等の特殊な文字を表す。4.24.
kanbun漢文によって書かれた文章に返読・補読を行ったことを表す。4.25.

「国民之友コーパス」の「XML タグセット」

[35] >>32 #page=9

表1 XML タグセット

タグ名説明詳説する節番号
magazine雑誌1 号分を表す。4.2(p.6~)
front雑誌中で前付けに相当する文書要素を表す。4.3(p.7~)
body雑誌中で中心本文に相当する文書要素を表す。4.4(p.7~)
back雑誌中で後付けに相当する文書要素を表す。4.5(p.8~)
article記事を表す。4.6(p.9~)
titleBlock記事と同位の文書要素で、記事とは見なせないものを表す。4.7(p.10~)
p段落に相当する文書要素を表す。4.8(p.10~)
block段落と同位の文書要素で、段落とは見なせないものを表す。4.9(p.11~)
figureBlock図表の存在を表す。4.10(p.12~)
rejectedBlock非日本語(外国語・漢文)からなる段落の存在を表す。4.11(p.12~)
warigaki割書されている文字列を表す。4.12(p.13~)
quotation上位要素とは発話者や発話場面の異なる文書要素が引用され ている部分を表す。4.13(p.13~)
superS引用や割書を含むため、複数のs 要素からなると見なされる 文を表す。4.14(p.14~)
s文を表す。4.15(p.15~)
odoriji踊り字で表記されている箇所を表す。4.16(p.16~)
span特にマークアップする必要のある文中の文字列を表す。4.17(p.17~)
pb原本での改ページ位置を表す。4.18(p.18~)
cb原本での改段位置を表す。4.19(p.18~)
lb原本での改行位置を表す。4.20(p.19~)
br論理改行を表す。4.21(p.19~)
SUW語(短単位)を表す。4.22(p.19~)
ruby本行の右側に振られているルビを表す。4.23(p.21~)
lRuby本行の左側に振られているルビを表す。4.24(p.22~)
corr原文の文字に修正を施し、異なる文字としたものを表す4.25(p.23~)
unclear不鮮明ではあるが字体が推定できる文字を表す。4.26(p.25~)
vMark濁音を表記するにもかかわらず、原文では濁点のない仮名が 使われていることを表す。4.27(p.25~)
g外字・敬意欠字を表す。4.28(p.26~)

関連

C-XML, M-XML

メモ