[3] 日本語研究用コーパス各種のXML文書では、 一連の似たような、しかし少しずつ違う語彙が使われています。
文書構造では,洒落本テキストの実態に合わせ,書籍という形状的単位ではなく,見出しに相
当する単位を一記事と見た。また会話や割書きや引用を切り出し,その下位要素として文を配置 した。「文」という単位は,「△は「○○。○○。」と言った。」のように,会話文の中の一文とし ての「文」を,引用を包括する大きな単位としての文が包む,というように本来重層的である。 しかし本コーパスを近世口語資料としてみれば,会話文の利用が主体となることが想定され,会 話文の中の単位としての「文」を切り出すことがより重要である。それに加え,データの複雑化 を避ける意味もあり,引用をまたがない細かい単位としての文のみを設定することとした。
表 2 「洒落本コーパス 0.5」のタグセット
要素(タグ)名 説 明 <text> 1 作品全体 <front> 前付相当の箇所(序文等) <body> 主本文相当の箇所 <back> 後付相当の箇所(跋文,刊記等) <article> 1 記事の範囲(「回」相当) <titleBlock> 記事とは認められない,<text> 直下レベルでの表題周り <p> 段落を表す。タイトルや署名等を除く主本文 <block> 記事中のタイトルなど,主本文とは切り分けたい段落要素 <q> @type=“会話” (<speech>) ひとまとまりの会話文。ひまわり用に <speech> を <q> に統合。 本要素に話者情報を付与。 @type=“引用” (<quotation>) 文献等からの引用や手紙など。ひまわり用に <quotation> を <q> に統合。 @type=“割書” (<warigaki>) 割書き箇所。ひまわり用に <warigaki> を <q> に統合。 <s> 文 <verse> 謡などの節付け箇所や和歌など韻文であることが明確な箇所 <delivery> 会話文の様式等を指定する記述 <speaker> 話者の表示 <corrSpan> 振り仮名等により文字列の置き換えを行った短単位以上の箇所 <hi> 小書き・傍線・囲みなどの文字列に対する装飾 <SUW> 語(短単位) <lRuby> 本行の左側に振られた振り仮名等の文字列 <r> (<ruby>) 本行の右側に振られた振り仮名文字列。ひまわり用に <ruby> を <r> に。 <add> 本文の補入箇所 <kanbun> 訓み下す際文字位置を置き換えた漢文等の箇所 <vMark> 底本原文が濁点無表記であった箇所 <odoriji> 底本原文が 1 字分の踊り字であった箇所 <corr> 誤字・脱字・衍字等の本文の修正 <g> 外字・絵文字等準拠する文字セットでは表示できない文字 <char> 1 字を表す単位,@script=“カタカナ”で,カタカナ表記箇所に使用 <info> 本文テキストに割って入れられなかった記号,丁付情報等 <pb><lb> 底本の改ページ位置・改行位置 <opb> 原本画像の丁や画像リンクとの対応
市村・河瀬・小木曽(2012)では,会話・引用箇所・割書きについて,<speech>,<quotation>,
<warigaki> と,要素を分けて設定していたが,本仕様では,本文中の性質の異なるテキスト要素 を <q> でマークし,会話文を表す「会話」と,文献引用等を表す「引用」,地の文や注記に相当 する「割書」の 3 種を属性として書き分けた。なお,無表示の物は「割書」ではない本文である。 割書き内の会話文は認定していない。
[9] >>1 「洒落本コーパス」に対する追加 #page=6
表 1 「人情本コーパス」のタグセット
階層 タグ 説明 文以上 1 corpus コーパス全体 2 text テキスト一冊のまとまり 3 front 序文 body 本文 back 跋文 4 article 記事 titleBlock 全体のタイトルの記述 5 p 本文のひとかたまり block 内題などのブロック要素 6 speech 会話文 warigaki 割書き quotation 字下げ,手紙など 文 7 s 一文 文未満 8 speaker 話者 hi 囲み,傍線 r ルビ lr 左ルビ odoriji 踊り字 vMark 濁点無表記箇所 goji 合字 corr 本文修正箇所 unclear 原本の不鮮明箇所 gap 判読不明箇所 位置情報 pb 頁開始位置 lb 行開始位置
[6]
>>2 は >>1 に g
, char
が追加されている。
表 1:タグセット
タグ 説明 属性 corpus コーパス全体 text テキスト一冊のまとまり title, volume, year, year_w url, vol front 序文 body 本文 back 跋文 article 記事 type titleBlock 全体のタイトルの記述 p 本文のひとかたまり block 内題などのブロック要素 speech 会話文 source warigaki 割書き quotation 字下げ、手紙など s 一文 speaker 話者 hi 囲み、傍線 rend r ルビ rt lr 左ルビ rt odoriji 踊り字 originalText vMark 濁点無表記箇所 goji 合字 g 外字などの特殊文字 type char カタカナなど script corr 本文修正箇所 type, subType, originalText unclear 原本の不鮮明箇所 gap 判読不明箇所 pb 頁開始位置 n,num lb 行開始位置
[7] >>4 は >>2 に kana
(属性 jibo
,
要素内容が平仮名, 属性値が変体仮名の字母),
rb
(連綿切れ目を表す空要素) が追加されている。
[5] 「人情本コーパス」のタグセットは「洒落本コーパス」のタグセット に 「概ね準拠」している。 >>4 p.223
[21] 表記・図版情報付き版本コーパスは、 人情本コーパスのタグセットに、 表記情報用拡張仕様と図版情報用拡張仕様を追加した XML文書型を採用しています。 >>8
表 2 人情本コーパスのタグセット(抜粋)
情報種別 タグ(要素) 説明 構造 corpus コーパス全体 text テキスト1冊のまとまり body 本文 p 本文のひとかたまり s 文 speech 会話文 quotation 引用、手紙など speaker 話者 版面 pb 頁開始位置 lb 行開始位置 warigaki 割書き r 右ルビ 文字 goji 合字 g 外字などの特殊文字 unclear 原本の不鮮明箇所 校訂 odoriji 踊り字展開箇所 vMark 濁点無表記箇所 corr 本文修正箇所 形態論 SUW 短単位
rb 要素:連綿文字列の切れ目を示す.
kana 要素:現行仮名と異体の仮名(変体仮名)
を表す.属性として,字母の情報(jibo)と 文字コードの情報(ref)を持つ. choice 要素:テキスト中の同じ場所で,異な
る符号化記述をまとめる.原文(sic 要素) と校訂本文(corr 要素),本行文字列(r 要 素)とルビ文字列(rt 要素)
figure 要素:図版とそれに付随する要素を示
す. graphic 要素:図版の URL を示す.
head 要素:図版のタイトル相当の文書要素を
示す. caption 要素:図版に付随する文書要素(タイ
トル以外)を示す. figDesc 要素:subject 要素(対象),sex要素
(性別), name 要素(名前),hair 要素(髪 型),clothes(着物), additional 要素(付 随して描かれているもの.内部を item 要素 で記述)により,図の内容を記述する.
表 1 XML タグセット
タグ名 説明 詳説する節番号 magazine 雑誌 1 号分を表す。 4.1. front 雑誌中で前付けに相当する文書要素を表す。 4.2. body 雑誌中で中心本文に相当する文書要素を表す。 4.3. article 1 記事を表す。 4.4. titleBlock 前付け・中心本文の中にあり、記事とは認められない文書要 素を表す。 4.5. p 記事中の段落に相当する文書要素を表す。 4.6. block 記事中にあり、段落とは見なせない文書要素(記事タイトル・ 記事著者・小見出し等)を表す。 4.7. figureBlock 図表を表す。 4.8. warigaki 割書された文字列を表す。 4.9. quotation 発話部分や他の文献からの引用を表す。 4.10. superS 引用や割書を含むため、複数の s 要素に分割された文を表す。 4.11. s 文を表す。 4.12. odoriji 踊字で表記されていたことを表す。 4.13. span 漢字片仮名交じり文の片仮名を平仮名に変換したテキストを 作成する際、片仮名のまま残した文字列を表す。 4.14. gap 抹消・破損等で判読できない文字列の存在を表す。 4.15. pb 原本での改ページ位置を表す。 4.16. lb 原本での改行位置を表す。 4.17. SUW 語(短単位)を表す。 4.18. ruby 本行の右側に振られたルビを表す。 4.19. lRuby 本行の左側に振られたルビを表す。 4.20. corr 誤植を校訂したことを表す。 4.21. unclear 不鮮明ではあるが字体が推定できる文字を表す。 4.22. vMark 濁点無表記の文字を表す。 4.23. g 外字・敬意欠字等の特殊な文字を表す。 4.24. kanbun 漢文によって書かれた文章に返読・補読を行ったことを表す。 4.25.
表1 XML タグセット
タグ名 説明 詳説する節番号 magazine 雑誌1 号分を表す。 4.2(p.6~) front 雑誌中で前付けに相当する文書要素を表す。 4.3(p.7~) body 雑誌中で中心本文に相当する文書要素を表す。 4.4(p.7~) back 雑誌中で後付けに相当する文書要素を表す。 4.5(p.8~) article 記事を表す。 4.6(p.9~) titleBlock 記事と同位の文書要素で、記事とは見なせないものを表す。 4.7(p.10~) p 段落に相当する文書要素を表す。 4.8(p.10~) block 段落と同位の文書要素で、段落とは見なせないものを表す。 4.9(p.11~) figureBlock 図表の存在を表す。 4.10(p.12~) rejectedBlock 非日本語(外国語・漢文)からなる段落の存在を表す。 4.11(p.12~) warigaki 割書されている文字列を表す。 4.12(p.13~) quotation 上位要素とは発話者や発話場面の異なる文書要素が引用され ている部分を表す。 4.13(p.13~) superS 引用や割書を含むため、複数のs 要素からなると見なされる 文を表す。 4.14(p.14~) s 文を表す。 4.15(p.15~) odoriji 踊り字で表記されている箇所を表す。 4.16(p.16~) span 特にマークアップする必要のある文中の文字列を表す。 4.17(p.17~) pb 原本での改ページ位置を表す。 4.18(p.18~) cb 原本での改段位置を表す。 4.19(p.18~) lb 原本での改行位置を表す。 4.20(p.19~) br 論理改行を表す。 4.21(p.19~) SUW 語(短単位)を表す。 4.22(p.19~) ruby 本行の右側に振られているルビを表す。 4.23(p.21~) lRuby 本行の左側に振られているルビを表す。 4.24(p.22~) corr 原文の文字に修正を施し、異なる文字としたものを表す 4.25(p.23~) unclear 不鮮明ではあるが字体が推定できる文字を表す。 4.26(p.25~) vMark 濁音を表記するにもかかわらず、原文では濁点のない仮名が 使われていることを表す。 4.27(p.25~) g 外字・敬意欠字を表す。 4.28(p.26~)