[1] コーパスのタグセット各種のいくつかの要素には
p
要素,
block
要素があります。
[2]
p
要素は段落を表します。
原則として論理改行を段落末としますが、
箇条書きなどそれが相応しくないときは人手により判定します。
>>29 #page=7, >>32 #page=13
[3]
block
要素は段落と同位で、
段落とは認められないものを表します。
具体的には雑誌タイトル、
欄タイトル、
記事タイトル、
記事著者表示、
記事小見出しなどが該当します。
>>29 #page=7, >>32 #page=13
[4]
p
は HTML と同名で、 HTML (あるいは他の SGML応用)
の慣習に由来する要素名かもしれませんが、その意味は必ずしも同じとはいえません。
[5]
HTML5 以来の定義ではコーパスの p
や block
で表されるものが HTML の段落に当たると考えられます。
HTML5 以来の定義による p
はコーパスの p
とかなり近い意味を持つようにも思われます。
[6]
rejectedBlock
要素は漢文や外国語のような非日本語の段落の存在を表します。
>>32 #page=15
[7] この要素は空要素ですが、これはコーパスの設計上原文にあってもデータに含めないことにして、 その位置だけを記述したものだからです。要素名の rejected もそのような意味なのでしょう。
[8]
漢文や外国語でも実際にデータ化されているものは
p
や block
で記述でき、
style=""
でその種別を明示できます。
[9]
rejectedBlock
には必須の
type
属性があって、
を表します。 >>32 #page=15