block (コーパス)

p 要素, block 要素 (コーパス)

[1] コーパスのタグセット各種のいくつかの要素には p 要素, block 要素があります。

[2] p 要素段落を表します。 原則として論理改行を段落末としますが、 箇条書きなどそれが相応しくないときは人手により判定します。 >>29 #page=7, >>32 #page=13

[3] block 要素段落と同位で、 段落とは認められないものを表します。 具体的には雑誌タイトル、 欄タイトル、 記事タイトル、 記事著者表示、 記事小見出しなどが該当します。 >>29 #page=7, >>32 #page=13

[4] pHTML と同名で、 HTML (あるいは他の SGML応用) の慣習に由来する要素名かもしれませんが、その意味は必ずしも同じとはいえません。

[5] HTML5 以来の定義ではコーパスpblock で表されるものが HTML段落に当たると考えられます。 HTML5 以来の定義による pコーパスp とかなり近い意味を持つようにも思われます。


[6] rejectedBlock 要素漢文外国語のような非日本語段落の存在を表します。 >>32 #page=15

[7] この要素空要素ですが、これはコーパスの設計上原文にあってもデータに含めないことにして、 その位置だけを記述したものだからです。要素名の rejected もそのような意味なのでしょう。

[8] 漢文外国語でも実際にデータ化されているものは pblock で記述でき、 style="" でその種別を明示できます。

[9] rejectedBlock には必須type 属性があって、

を表します。 >>32 #page=15

[12] style="" とはなぜか属性値が違うので要注意です。