[1] [[コーパスのタグセット]]各種のいくつかの[[要素]]には
[DFN[[CODE[p]]]]
[[要素]],
[DFN[[CODE[block]]]]
[[要素]]があります。


[2] 
[CODE[p]]
[[要素]]は[[段落]]を表します。
原則として[[論理改行]]を段落末としますが、
[[箇条書き]]などそれが相応しくないときは人手により判定します。
[SRC[>>29 #page=7, >>32 #page=13]]

[3] 
[CODE[block]]
[[要素]]は[[段落]]と同位で、
[[段落]]とは認められないものを表します。
具体的には雑誌タイトル、
欄タイトル、
記事タイトル、
記事著者表示、
記事小見出しなどが該当します。
[SRC[>>29 #page=7, >>32 #page=13]]


[4] 
[CODE[p]] は [[HTML]] と同名で、 [[HTML]] (あるいは他の [[SGML応用]]) 
の慣習に由来する[[要素名]]かもしれませんが、その[[意味]]は必ずしも同じとはいえません。

[5] 
[[HTML5]] 以来の定義では[[コーパス]]の [CODE[p]] や [CODE[block]]
で表されるものが [[HTML]] の[[段落]]に当たると考えられます。
[[HTML5]] 以来の定義による [CODE[p]] は[[コーパス]]の [CODE[p]]
とかなり近い意味を持つようにも思われます。

-*-*-

[6] 
[CODE[rejectedBlock]] [[要素]]は[[漢文]]や[[外国語]]のような非[[日本語]]の[[段落]]の存在を表します。
[SRC[>>32 #page=15]]

[7] 
この[[要素]]は[[空要素]]ですが、これは[[コーパス]]の設計上原文にあってもデータに含めないことにして、
その位置だけを記述したものだからです。[[要素名]]の rejected もそのような意味なのでしょう。

[8] 
[[漢文]]や[[外国語]]でも実際にデータ化されているものは
[CODE[p]] や [CODE[block]] で記述でき、
[CODE[style=""][style (コーパス)]]
でその種別を明示できます。

[9] 
[CODE[rejectedBlock]] には[[必須]]の
[DFN[[CODE[type]]]]
[[属性]]があって、

- [10] [DFN[[CODE[kanbun]]]]: [[漢文]]
- [11] [DFN[[CODE[foreign]]]]: [[外国語]]

を表します。
[SRC[>>32 #page=15]]

[12] [CODE[style=""][style (コーパス)]] とはなぜか[[属性値]]が違うので要注意です。


[REFS[

- [29] [CITE[[L[『明六雑誌コーパス』の仕様]]]],
[[近藤明日子]],
[[田中牧郎]],
[TIME[2023-11-26T08:07:49.000Z]] <https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf>
- [31] [CITE@ja[国立国語研究所学術情報リポジトリ]], [TIME[2023-11-26T08:12:17.000Z]] <https://repository.ninjal.ac.jp/records/3302>
-- [32] 
[CITE[[L[『国民之友コーパス』解説書[BR[]]第1.1 版]]]],
[[[L[近藤明日子]]]],
[[[L[2014]]]],
[CODE[kokumin_manual_v1_1.pdf]]

]REFS]

