<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="1" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[1]</anchor-end> <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">コーパスのタグセット</anchor>各種のいくつかの<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>には
<dfn><code>p</code></dfn>
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>,
<dfn><code>block</code></dfn>
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>があります。</p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="2" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[2]</anchor-end> 
<code>p</code>
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>は<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">段落</anchor>を表します。
原則として<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">論理改行</anchor>を段落末としますが、
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">箇条書き</anchor>などそれが相応しくないときは人手により判定します。
<src xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:"><anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="29" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;29</anchor-internal> #page=7, <anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="32" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;32</anchor-internal> #page=13</src></p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="3" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[3]</anchor-end> 
<code>block</code>
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>は<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">段落</anchor>と同位で、
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">段落</anchor>とは認められないものを表します。
具体的には雑誌タイトル、
欄タイトル、
記事タイトル、
記事著者表示、
記事小見出しなどが該当します。
<src xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:"><anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="29" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;29</anchor-internal> #page=7, <anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="32" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;32</anchor-internal> #page=13</src></p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="4" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[4]</anchor-end> 
<code>p</code> は <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">HTML</anchor> と同名で、 <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">HTML</anchor> (あるいは他の <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">SGML応用</anchor>) 
の慣習に由来する<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素名</anchor>かもしれませんが、その<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">意味</anchor>は必ずしも同じとはいえません。</p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="5" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[5]</anchor-end> 
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">HTML5</anchor> 以来の定義では<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">コーパス</anchor>の <code>p</code> や <code>block</code>
で表されるものが <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">HTML</anchor> の<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">段落</anchor>に当たると考えられます。
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">HTML5</anchor> 以来の定義による <code>p</code> は<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">コーパス</anchor>の <code>p</code>
とかなり近い意味を持つようにも思われます。</p><hr></hr><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="6" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[6]</anchor-end> 
<code>rejectedBlock</code> <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>は<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">漢文</anchor>や<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">外国語</anchor>のような非<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">日本語</anchor>の<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">段落</anchor>の存在を表します。
<src xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:"><anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="32" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;32</anchor-internal> #page=15</src></p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="7" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[7]</anchor-end> 
この<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素</anchor>は<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">空要素</anchor>ですが、これは<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">コーパス</anchor>の設計上原文にあってもデータに含めないことにして、
その位置だけを記述したものだからです。<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">要素名</anchor>の rejected もそのような意味なのでしょう。</p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="8" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[8]</anchor-end> 
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">漢文</anchor>や<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">外国語</anchor>でも実際にデータ化されているものは
<code>p</code> や <code>block</code> で記述でき、
<code>style=&quot;&quot;<title xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:">style (コーパス)</title></code>
でその種別を明示できます。</p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="9" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[9]</anchor-end> 
<code>rejectedBlock</code> には<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">必須</anchor>の
<dfn><code>type</code></dfn>
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">属性</anchor>があって、</p><ul><li><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="10" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[10]</anchor-end> <dfn><code>kanbun</code></dfn>: <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">漢文</anchor></li><li><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="11" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[11]</anchor-end> <dfn><code>foreign</code></dfn>: <anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">外国語</anchor></li></ul><p>を表します。
<src xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:"><anchor-internal xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="32" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">&gt;&gt;32</anchor-internal> #page=15</src></p><p><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="12" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[12]</anchor-end> <code>style=&quot;&quot;<title xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:10:">style (コーパス)</title></code> とはなぜか<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">属性値</anchor>が違うので要注意です。</p><refs xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:"><ul xmlns="http://www.w3.org/1999/xhtml"><li><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="29" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[29]</anchor-end> <cite><sw-l xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">『明六雑誌コーパス』の仕様</sw-l></cite>,
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">近藤明日子</anchor>,
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">田中牧郎</anchor>,
<time>2023-11-26T08:07:49.000Z</time> <anchor-external xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:resScheme="URI" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:resParameter="https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf">https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf</anchor-external></li><li><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="31" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[31]</anchor-end> <cite xml:lang="ja">国立国語研究所学術情報リポジトリ</cite>, <time>2023-11-26T08:12:17.000Z</time> <anchor-external xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:resScheme="URI" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:resParameter="https://repository.ninjal.ac.jp/records/3302">https://repository.ninjal.ac.jp/records/3302</anchor-external><ul><li><anchor-end xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:anchor="32" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:">[32]</anchor-end> 
<cite><sw-l xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:">『国民之友コーパス』解説書<sw-br></sw-br>第1.1 版</sw-l></cite>,
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:"><sw-l>近藤明日子</sw-l></anchor>,
<anchor xmlns="urn:x-suika-fam-cx:markup:suikawiki:0:9:"><sw-l>2014</sw-l></anchor>,
<code>kokumin_manual_v1_1.pdf</code></li></ul></li></ul></refs></body></html>