<html xmlns="http://www.w3.org/1999/xhtml" a0:Name="SuikaWiki" xmlns:a0="urn:x-suika-fam-cx:markup:suikawiki:0:9:" a0:Version="0.9"><head></head><body><section><h1>データ字句化器 (DATATOK) グローブ / グローブ構築処理 (SGML)</h1><p><a0:anchor-end a0:anchor="1">[1]</a0:anchor-end> <code><a0:rubyb>データ字句化器<rt>Data tokenizer</rt></a0:rubyb> (DATATOK) グローブ構築処理</code>は、
下位「<a0:anchor>一致字句模型</a0:anchor>」を持つ<a0:anchor>字句模型</a0:anchor>を<a0:anchor>グローブ</a0:anchor>中の<a0:anchor>データ</a0:anchor>に適用して、
datatok グローブを生成します。</p><p>仕様書: <a0:anchor>ISO/IEC 10744</a0:anchor>:1997 A.4.4.2 Data tokenizer (DATATOK) grove construction
<a0:anchor-external a0:resParameter="http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2" a0:resScheme="URI">http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2</a0:anchor-external></p><p><a0:anchor-end a0:anchor="2">[2]</a0:anchor-end> <table><tbody><tr><td>段階</td><td>Datatok グローブ構築処理</td><td>例</td><td>例 (<code class="SGMLa">catsrc</code>=☆)</td></tr><tr><td>1a</td><td><a0:anchor>グローブ根</a0:anchor> <code class="SGML"><a0:anchor>tokroot</a0:anchor></code> を作成</td></tr><tr><td>1b</td><td>グローブ根の<a0:anchor>特性</a0:anchor> <code class="SGML"><a0:anchor>source</a0:anchor></code> は原始グローブのもとの<a0:anchor>節</a0:anchor>の並び</td></tr><tr><td>2</td><td>原始節それぞれのデータから<a0:anchor>文字列</a0:anchor>の並びを作成</td><td colspan="2">('Oregon' ' ' 'river otters' ' are cute')</td></tr><tr><td>3</td><td>原始連結分離子 (<code class="SGMLa"><a0:anchor>catsrc</a0:anchor></code>) が指定されていればそれで連結して1文字列に</td><td>〃</td><td>('Oregon☆ ☆river otters☆ are cute')</td></tr><tr><td>4</td><td>並び中のそれぞれの文字列に字句模型を適用</td></tr><tr><td>4a</td><td>字句模型中の一致字句模型を満足する部分文字列の並びを作成</td><td>(('Oregon') () ('river' 'otters') ('are' 'cute'))</td><td>(('Oregon☆' '☆river' 'otters☆' 'are' 'cute'))</td></tr><tr><td>4b</td><td>各部分文字列は字句模型の応用の間中<a0:anchor>辞書式順序</a0:anchor>再順序付けされ続ける</td></tr><tr><td>5</td><td>字句連結分離子 (<code class="SGMLa"><a0:anchor>cattoken</a0:anchor></code>) が指定されていれば部分並びはそれで連結して1文字列に</td><td>〃</td><td>〃</td></tr><tr><td>6</td><td>文字列の並びの並びを展開して、文字列の1つの並びに</td><td>('Oregon' 'river' 'otters' 'are' 'cute')</td><td>('Oregon☆' '☆river' 'otters☆' 'are' 'cute')</td></tr><tr><td>7</td><td>結果連結分離子 (<code class="SGMLa"><a0:anchor>catres</a0:anchor></code>) が指定されていればそれで連結して1文字列に</td><td>〃</td><td>〃</td></tr><tr><td>8a</td><td>並び中の文字列に対応する <code class="SGML"><a0:anchor>tokenstr</a0:anchor></code> 節の並びを作成</td></tr><tr><td>8b</td><td>各 <code class="SGML">tokenstr</code> の特性 <code class="SGML"><a0:anchor>string</a0:anchor></code> の値は対応する文字列</td><td>({string: 'Oregon'} {string: 'river'} {string: 'otters'} {string: 'are'} {string: 'cute'})</td><td>({string: 'Oregon☆'} {string: '☆river'} {string: 'otters☆'} {string: 'are'} {string: 'cute'})</td></tr><tr><td>8c</td><td>各 <code class="SGML">tokenstr</code> の特性 <code class="SGML"><a0:anchor>source</a0:anchor></code> の値は一部または全部が文字列に対応する原始グローブの節</td></tr><tr><td>9</td><td>グローブ根の特性 <code class="SGML"><a0:anchor>strings</a0:anchor></code> の値を <code class="SGML">tokenstr</code> 並びに</td></tr></tbody></table></p><p>例には、仕様書にある 
<samp class="SGML">&lt;state&gt;Oregon&lt;/state&gt; &lt;animal&gt;river otters&lt;/animal&gt; are cute</samp>
を使いました。</p><p><a0:anchor-end a0:anchor="4">[4]</a0:anchor-end>
<code class="SGMLa">catsrc</code> 以外の <code class="SGMLa">cat<var>*</var></code> も、適用される場所が違うだけで似たような結果が得られます。仕様書には例があるので、そちらを参照してください。</p><a0:form ref="comment"></a0:form></section><section><h1>datatok 特性集合 (SGML)</h1><p><a0:anchor-end a0:anchor="3">[3]</a0:anchor-end> <dl><dt>仕様書</dt><dd><a0:anchor>ISO/IEC 10744</a0:anchor>:1997 A.4.4.2.1 Data tokenizer property set
<a0:anchor-external a0:resParameter="http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.1" a0:resScheme="URI">http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.1</a0:anchor-external></dd><dt>グローブ構築仕様文書 (<code class="SGMLa"><a0:anchor>gcsd</a0:anchor></code>) 記法公開識別子</dt><dd>
<code class="SGML">ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN</code></dd><dt><a0:anchor>級</a0:anchor></dt><dd><table><tbody><tr><td>規格参照具象構文名</td><td>応用名</td><td>完全名</td><td>説明</td></tr><tr><td><code class="SGML"><a0:anchor>tokroot</a0:anchor></code></td><td colspan="2"><a0:rubyb><code class="SGML">tokenized root</code><rt>字句化根</rt></a0:rubyb></td><td>結果グローブ根</td></tr><tr><td><code class="SGML"><a0:anchor>tokenstr</a0:anchor></code></td><td colspan="2"><a0:rubyb><code class="SGML">tokenized string</code><rt>字句化文字列</rt></a0:rubyb></td><td>一つ以上の字句の文字列</td></tr></tbody></table></dd></dl></p><a0:form ref="comment"></a0:form></section><section><h1>datatok 記法形式 (SGML)</h1><p><a0:anchor-end a0:anchor="5">[5]</a0:anchor-end> Datatok グローブ構築処理は、
<dfn><a0:rubyb>データ字句化器<rt>data tokenizer</rt></a0:rubyb> (<a0:rubyb>構築処理<rt>construction process</rt></a0:rubyb>) (<code class="SGML">datatok</code>) <a0:anchor>記法形式</a0:anchor></dfn>から<a0:anchor>派生</a0:anchor>した<a0:anchor>データ内容記法</a0:anchor>により宣言します。</p><p>仕様書: ISO/IEC 10744:1997 A.4.4.2.2 Data tokenizer notation form
<a0:anchor-external a0:resParameter="http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.2" a0:resScheme="URI">http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.2</a0:anchor-external></p><p><a0:anchor-end a0:anchor="6">[6]</a0:anchor-end> Datatok 処理が使用する<a0:anchor>字句模型</a0:anchor>は、<ul><li>Datatok 処理に内在のもの (自然言語の字句解析処理など) でも構いません</li><li>Datatok 処理と一緒に規定した記法で別途データとして指定しても構いません</li><li>Datatok 記法に適合する要素の内容として指定します</li><li><code class="SGMLa"><a0:anchor>NotNames</a0:anchor></code> を使えば属性値として指定できます</li></ul></p><p><a0:anchor-end a0:anchor="7">[7]</a0:anchor-end><dl><dt>公開識別子</dt><dd><code class="SGML">ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN</code></dd><dt>属性</dt><dd><table><tbody><tr><td>名前</td><td>宣言型</td><td>既定値</td><td>説明</td></tr><tr><td colspan="3">%<code class="SGML"><a0:anchor>altreps</a0:anchor></code></td><td><code class="SGML">GenArc</code> より</td></tr><tr><td colspan="3">%<code class="SGML"><a0:anchor>included</a0:anchor></code></td><td><code class="SGML">GenArc</code> より</td></tr><tr><td colspan="3">%<code class="SGML"><a0:anchor>superdcn</a0:anchor></code></td><td><code class="SGML">GenArc</code> より</td></tr><tr><td colspan="3">%<code class="SGML"><a0:anchor>bosdatt</a0:anchor></code></td><td><code class="SGML">base</code> より</td></tr><tr><td colspan="3">%<code class="SGML"><a0:anchor>egrvplan</a0:anchor></code></td><td><code class="SGML">locs</code> より</td></tr><tr><td><code class="SGML"><a0:anchor>boundary</a0:anchor></code></td><td><code class="SGML">sodeod | sodiec | isceod | isciec | inmodel</code></td><td><code class="SGML">isciec</code></td><td>打撃境界制約</td></tr><tr><td><code class="SGML"><a0:anchor>catsrc</a0:anchor></code></td><td><code class="SGML"><a0:anchor>CDATA</a0:anchor></code></td><td>(なし)</td><td>原始連結分離子</td></tr><tr><td><code class="SGML"><a0:anchor>cattoken</a0:anchor></code></td><td><code class="SGML">CDATA</code></td><td>(なし)</td><td>字句連結分離子</td></tr><tr><td><code class="SGML"><a0:anchor>catres</a0:anchor></code></td><td><code class="SGML">CDATA</code></td><td>(なし)</td><td>結果連結分離子</td></tr><tr><td><code class="SGML"><a0:anchor>maxtoksz</a0:anchor></code></td><td><code class="SGML"><a0:anchor>NUMBER</a0:anchor></code></td><td>(システム定義)</td><td>最大字句寸法</td></tr></tbody></table></dd></dl></p><a0:form ref="comment"></a0:form></section><section><h1>メモ</h1></section></body></html>