datatok

datatok

データ字句化器 (DATATOK) グローブ / グローブ構築処理 (SGML)

[1] データ字句化器 (Data tokenizer) (DATATOK) グローブ構築処理は、 下位「一致字句模型」を持つ字句模型グローブ中のデータに適用して、 datatok グローブを生成します。

仕様書: ISO/IEC 10744:1997 A.4.4.2 Data tokenizer (DATATOK) grove construction <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2>

[2]

段階Datatok グローブ構築処理例 (catsrc=☆)
1aグローブ根 tokroot を作成
1bグローブ根の特性 source は原始グローブのもとのの並び
2原始節それぞれのデータから文字列の並びを作成('Oregon' ' ' 'river otters' ' are cute')
3原始連結分離子 (catsrc) が指定されていればそれで連結して1文字列に('Oregon☆ ☆river otters☆ are cute')
4並び中のそれぞれの文字列に字句模型を適用
4a字句模型中の一致字句模型を満足する部分文字列の並びを作成(('Oregon') () ('river' 'otters') ('are' 'cute'))(('Oregon☆' '☆river' 'otters☆' 'are' 'cute'))
4b各部分文字列は字句模型の応用の間中辞書式順序再順序付けされ続ける
5字句連結分離子 (cattoken) が指定されていれば部分並びはそれで連結して1文字列に
6文字列の並びの並びを展開して、文字列の1つの並びに('Oregon' 'river' 'otters' 'are' 'cute')('Oregon☆' '☆river' 'otters☆' 'are' 'cute')
7結果連結分離子 (catres) が指定されていればそれで連結して1文字列に
8a並び中の文字列に対応する tokenstr 節の並びを作成
8btokenstr の特性 string の値は対応する文字列({string: 'Oregon'} {string: 'river'} {string: 'otters'} {string: 'are'} {string: 'cute'})({string: 'Oregon☆'} {string: '☆river'} {string: 'otters☆'} {string: 'are'} {string: 'cute'})
8ctokenstr の特性 source の値は一部または全部が文字列に対応する原始グローブの節
9グローブ根の特性 strings の値を tokenstr 並びに

例には、仕様書にある <state>Oregon</state> <animal>river otters</animal> are cute を使いました。

[4] catsrc 以外の cat* も、適用される場所が違うだけで似たような結果が得られます。仕様書には例があるので、そちらを参照してください。

datatok 特性集合 (SGML)

[3]

仕様書
ISO/IEC 10744:1997 A.4.4.2.1 Data tokenizer property set <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.1>
グローブ構築仕様文書 (gcsd) 記法公開識別子
ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN
規格参照具象構文名応用名完全名説明
tokroottokenized root (字句化根) 結果グローブ根
tokenstrtokenized string (字句化文字列) 一つ以上の字句の文字列

datatok 記法形式 (SGML)

[5] Datatok グローブ構築処理は、 データ字句化器 (data tokenizer) (構築処理 (construction process) ) (datatok) 記法形式から派生したデータ内容記法により宣言します。

仕様書: ISO/IEC 10744:1997 A.4.4.2.2 Data tokenizer notation form <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.2>

[6] Datatok 処理が使用する字句模型は、

[7]

公開識別子
ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN
属性
名前宣言型既定値説明
%altrepsGenArc より
%includedGenArc より
%superdcnGenArc より
%bosdattbase より
%egrvplanlocs より
boundarysodeod | sodiec | isceod | isciec | inmodelisciec打撃境界制約
catsrcCDATA(なし)原始連結分離子
cattokenCDATA(なし)字句連結分離子
catresCDATA(なし)結果連結分離子
maxtokszNUMBER(システム定義)最大字句寸法

メモ