[1] データ字句化器 (DATATOK) グローブ構築処理
は、
下位「一致字句模型」を持つ字句模型をグローブ中のデータに適用して、
datatok グローブを生成します。
仕様書: ISO/IEC 10744:1997 A.4.4.2 Data tokenizer (DATATOK) grove construction <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2>
段階 | Datatok グローブ構築処理 | 例 | 例 (catsrc =☆) |
1a | グローブ根 tokroot を作成 | ||
1b | グローブ根の特性 source は原始グローブのもとの節の並び | ||
2 | 原始節それぞれのデータから文字列の並びを作成 | ('Oregon' ' ' 'river otters' ' are cute') | |
3 | 原始連結分離子 (catsrc ) が指定されていればそれで連結して1文字列に | 〃 | ('Oregon☆ ☆river otters☆ are cute') |
4 | 並び中のそれぞれの文字列に字句模型を適用 | ||
4a | 字句模型中の一致字句模型を満足する部分文字列の並びを作成 | (('Oregon') () ('river' 'otters') ('are' 'cute')) | (('Oregon☆' '☆river' 'otters☆' 'are' 'cute')) |
4b | 各部分文字列は字句模型の応用の間中辞書式順序再順序付けされ続ける | ||
5 | 字句連結分離子 (cattoken ) が指定されていれば部分並びはそれで連結して1文字列に | 〃 | 〃 |
6 | 文字列の並びの並びを展開して、文字列の1つの並びに | ('Oregon' 'river' 'otters' 'are' 'cute') | ('Oregon☆' '☆river' 'otters☆' 'are' 'cute') |
7 | 結果連結分離子 (catres ) が指定されていればそれで連結して1文字列に | 〃 | 〃 |
8a | 並び中の文字列に対応する tokenstr 節の並びを作成 | ||
8b | 各 tokenstr の特性 string の値は対応する文字列 | ({string: 'Oregon'} {string: 'river'} {string: 'otters'} {string: 'are'} {string: 'cute'}) | ({string: 'Oregon☆'} {string: '☆river'} {string: 'otters☆'} {string: 'are'} {string: 'cute'}) |
8c | 各 tokenstr の特性 source の値は一部または全部が文字列に対応する原始グローブの節 | ||
9 | グローブ根の特性 strings の値を tokenstr 並びに |
例には、仕様書にある <state>Oregon</state> <animal>river otters</animal> are cute を使いました。
[4]
catsrc
以外の cat*
も、適用される場所が違うだけで似たような結果が得られます。仕様書には例があるので、そちらを参照してください。
gcsd
) 記法公開識別子ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN
規格参照具象構文名 | 応用名 | 完全名 | 説明 |
tokroot | tokenized root | 結果グローブ根 | |
tokenstr | tokenized string | 一つ以上の字句の文字列 |
[5] Datatok グローブ構築処理は、
データ字句化器 (構築処理) (datatok
) 記法形式から派生したデータ内容記法により宣言します。
仕様書: ISO/IEC 10744:1997 A.4.4.2.2 Data tokenizer notation form <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.2>
NotNames
を使えば属性値として指定できますISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN
名前 | 宣言型 | 既定値 | 説明 |
%altreps | GenArc より | ||
%included | GenArc より | ||
%superdcn | GenArc より | ||
%bosdatt | base より | ||
%egrvplan | locs より | ||
boundary | sodeod | sodiec | isceod | isciec | inmodel | isciec | 打撃境界制約 |
catsrc | CDATA | (なし) | 原始連結分離子 |
cattoken | CDATA | (なし) | 字句連結分離子 |
catres | CDATA | (なし) | 結果連結分離子 |
maxtoksz | NUMBER | (システム定義) | 最大字句寸法 |