datatok

データ字句化器 (DATATOK) グローブ / グローブ構築処理 (SGML)

[1] データ字句化器 (Data tokenizer) (DATATOK) グローブ構築処理は、下位「一致字句模型」を持つ字句模型をグローブ中のデータに適用して、 datatok グローブを生成します。

仕様書: ISO/IEC 10744:1997 A.4.4.2 Data tokenizer (DATATOK) grove construction <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2>

[2]

段階	Datatok グローブ構築処理	例	例 (`catsrc`=☆)
1a	グローブ根 `tokroot` を作成
1b	グローブ根の特性 `source` は原始グローブのもとの節の並び
2	原始節それぞれのデータから文字列の並びを作成	('Oregon' ' ' 'river otters' ' are cute')
3	原始連結分離子 (`catsrc`) が指定されていればそれで連結して1文字列に	〃	('Oregon☆ ☆river otters☆ are cute')
4	並び中のそれぞれの文字列に字句模型を適用
4a	字句模型中の一致字句模型を満足する部分文字列の並びを作成	(('Oregon') () ('river' 'otters') ('are' 'cute'))	(('Oregon☆' '☆river' 'otters☆' 'are' 'cute'))
4b	各部分文字列は字句模型の応用の間中辞書式順序再順序付けされ続ける
5	字句連結分離子 (`cattoken`) が指定されていれば部分並びはそれで連結して1文字列に	〃	〃
6	文字列の並びの並びを展開して、文字列の1つの並びに	('Oregon' 'river' 'otters' 'are' 'cute')	('Oregon☆' '☆river' 'otters☆' 'are' 'cute')
7	結果連結分離子 (`catres`) が指定されていればそれで連結して1文字列に	〃	〃
8a	並び中の文字列に対応する `tokenstr` 節の並びを作成
8b	各 `tokenstr` の特性 `string` の値は対応する文字列	({string: 'Oregon'} {string: 'river'} {string: 'otters'} {string: 'are'} {string: 'cute'})	({string: 'Oregon☆'} {string: '☆river'} {string: 'otters☆'} {string: 'are'} {string: 'cute'})
8c	各 `tokenstr` の特性 `source` の値は一部または全部が文字列に対応する原始グローブの節
9	グローブ根の特性 `strings` の値を `tokenstr` 並びに

例には、仕様書にある <state>Oregon</state> <animal>river otters</animal> are cute を使いました。

[4] catsrc 以外の cat* も、適用される場所が違うだけで似たような結果が得られます。仕様書には例があるので、そちらを参照してください。

datatok 特性集合 (SGML)

[3]

仕様書

ISO/IEC 10744:1997 A.4.4.2.1 Data tokenizer property set <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.1>

グローブ構築仕様文書 (gcsd) 記法公開識別子

ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN

級

規格参照具象構文名	応用名	完全名	説明
`tokroot`	`tokenized root` (字句化根)		結果グローブ根
`tokenstr`	`tokenized string` (字句化文字列)		一つ以上の字句の文字列

datatok 記法形式 (SGML)

[5] Datatok グローブ構築処理は、データ字句化器 (data tokenizer) (構築処理 (construction process) ) (datatok) 記法形式から派生したデータ内容記法により宣言します。

仕様書: ISO/IEC 10744:1997 A.4.4.2.2 Data tokenizer notation form <http://www.y12.doe.gov/sgml/wg8/docs/n1920/html/clause-A.4.4.html#clause-A.4.4.2.2>

[6] Datatok 処理が使用する字句模型は、

Datatok 処理に内在のもの (自然言語の字句解析処理など) でも構いません
Datatok 処理と一緒に規定した記法で別途データとして指定しても構いません
Datatok 記法に適合する要素の内容として指定します
NotNames を使えば属性値として指定できます

[7]

公開識別子

ISO/IEC 10744:1997//NOTATION Data Tokenizer Grove Construction Process//EN

属性

名前	宣言型	既定値	説明
%`altreps`			`GenArc` より
%`included`			`GenArc` より
%`superdcn`			`GenArc` より
%`bosdatt`			`base` より
%`egrvplan`			`locs` より
`boundary`	`sodeod \| sodiec \| isceod \| isciec \| inmodel`	`isciec`	打撃境界制約
`catsrc`	`CDATA`	(なし)	原始連結分離子
`cattoken`	`CDATA`	(なし)	字句連結分離子
`catres`	`CDATA`	(なし)	結果連結分離子
`maxtoksz`	`NUMBER`	(システム定義)	最大字句寸法

datatok

データ字句化器 (DATATOK) グローブ / グローブ構築処理 (SGML)

datatok 特性集合 (SGML)

datatok 記法形式 (SGML)

メモ