DOMとXML情報集合

[1] XML情報集合は DOM を含めた種々のデータモデルを元に作られましたから、 DOM木を XML情報集合に変換することができますし、XML情報集合をDOM木に変換することもできます。ただし一方から他方へと完全に (情報損失なく) 変換することができるわけではありません。

DOM3 における対応関係

[2] DOM3 はXML情報集合からDOMへ、またDOMからXML情報集合への変換方法を定義していました。

[4] HTML構文解析器の出力を XML に対応したツールに引き渡すときに、 HTML DOM を XML と互換性のある形式に変換する方法を HTML Standard は定義しています。

[5] 「情報集合」への変換とは言っていますが、XML情報集合の用語で説明されているわけではなく、具体的な表現形式には触れない曖昧な定義となっています。

[6] DOCTYPE に対応していないなら、 DOCTYPE を除去して構いません >>3。

[7] 名前空間なしの xmlns 属性、 xmlns: で始まる名前の属性、 XMLNS名前空間の属性に対応していないなら、これらを除去して構いません >>3。

[9] 要素や属性の局所名で使えない文字が含まれていれば、 Uhhhhhh (h は大文字の十六進数字) という形式の符号位置の表記に置き換えて構いません >>3。

[10] 注釈に2連続の - や末尾の - を入れられないなら、最初の - の後に U+0020 を挿入して構いません >>3。

[11] 文字データ、属性値、注釈で認められない文字があれば、 U+000C は U+0020、それ以外は U+FFFD に置き換えて構いません >>3。

[13] form要素指示子の情報を保持できないなら、除去して構いません >>3。

[14] template 要素の雛形内容を保持できないなら、除去して構いません >>3。