回避文字

回避文字

[1]

(31) 回避文字 (番号) [shunned character (number)]
具象構文によってその構文を用いた文書の中では使用してはならないと識別された文字 (番号)。 システムが誤って制御文字として扱う可能性がある文字を対象とする。 (JIS X 4151‐1992 3.)

[2] 回避文字は、 SGML宣言内の具象構文中の回避文字番号指定によって指定します。 (JIS 12.4.2 参照。)

仕様書: JIS X 4151‐1992 12.4.2 回避文字番号指定

[3] 回避文字番号指定に文字番号が指定してあれば、 その文字が回避文字となります。 CONTROLS が指定してあれば、 システム文字集合制御文字となっている文字及び図形文字でない文字すべてが回避文字に含まれます。

[8] 鍵語 CONTROLS の意味は実装依存なので、 形骸化していて、一応は挙げてはおくものの、 制御文字の文字番号も全部一緒に並べておくことが慣例になっています。

[4] >>2-3 備考によれば、 回避文字の指定に現れた文字番号は文書を別の文字集合に変換する場合に変更する必要がない (したがって、変更しないことが望ましい。)のだそうです。 けど、文字集合変換して元の回避文字の文字番号が変換先で非回避文字の文字番号になってたらまずいと思いませんか?

[5] 回避文字は非SGML文字となるのが基本ですが、 重要なSGML文字でもあるなら非 SGML 文字ではありません。 (JIS 12.1.2 を参照。)

2つの具象構文を使う時には、両方がこの規定の対象となります。 (JIS 12.1.2 備考 2. を参照。)

[6] >>5,>>1 なんか変ですねぇ。 回避文字は使用してはいけない文字のはずなのに。 回避文字指定より重要文字指定の方が優先されるということでしょうが。

実際に規格参照具象構文では CL は回避文字になっていますが、 9 番などは機能文字なので、 非 SGML 文字にはならないそうです。 (JIS 12.1.2 備考 1. を参照。)

[9] >>5 2つの〜というのは、いずれかの具象構文で重要文字なら、 その回避文字は非 SGML 文字ではない、 という意味にとるのが適当そうです。