compatibility characters

compatibility characters

互換性文字

[35] 互換性文字 (compatibility character) は、既存の規格との互換性のために追加された、 本来の Unicode の処理モデルとは矛盾する文字のことをいいます。

仕様書

定義

[37] 互換性文字Unicode 以外の規格との相互運用性のために追加された文字です >>34

[36] 互換性文字にはアラビア文字の表現形、縦書き用の字形、丸付き文字などが含まれます >>34

[38] ただし互換性文字の具体的なリストはありません >>34

[39] そんなんでいいのか・・・。

[40] 互換性文字非推奨というわけではありません >>34。必要があれば適宜使って良いようです。

[6] combining half marks

ISO/IEC 10646 における定義

[4] ISO/IEC 10646 の定義

互換用文字 (compatibility character)
主として既存の符号化文字集合との互換のため、 この規格群に符号化文字として含めた図形文字。 (JIS X 0221‐1:2001 4.13, ISO/IEC 10646:2003 WD 4.13)

同22章「Compatibility Character」には互換文字がどの辺にあるのかは書かれていますが、具体的な文字の集合は規格のどこにも示されていません。

  • BMP では、互換文字の多くは F9, FA, FE, FF, 31, 33 に割当てられている。
    • しかし他の位置にも割当てられている。
  • SIP では、区 F8FA に割当てられている。
  • CJK COMPATIBILITY IDEOGRAPHS-2001 (ISO/IEC 10646‐2:2001 までに ISO/IEC 10646 に収録された CJK 互換漢字。詳しくは規格を見て欲しいが、 CJK COMPATIBILITY IDEOGRAPHS block の全ての文字が含まれるわけではない。) にある文字は本来 CJK統合漢字と統合すべきだった。
    • これらの文字は種々の理由で収録された。
    • そんなわけで互換漢字は既存規格との往復変換の時以外では非推奨。

なにげに、途中で CJK 互換漢字の話に摩り替えられています。

[10]

この規格群には互換用文字が含まれているが、これは、 既存の符号化文字集合との互換性を保ち、 情報を失うことなく双方向の符号変換を可能にすることを目的としている。

BMP では、これらの文字の多くは、区 F9, FA, FE 及び FF 内並びに区 31 及び 33 内の符号位置に割り当てている。 互換用文字の幾つかは、他の区の中にも割り当てている。 (JIS X 0221‐1:2001 22. 互換用文字)

[5] ちなみに、 JIS にも「互換用文字」 とかいう同じような語があります。

[9] >>5 JIS X 0221 を見ると、 compatibility character の JIS での訳語が互換用文字らしいです。

関連

[43] 互換性異体字互換性文字部分集合です >>34

[44] 互換性分解可能文字互換性文字と共通する部分が多いですが、互いに異なる集合です >>34

[42] XML では互換性文字の使用は勧められない (discouraged) とされています。 XMLにおける文字の項も参照してください。

互換文字

[1] 互換分解を持つ文字。 Compatible character。

・・・と Unicode 3.0 3.6 D21 に書いてあります。

[2] 要は、 Unicode に入れてしまったけど他の文字の組合せで表現できる (と Unicoder の主張する) ごみのことです。

[3] 互換分解を持つ文字であって正規分解を持つ文字ではないので注意しましょう。 例えば、 Unicode の定義では CJK互換漢字は互換文字ではありません。

互換漢字

[7] CJK互換漢字のうちのいくつかは、 CJK互換漢字ブロックに所属し、 文字の名前CJK互換漢字と入っているにも関わらず、 CJK統合漢字に属するものという扱いになっています。

[11] それ以外の CJK互換漢字の多くは、 Unicode の基準では他の対応する CJK統合漢字と区別されない扱いになっていますが、 世間では異体字として区別されて使われています。 ここでは世間の意識と Unicode とのずれが 「互換性」 という言葉に押し込まれています。

メモ

[8] Unicode Standard にも注意書きがありますが、 Unicode における「互換性文字」と 正規化における「互換文字」は別の概念です。明確な説明なしで使うのには危険な語であります。

[45] Character Model for the World Wide Web 1.0: Fundamentals ( ( 版)) http://www.w3.org/TR/charmod/#sec-Compatibility