[1] 幽霊文字コード名は、 文字符号化の名称として説明されることがあるものの、 実際には利用も実装も確認できないものです。
1
付き[2]
HZ-GB-23121
,
X-ISO-10646-UCS-4-21431
,
X-ISO-10646-UCS-4-34121
は、
HZ-GB-2312
,
X-ISO-10646-UCS-4-2143
,
X-ISO-10646-UCS-4-3412
が低品質なソフトウェアのドキュメントにおいて雑にコピペされて生じた架空の文字コードの呼称です。
[4] 発生源となった (がそれ自体には罪はない) のは、 juniversalchardet というソフトウェアのドキュメントです。
- Chinese
- HZ-GB-23121
- Unicode
- UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431
1 Currently not supported by Java
[6]
すなわちこれら3つの文字符号化の名前の直後に脚注を表す「1」がありました。
HTML の sup
要素で記述されていました。
[7]
juniversalchardet
は直接または間接に多くのソフトウェアの派生源となりました。
- Improved character set detection
Gerrit now uses the Mozilla character set detection algorithm when trying to determine what charset was used to write a text file. For UTF-8 or ISO-8859-1/ASCII users, there should be no difference over prior releases. With this change, the server can now also automatically recognize source files encoded in:
- a. Chinese (ISO-2022-CN, BIG5, EUC-TW, GB18030, HZ-GB-23121)
- g.Unicode (UTF-8, UTF-16BE / UTF-16LE, UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431)
UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431
HZ-GB-2312
UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431
HZ-GB-2312
UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431
HZ-GB-2312
Encodings with BOM:
utf-7
,utf-8
,utf-16be
/utf-16le
,utf-32be
/utf-32le
,X-ISO-10646-UCS-4-34121
/X-ISO-10646-UCS-4-21431
,gb18030
.
Chinese iso-2022-cn
,big5
,euc-tw
,gb18030
,hz-gb-2312
Remarks: For some aliases of encoding not available:
cp949
,iso-2022-cn
,euc-tw
,iso-8859-10
,iso-8859-16
,viscii
,X-ISO-10646-UCS-4-34121
/X-ISO-10646-UCS-4-21431
.
HZ‐GB‐23121
UTF‐8, UTF‐16BE/16LE, UTF‐32BE/32LE/
X‐ISO‐10646‐UCS‐4‐34121/4‐21431
[14] これら現在までに確認されている用例は、いずれもドキュメントにのみ出現するのであって、 実際のコードでは正しい名称が使われています。