UTF-32

UTF-32 (文字コード)

[13] UTF-32 は、 Unicode 文字コードの一種でした。

符号化方式

[14] UTF-32 は、 Unicode符号位置8ビットバイト (オクテット) 4つの列として表し、その連続によって文字列を表す符号化方式でした。

[17] Unicode符号位置は21ビットの整数で表すことができますが、 それを32ビットの整数とし、4バイトとします。

[15] 文字列の先頭には、 BOM を置くことができました。

[16] 1つの符号位置を表す4つのオクテットの順序は、 実装依存です。 一般的に使われたのは最上位バイトから最下位バイトの順に並べる大エンディアン (UTF-32BE) と最下位バイトから最上位バイトの順に並べる小エンディアン (UTF-32LE) でしたが、ごく稀にそれ以外の順序もありました。

UTF-32S

[2] UTF-8 に対する CESU-8 のようにサロゲートをそのまま UCS-2 風に解釈して UTF-32 に変換したものは UTF-32S と呼ばれることがあります。

他の符号化方式との関係

UCS-4 との関係

[6] ISO/IEC 10646 で規定される UCS-4 は31ビット平面を32ビット固定長で符号化するもので、 0000 (BMP)〜0010までに割り当てられた文字符号化UTF-32 と一致します。 UCS-4 ではその他の符号化できますが、 UTF-32 (というより Unicode) では U+10FFFF より先が存在しません。

他の Unicode 符号化方式との関係

[5] UTF-32符号化可能な範囲は、 Unicode によって規定される UTF-16UTF-8 と同じです。

応用層との関係

HTML における対応

[3] HTML5 仕様案では一時文書文字符号化探知算法などで UTF-32 に対応していましたが、実際に UTF-32 は用いられていないことから、 該当部分の規定は削除されています。

[4] また、現在の HTML5 仕様案では文書UTF-32 を使用することを禁じると共に、 利用者エージェントUTF-32 に対応することも禁じています。

[7] IRC logs: freenode / #whatwg / 20111206 ( ( 版)) <http://krijnhoetmer.nl/irc-logs/whatwg/20111206>

[8] IRC logs: freenode / #whatwg / 20121210 ( ( 版)) <http://krijnhoetmer.nl/irc-logs/whatwg/20121210>

XML における対応

[10] XML MIME実体では UTF-32 を使うべきではない >>9 とされています。

XMLにおける文字コードの項も参照してください。

歴史

[11] Issue 417850 - chromium - Remove UTF-32* support and related tests - An open-source project to help move the web forward. - Google Project Hosting ( ( 版)) <https://code.google.com/p/chromium/issues/detail?id=417850>

[12] 604317 – Remove support for UTF-32 per HTML5 spec. ( ( 版)) <https://bugzilla.mozilla.org/show_bug.cgi?id=604317>

[1] XML parsing, state machines and UTF-32 - O'Reilly XML Blog (Michael Day 著, 版) <http://www.oreillynet.com/xml/blog/2007/03/does_anyone_use_utf32_anyone_a.html> (名無しさん 2007-03-08 12:18:35 +00:00)

[18] XLIFF Version 2.0 () <http://docs.oasis-open.org/xliff/xliff-core/v2.0/os/xliff-core-v2.0-os.html#d0e15952>