prescan a byte stream to determine its encoding

HTML における文字コード

仕様書

概念

文書に対する要件

Webにおける文字コードも参照。

[6] 現在の HTML Standard は、文書の文字符号化UTF-8 としなければならないと定めています。 >>5

[7] 文書とだけしか限定がないので、 HTML文書にも XHTML文書にも適用されます。

[8] Encoding Standard によると、 その符号化ラベルutf-8 (ASCII大文字・小文字不区別]) としなければなりません>>5

[9] 著述工具は、新しく作成する文書の文字符号化の既定値を UTF-8 としなければなりません>>5

[10] かつての HTML5 は、 UTF-8 を使うべきとし、 いくつかの文字符号化は使うべきではないとしつつ、 それ以外の文字符号化を使うことを認めていました。

[11] それ以前の HTML の仕様では任意の文字符号化の利用が認められていました。

charset 引数

[21] charset 引数は、 sniffed MIME type ではなく、 元々の MIME型の指定から得ます >>20

prescan / <meta charset>

歴史

テストケース

[31] HTML documents misinterpreted by charset sniffer

歴史

[33] Welcome to Netscape Navigator 3.0, , https://web.archive.org/web/20020630200918/http://wp.netscape.com/eng/mozilla/3.0/relnotes/windows-3.0.html#International

実装

[16] テストケース (>>15) によると ()、

関連

[13] Encoding Standard, 参照処理モデル, XMLにおける文字コード, MIME charset も参照してください。

メモ

[25] Update integration with Encoding Standard · whatwg/html@6a31c26 ( 版) https://github.com/whatwg/html/commit/6a31c26cf12e39dab1a488e75dd56c03d6786d39

[26] Regression: do not use "get an output encoding" for decoding · whatwg/html@c36f738 ( 版) https://github.com/whatwg/html/commit/c36f7384f1f617b13c68d28b89d850cb18ceadfb

[30] Require UTF-8 (sideshowbarker著, ) https://github.com/whatwg/html/commit/fae77e3c558b9f083dfb9086752863a4789268f5

[32] Give browsing context an explicit container (annevk, , ) https://github.com/whatwg/html/commit/7b4964ad0a953b05738afc66600fa47a4dc8045d