DOMString
USVString
charset
inputEncoding
xmlEncoding
document.charset
document.characterSet
TextEncoder
TextDecoder
\u
unicode-range
[3] 現在のWebブラウザーが対応していない文字コード規格も過去には各種いろいろ使われていました。
[4] 今でも、古くから残っているウェブサイトや Internet Archive でたまに見かけるのですが、残念ながら通常の Webブラウザーでは文字化けにしか見えません。
[11] 20世紀末から21世紀初頭に作られた膨大な人類の遺産が切り捨てられている現状は実に嘆かわしいものです。
[12] Internet Archive にしか残っていないようなものはさすがに仕方がないとしても、 まだ現役の普通のウェブサイトにあるページすら読めないものが出てきているのは、 本当に困ったものです。
[10] 関連: 読めなくなったファイル
[17]
Dan Connolly の過去ファイルアーカイブ (MarkUp.html,v
によるとかつて info.cern.ch
にあった HTMLの仕様書には時点で
<H2>For developers</H2> <DL> <DT><A NAME="z40" HREF="http://www.ntt.jp/japan/note-on-JP/encoding.html">Japanese encoding</A> <DD> How Japanese characters have been encoded within HTML
と NTT ウェブサイトへの参照があったようです。
[19] このリンクがいつまで残っていたのかわかりません。
[20] JPドメインの再編で URL が変わってからもしばらくは参照先の頁は残っていたようで、 >>18 に時点の参照が、 >>14 に時点の複製があります。
[40] Sample Pages for Various Character Sets, , https://web.archive.org/web/20060512035632/http://vancouver-webpages.com/multilingual/
[41] Une indigestion de jeux de caractères, , https://web.archive.org/web/19970502020520/http://www.ics.uci.edu/pub/ietf/html/multilingual.html
[42] i-DNS.net Main Page, , https://web.archive.org/web/20010201060300/http://i-dns.net/
[43] >>42 は Big5, GB 2312, Shift_JIS, EUC-KR, Windows-1256 が混在した文書です(!)。
[45] 現在の Windows の Firefox と Chrome では Windows-1252 と誤認されてしまいます。 文字コード選択メニューもないので文字化けの解消方法がありません。 Firefox の修復機能も有効になりません。
[46] ISO-2022-JP とシフトJISの混在については ISO-2022-JP 参照。
[31] Charsets in Microsoft Internet Explorer 4, , https://www.w3.org/International/ms-charset.html
[21] Re: proposed registration of type 'text/html' for MIME, , https://lists.w3.org/Archives/Public/www-talk/1992NovDec/0035.html
[22] >>21 この時点で TimBL は HTML は7ビットデータにしたがっていた。
[28] Internationalized HTTP?, https://groups.google.com/g/comp.infosystems.www/c/htw5XLv4Hj0/m/wPr5IAol_EIJ
[23] What is standard for cyrllic HTML ? Hebrew ? Arabic ?, https://groups.google.com/g/comp.infosystems.www.providers/c/lBJKtyujAk4/m/yRxsWMDGpZUJ
[27] WWW and cyrillic, https://groups.google.com/g/relcom.tcpip/c/dUBIIAE-MnM/m/i_YJic8dqjUJ
[8] >>7 JavaScript MIME型の文字コード処理 (実装された例があるかは疑わしい)
[30] 詳しい条件は不明ながら、 Chrome はメモリー不足だと文書中から読み込むファイル (CSS など) の文字コード判定に失敗して Windows-1252 として読み込んじゃう(ことがある)っぽいなあ。
[32] compact_enc_det/util/encodings/encodings.cc at master · google/compact_enc_det · GitHub, https://github.com/google/compact_enc_det/blob/master/util/encodings/encodings.cc
[33] Usage Statistics and Market Share of Character Encodings for Websites, June 2025, https://w3techs.com/technologies/overview/character_encoding
UTF-8 is used by 98.7% of all the websites whose character encoding we know.
となっている。
[35] >>34 の通り UTF-8 が今や圧倒的に多いのだろうが、古くから残る頁はこうした統計の対象になりにくいことが多いので漏れてしまう。 また、少ないデータは精度が落ちる。
[36] EUC-JP が 0.1%、 Shift JIS が 0.1% 未満となっていて EUC-JP の方が優勢になっているが、 にわかに信じがたい。 Shift JIS の頁を見ると、 まで 0.25% と 0.3% の間だったのがには0.05%と急激に落ちているが、その前後はほとんど横ばい。 こういう結果が出ているということは、どこか特定のサイトが UTF-8 に一括変更したか、 調査対象から外れたことが疑われる。
[38] >>36 WIndows-31J も同じ時期に 0.0008% から 0.0002% に減少しているのはなんか怪しい。
[37] また、割合が少ない文字コードを使っているドメインを見ると銀行なんかが入っていたりする。 割合が少ないからといって重要なサイト、よく見られるであろうサイトが入っていないということではない。 保守的で大規模なシステムを抱えているところが古い文字コードのままというのはよくあること。
[39] >>34 では ansi_x3.110-1983
なるものまで上位として挙げられている。
これは誤りと考えられるもの (
document.charset
も参照。