JavaScriptにおける文字コード

Webにおける文字コード

[2] Web ではいろいろな文字コードが使われています。

Web と文字コードの現在

[1] Web文字コード
[6] Web文字コードの関連記事

なかったことにされている Web 草創期の文字コード

[3] 現在のWebブラウザーが対応していない文字コード規格も過去には各種いろいろ使われていました。

[4] 今でも、古くから残っているウェブサイトInternet Archive でたまに見かけるのですが、残念ながら通常の Webブラウザーでは文字化けにしか見えません。

[5] Encoding Standard にないWeb文字コード

[11] 20世紀末から21世紀初頭に作られた膨大な人類の遺産が切り捨てられている現状は実に嘆かわしいものです。

[12] Internet Archive にしか残っていないようなものはさすがに仕方がないとしても、 まだ現役の普通のウェブサイトにあるページすら読めないものが出てきているのは、 本当に困ったものです。

[10] 関連: 読めなくなったファイル

Web の日本語化

[17] Dan Connolly の過去ファイルアーカイブ ( HTMLの仕様書 ) にある MarkUp.html,v によるとかつて info.cern.ch にあった HTMLの仕様書には時点で

<H2>For developers</H2>
<DL>

<DT><A
NAME="z40" HREF="http://www.ntt.jp/japan/note-on-JP/encoding.html">Japanese encoding</A>
<DD> How Japanese characters
have been encoded within HTML

NTT ウェブサイトへの参照があったようです。

[19] このリンクがいつまで残っていたのかわかりません。

[20] JPドメインの再編で URL が変わってからもしばらくは参照先の頁は残っていたようで、 >>18時点の参照が、 >>14時点の複製があります。

Web の多言語化、初期の試み

[40] Sample Pages for Various Character Sets, , https://web.archive.org/web/20060512035632/http://vancouver-webpages.com/multilingual/

[41] Une indigestion de jeux de caractères, , https://web.archive.org/web/19970502020520/http://www.ics.uci.edu/pub/ietf/html/multilingual.html

文字コードの混在

[42] i-DNS.net Main Page, , https://web.archive.org/web/20010201060300/http://i-dns.net/

[43] >>42Big5, GB 2312, Shift_JIS, EUC-KR, Windows-1256 が混在した文書です(!)。

[44] document.charset も参照。

[45] 現在の WindowsFirefoxChrome では Windows-1252 と誤認されてしまいます。 文字コード選択メニューもないので文字化けの解消方法がありません。 Firefox の修復機能も有効になりません。


[46] ISO-2022-JPシフトJISの混在については ISO-2022-JP 参照。

[47] ASCII7ビット符号の混在についてはフォント依存符号化参照。

メモ

[31] Charsets in Microsoft Internet Explorer 4, , https://www.w3.org/International/ms-charset.html

[21] Re: proposed registration of type 'text/html' for MIME, , https://lists.w3.org/Archives/Public/www-talk/1992NovDec/0035.html

[22] >>21 この時点で TimBLHTML は7ビットデータにしたがっていた。

[26] >>24 >>25 リンク先は残念ながら未所蔵。

[28] Internationalized HTTP?, https://groups.google.com/g/comp.infosystems.www/c/htw5XLv4Hj0/m/wPr5IAol_EIJ

[23] What is standard for cyrllic HTML ? Hebrew ? Arabic ?, https://groups.google.com/g/comp.infosystems.www.providers/c/lBJKtyujAk4/m/yRxsWMDGpZUJ

[27] WWW and cyrillic, https://groups.google.com/g/relcom.tcpip/c/dUBIIAE-MnM/m/i_YJic8dqjUJ

[8] >>7 JavaScript MIME型文字コード処理 (実装された例があるかは疑わしい)

[30] 詳しい条件は不明ながら、 Chrome はメモリー不足だと文書中から読み込むファイル (CSS など) の文字コード判定に失敗して Windows-1252 として読み込んじゃう(ことがある)っぽいなあ。

[32] compact_enc_det/util/encodings/encodings.cc at master · google/compact_enc_det · GitHub, https://github.com/google/compact_enc_det/blob/master/util/encodings/encodings.cc

[33] Usage Statistics and Market Share of Character Encodings for Websites, June 2025, https://w3techs.com/technologies/overview/character_encoding

[34] >>33 現在表示されているデータでは

UTF-8 is used by 98.7% of all the websites whose character encoding we know.

となっている。

[35] >>34 の通り UTF-8 が今や圧倒的に多いのだろうが、古くから残る頁はこうした統計の対象になりにくいことが多いので漏れてしまう。 また、少ないデータは精度が落ちる。

[36] EUC-JP が 0.1%、 Shift JIS が 0.1% 未満となっていて EUC-JP の方が優勢になっているが、 にわかに信じがたい。 Shift JIS の頁を見ると、 まで 0.25% と 0.3% の間だったのがには0.05%と急激に落ちているが、その前後はほとんど横ばい。 こういう結果が出ているということは、どこか特定のサイトが UTF-8 に一括変更したか、 調査対象から外れたことが疑われる。

[38] >>36 WIndows-31J も同じ時期に 0.0008% から 0.0002% に減少しているのはなんか怪しい。

[37] また、割合が少ない文字コードを使っているドメインを見ると銀行なんかが入っていたりする。 割合が少ないからといって重要なサイト、よく見られるであろうサイトが入っていないということではない。 保守的で大規模なシステムを抱えているところが古い文字コードのままというのはよくあること。

[39] >>34 では ansi_x3.110-1983 なるものまで上位として挙げられている。 これは誤りと考えられるもの ( ansi_x3.110-1983 )。 いくら広く普及している誤りといっても、さすがにそんなものが他の諸言語の旧来文字コードに比類するようなレベルに至っているとは考えにくい。 それだけ収集範囲が偏っているとみるべき。