[47] 決定的指定
- [ TextDecoder ] 著者の指示 (certain)
- [58] [HTML, XML, テキスト文書] 利用者の指示 (certain) [ 意図的違反 ]
- [60] [HTML] 符号化の変更の結果 (certain)
BOM sniffing (certain)
[56] 上書き指定
- [57] [HTML, XML, テキスト文書] 利用者の指示 (certain) [仕様上]
- [XHR 文書応答 HTML] override charset (certain)
- [XHR テキスト応答] override charset
- [61] ([HTML] a known definite encoding (certain) - XHR 文書応答で使われる)
HTTP charset (certain)
prescan
1. [HTML] prescan (tentative)
2. [XHR 文書応答 HTML] XHR HTML prescan (certain)
3. [XML] XML prescan
4. [CSS] CSS prescan
環境符号化 (明示的)
1. [script] <script charset>
2. [CSS] <link charset>
3. [CSS] <?xml-stylesheet charset?>
環境符号化 (暗示的)
1. [HTML] 親閲覧文脈 (tentative)
2. [HTML] 履歴 (tentative)
3. [CSS] 読み込み元スタイルシートの符号化
4. [CSS, script] 文書の文字符号化
[126] [HTML, テキスト文書] 頻度解析等の手法 (tentative)
1. [127] UTF-8 の検出
2. [128] フォント依存符号化の検出
3. [130] 符号構造やバイト出現頻度などによる推定
[HTML, テキスト文書] 利用者のロケール (tentative)
UTF-8
1. [HTML, テキスト文書] (tentative)
2. [XHR 文書応答 HTML] (certain)

[94] 対象となるファイルの種別ではなく、どこで使われるかによって処理の方法が異なることに注意が必要です。同じ HTML文書でも、 navigate で開かれるときと responseXML で開かれるときとで文字コードの判定の方法が異なるのです。

[95] ソース表示 (view-source:) について規定する仕様書はありませんが、少なくても Firefox では通常の HTML文書の navigate と異なる判定を行っています。 (平文文書の navigate と HTML文書の view-source: の判定方法が同じか異なるかは不明です。) 2025-11-09T00:40:47.400Z

[89] charset sniffing に使うデータの長さについては、 >>121 や資源ヘッダーを参照。

文字コードの指定, 文字コードの判定

明示的な指定

[10] 著者や利用者が明示的に文字符号化を指定する方法はいくつかあります。どれがどの程度の重みで使われるかが少しずつ違います。

[99] 古典的な Webブラウザーは GUI に文字コード指定メニューを実装していました。 CUI ツールの多くはコマンドラインオプション等の方法で同様の機能を提供しています。 encoding sniffing algorithm とその実装は完全ではないので、こうした機能は Web互換性のために必須です。文字コード指定メニュー

a known definite encoding

[82] HTML Standard の HTML構文解析器は a known definite encoding を指定可能であり、 XHR の文書応答が HTML の場合にこれが使われます。文書応答は、 HTML構文解析器の標準の (navigate で使われる) encoding sniffing algorithm のかわりに、独自の簡略化されたアルゴリズムを使っています。

[85] XHR は先頭1024バイトから prescan することを求めており、 HTML はより広い選択肢を提供しています。
[87] XHR は UTF-8 を既定値としていますが、 HTML は文脈からの推測、 UnivCharDet やロケール依存の既定値を使います。
[88] HTML では符号化の変更が起こることがありますが、 XHR では起こりません。
[86] XHR が a known definite encoding に指定する値である final charset は符号化ラベル (かもしれないしそうでないかもしれないもの) であって符号化ではないのですが、 XHR 側でも HTML 側でもなぜかその検査もしていません。

[144] Web Applications 1.0 r8073 Provide a hook for XHR and web components to incrementally decode with a known encoding ( (2013-07-20 03:35:00 +09:00 版)) http://html5.org/tools/web-apps-tracker?from=8072&to=8073

`BOM` による判定

[96] BOM による判定は、それのみを行う復号操作 (BOM sniffing) を始め、多くの操作が採用しています。

[74] 仕様上 BOM は他の指定よりも優先されることになっています。これは Trident, WebKit, Chromium の挙動に合わせて変更されたものです。 >>70

[77] ただその根拠として示されている >>71 ページについて、現在 Internet Archive に保存されているものは、確かに HTTPヘッダーに誤った charset が指定されており、実態および <meta charset> と矛盾していますが、 BOM は見当たりません >>75。同じサイトの議論より少し前の状態 >>76 では HTTP charset がなく、議論の頃には誤った HTTP charset があり、その少し後には HTTP charset がないのですが、どの状態も BOM のない UTF-8 です。あるいは User-Agent: 等によって出し分けがなされていたのでしょうか。

[78] IE や Safari や Chrome の挙動がそうなっていたというからには、このサイト以外にもこの挙動に依存したサイトは存在していたのでしょうが...

[81] 議論は白熱していますが >>68, >>70、 XML 世界の神学的「正しさ」などに注目が集まりながら、報告者の Anne と Ian Hickson 以外誰も実サイトの状況に関心を払っていないのは、統計的手法などが成熟する前の時代なので致し方ないのかもしれませんが... 仕様書に影響する URL を記入した Ian Hickson は間違いなく当時のサイトにアクセスしているはずで、きっと報告通り BOM があると確認していると信じたいところですが、他の誰も追試報告をしていないんですよね...

[59] HTML Standard は利用者の指示よりも BOM を最優先としていますが、文字コード指定メニューは BOM の誤認を上書き出来るべきと思われます。 IE や Safari や Chrome の挙動に合わせた規定のようです >>68 が、十分に検討されずに仕様が追随しただけのようです。

HTTP/MIME `charset`

[138] encoding sniffing algorithm は転送プロトコルの文字符号化を使います。 >>104

[139] HTML Standard は抽象化して明言していませんが、 HTTP や MIME の Content-Type: ヘッダーの MIME型の charset 引数の記載がこれに該当します。

[140] 理論上は他のプロトコルの同様の指定も該当し得ますが、実例があるのかは不明です。

[141] ただし Webブラウザーの実装上は転送プロトコルや MIME型の個々の規定は尊重されず、およそ一律に Encoding Standard の符号化ラベルとみなされているようです。 charset, 文字コードの決定, x-user-defined

環境からの継承

[131] 明示的な指定がないときに呼び出し元の文字符号化の情報、すなわち環境符号化が使われることがあります。

[66] Firefox はフレーム内の文書について (他の指定がないとき) 親閲覧文脈の文字符号化を継承します。これは親と子が同じ文字コードのとき有効な推定ですが、意外な罠があって、フレーム文書は ASCII文字のみで構成されることが意外と多く、そのためにフレーム内が文字化けする事例が散見されます。 Windows-1252 は継承しないという配慮が必要なのでしょう。

[147] >>66 Chrome は同じようにフレーム文書がASCII文字だけで Windows-1252 と判定されているときでも、フレーム内は Windows-1252 と判断しないで内容で判断しているようです。妥当な挙動でしょう。

[143] Web Applications 1.0 r7544 More detail on the inheritance of encodings from parent browsing contexts. ( (2012-11-25 14:33:00 +09:00 版)) http://html5.org/tools/web-apps-tracker?from=7543&to=7544

異なる起源からの継承

[132] 限定的な状況で、異なる起源で指定された文字符号化の情報が使われます。他の起源への情報漏洩ですから、注意が必要です。

他の起源の文字符号化の情報の流出
他の起源による資源の文字符号化の指定

文字出現頻度解析等の手法

[105] HTML や平文文書の navigate のための判定の処理 (encoding sniffing algorithm) では、頻度解析等の手法 (frequency analysis or other algorithms) を適用することが認められています。 >>104

[107] HTML Standard は、ネットワークから取得した資源の符号化を自動判定しようとすることは、一般に勧められない (generally discouraged) 、なぜならば本質的に相互運用可能ではない発見的手法に拠ることになるからだ、としています。 >>104 仕様書が頻度解析等の手法を認めるだけで必須とはしていないのは、これが理由ということなのでしょう。確かに、 HTTP charset や <meta charset> の処理と違って頻度解析等の手法を標準化するのは困難で、従ってあるデータがどう解釈されるかが実装依存にならざるを得ません。

[106] しかし、現実の Web には HTTP charset も <meta charset> も指定されてない Webページが散見されるのであり、頻度解析等の手法はWeb互換性のため事実上必須の処理です。仕様書が何と言おうと、実装は頻度解析等の手法を適用する以外の選択肢を持ちません。

[108] あたかも頻度解析等の手法を実装しないことが好ましいような記述が仕様書に含まれてしまっているせいで新規の実装が却って相互運用性の低い状態に誘導されてしまうリスクがあり、不適切といえます。

[110] 頻度解析等の手法について、 HTML Standard は UNIVCHARDET を non-normative reference として提示しています。 >>104 実装方法はこれに限定されていません。

[111] IE は独自の方法を実装していました。
[112] Mozilla Suite / かつての Firefox は chardet を使っており、その後 UNIVCHARDET を使い始めました。
[113] WebKit は ICU の文字コードの判定を使っています。
[114] Chrome は Compact Encoding Detection を使っています。
[115] 現在の Firefox は chardetng を使っています。

[109] 頻度解析等の手法は、対象となるデータのバイト列の他に、文書の番地その他のメタ情報を使うことができます。 >>104 実際に Webブラウザーの文字コードの判定の実装は URL やその TLD を判定条件の1つとして使っています。

[116] 頻度解析等の手法の選択肢について具体的な限定はありません。バイトの出現頻度の他に、符号構造、 ASCII文字状バイト列の出現状態、 HTMLタグ状バイト列の出現状態、 URL、ロケール設定などを総合的に勘案できます。文字コードの判定

[63] -*- coding -*- のような Web 以外の文字コードの指定の方法文字コードの判定を頻度解析等の手法の一種として採用することも可能と考えられます。 HTML文書では効果も薄いでしょうが、テキストファイルへの navigate では有効な場合がありそうです。

[121] 頻度解析等の手法の対象範囲となる長さについては規定がありません。 <meta charset> は1024バイトが目安となっていますが資源ヘッダー、 head が大きい場合など 1024 バイトでは頻度解析等の手法にとって十分な長さでないことが多いです。

[123] 特に Internet Archive は文書の先頭付近にメニューを挿入するため、本体部分がかなり後ろの方にずれてしまいます。

UTF-8 の検知

[93] 頻度解析等の手法によって UTF-8 を判定することについては、技術的問題から離れた主義主張があるようで、いくらか混乱した状態になっています。

[100] ほとんどのプラットフォームにおいてローカルファイルの文字コードはファイルシステム等から確定的な情報を得ることが不可能ですから、 file: URL から取得したファイルの処理では頻度解析等の手法の適用が必須となります。ただ、仕様書は file: の挙動を定めておらず、各実装の処理にも差異があります。

[101] 一般論として、ファイルの全体が読める場合、それが UTF-8 かどうかは高い確度で判定できます。現代のテキストファイルの大部分が UTF-8 ですから、ローカルファイルの先頭の十分な大きさを取得し、 UTF-8 らしさが高ければ、これを UTF-8 と判定するのが良いと考えられます。大きすぎるファイルや長さが確定していない (書き込み中ないし無限の長さのストリームを扱えるプラットフォームにおける) ファイルのときは、適当な長さで打ち切る必要があります。

[102] ローカルファイルは Unicode 以前の文字コードのファイルの可能性も高く、頻度解析等の手法によって判定する必要があります。 Linux、 Mac OS X、 Cygwin 等では POSIXロケールの符号集合が使われている可能性があります (ただし現代ではこれも UTF-8 のことが多いです)。 Windows では ANSIコードページや OEMコードページが使われている可能性があります。更に、 Webブラウザーや OS の言語設定に応じた当地の文字コードの可能性があります。

[103] 例えば日本語 (言語タグ ja, POSIXロケール ja_JP) が設定されている環境では、 UTF-8 の他にシフトJISや日本語EUCや ISO-2022-JP のファイルがある可能性が少なくないので、これらを優先的に判定するのが望ましいと考えられます。

フォント依存符号化の検知

[117] 8ビット符号系のフォント依存符号化を使った Webページの多くは、 Windows-1252 として処理されることを前提としたフォントを使っています。フォント依存符号化

[118] encoding sniffing algorithm は、そうしたHTML文書を他の文字コードではなく Windows-1252 と判定する必要があります。

[119] <meta charset> として ISO-8859-1, Windows-1252, x-user-defined が指定される場合には、 Windows-1252 として処理されるので、特に問題となりません。

[120] <meta charset> にその他の値 (当該フォント依存符号化を表す Encoding Standard の符号化ラベルではない値など) が指定された場合や、 <meta charset> 等が存在しない場合には、頻度解析等の手法の対象となりますが、ここで Windows-1252 以外と判定してしまうと、文字化けになります。

[125] すべてのフォント依存符号化をバイト出現頻度によって検知することは困難なので、現実的な手法としては、 <meta charset> の prescan と同様の方法によって <font face> を検出し、フォント名が既知のフォント依存符号化のフォントであるとき、フォント依存符号化が使われているとみなしてバイト出現頻度による推定を無効化することになります。ただし、 UTF-8 の検知はそれよりも優先させるべきです。

ASCII の検知

[133] 頻度解析等の手法が ASCII文字のみを検知したときの扱いは注意が必要です。

[134] 復号だけを目的とするなら Windows-1252 や UTF-8 と検知しても問題にはなりませんが、環境符号化や文書の文字符号化という形で非ASCII文字の扱いに間接的に寄与することがあります。

[135] 実際に >>66 のような事例があります。

[136] 例えば日本語の HTML文書がたまたま短くて非ASCII文字を含まないときは、 Windows-1252 と判定するより、シフトJISと判定した方が有益な可能性があります。そのためには、 ASCII文字のみの入力に対し、頻度解析等の手法は結果を返さず、後続のロケール依存の既定値を設定する手順に進ませるのが良いと考えられます。

[137] Web 以外の用途を想定した判定器はこうした状況を考慮していないことがあるので、 encoding sniffing algorithm の実装時には判定器の選択や設定に注意が必要となります。

x-user-defined の読み替え

x-user-defined

ロケール依存の既定値

[142] 他の方法で決められないときの既定値はロケール依存とされています。文字コードの決定

事例

Webブラウザーによる文字コード判定の失敗事例集

[65] 文字コードの判定を助けるため、紛らわしい他の文字コードに出現しない文字を含める技法を使うことがあります。文字コードの判定

セキュリティー

sniffing

文字のセキュリティー

歴史

[62] Editorial: further cleanup "abort these steps" (shreyateeza著, 2018-01-09 20:22:36 +09:00) https://github.com/whatwg/html/commit/99e2cdfc484c2ff14cbf5c38b859f4d6da17e64c

[84] 1280556 – Encoding detection mismatch on http://www.idpf.org/epub/pgt/ (2016-06-25 20:58:34 +09:00) https://bugzilla.mozilla.org/show_bug.cgi?id=1280556

[122] IRC logs: freenode / #whatwg / 20150803 (2015-08-04 13:28:24 +09:00 版) http://krijnhoetmer.nl/irc-logs/whatwg/20150803

# [17:23] <hsivonen> SimonSapin: I can't recall why I implemented the late <meta> thing in the new parser
# [17:23] <hsivonen> SimonSapin: initially, I make the detectors see at most 1024 bytes so that they couldn't trigger a reload
# [17:23] <hsivonen> SimonSapin: but that broke Japanese Planet Debian
# [17:24] <hsivonen> SimonSapin: and people get really nervous if you break a Japanese site

[124] Let the Encoding standard deal with the BOM · whatwg/html@83ebb72 (2016-02-10 22:46:18 +09:00 版) https://github.com/whatwg/html/commit/83ebb728198801e2f1a32b80ec7d7a2e7dccc593

[129] >>124 の変更により、利用者の指示や XHR の指示などによる上書きよりも BOM が最優先されるようになりました。また、 BOM があると confidence が certain に設定されていたのがなくなったので、 BOM があっても他の指定が優先されたり、符号化の変更が実行されたりするようになりました (もっとも結局 BOM が最優先されるので、最終的な結果は変わりません)。

[83] >>129 この不具合はその後修正されています。

文字列からバイト列への変換

[42] 符号化は、次の場面で用いられます。

[79] 符号化が呼び出される場面

UTF-8符号化
URL構文解析器の query
application/x-www-form-urlencoded の符号化
multipart/form-data の符号化

[45] UTF-8符号化ではない符号化操作は、 UTF-8 以外の文字コードの符号化器を呼び出すことがあるものです。

[43] Webプラットフォームにおいて文字列がバイト列に変換される操作は多いですが、その大部分は UTF-8符号化を使っています。 ASCII文字のみで同型符号化を使う操作も多いです。

[44] それ以外で符号化が呼び出される場面はごくわずかですが、実行回数でいえばかなり多くなるはずです。

[46] なお TextEncoder は UTF-8 以外に対応していません。

なかったことにされている Web 草創期の文字コード

[3] 現在のWebブラウザーが対応していない文字コード規格も過去には各種いろいろ使われていました。

[4] 今でも、古くから残っているウェブサイトや Internet Archive でたまに見かけるのですが、残念ながら通常の Webブラウザーでは文字化けにしか見えません。

[5] Encoding Standard にないWebの文字コード

[97] 20世紀末から21世紀初頭に作られた膨大な人類の遺産が切り捨てられている現状は実に嘆かわしいものです。

[98] Internet Archive にしか残っていないようなものはさすがに仕方がないとしても、まだ現役の普通のウェブサイトにあるページすら読めないものが出てきているのは、本当に困ったものです。

読めなくなったファイル

歴史

Web の日本語化

[17] Dan Connolly の過去ファイルアーカイブ ( HTMLの仕様書 ) にある MarkUp.html,v によるとかつて info.cern.ch にあった HTMLの仕様書には1994-04-12時点で

<H2>For developers</H2>
<DL>

<DT><A
NAME="z40" HREF="http://www.ntt.jp/japan/note-on-JP/encoding.html">Japanese encoding</A>
<DD> How Japanese characters
have been encoded within HTML

と NTT ウェブサイトへの参照があったようです。

[19] このリンクがいつまで残っていたのかわかりません。

[20] JPドメインの再編で URL が変わってからもしばらくは参照先の頁は残っていたようで、 >>18 に平成9(1997)年時点の参照が、 >>14 に平成10(1998)年時点の複製があります。

[18] TLUG Mailing List, Jim Schweizer - webmaster TLUG, 2007-05-20T03:27:20.000Z, 2024-08-30T09:29:37.681Z https://lists.tlug.jp/ML/9711/msg00112.html

Web の多言語化、初期の試み

[40] Sample Pages for Various Character Sets, 2025-06-17T02:23:42.000Z, 2006-05-12T03:58:22.300Z https://web.archive.org/web/20060512035632/http://vancouver-webpages.com/multilingual/

[41] Une indigestion de jeux de caractères, 2025-06-20T11:52:03.000Z, 1997-05-02T05:03:35.837Z https://web.archive.org/web/19970502020520/http://www.ics.uci.edu/pub/ietf/html/multilingual.html

[54] IE3.01 MojiBake, 2025-11-02T12:39:40.000Z https://groups.google.com/g/fj.net.infosystems.www.browsers/c/wnawyNwhm_I/m/CD7Ej3R0UOMJ

おかしな実装の例としては、(私の場合、全て MS-Windows95 での話ですが、)
Netscape Navigator の Version 2 が、そうなっていました。
x-sjis は解釈できるが、Shift_JIS では文字化けしました。
Version 3/4 では、Shift_JIS を正しく解釈します。


但し、Version 4.0 Preview Release 2 には、Navigator の Encoding と、
META タグで指定された charset とが一致していない場合に、
<H3>Transfer Interruped !</H3>
(もう記憶があいまいですが、確かこうだった)
というものを、その時受けていたページの中に埋め込んでしまいます。
埋め込んだまま、cache に記録してしまうので、reload しても消えません。

私のページの場合、それがちょうど、表 <TABLE> - </TABLE> の中に入ってしまって、
表の表示がメチャクチャになってしまいました。

Version 4.0 Preview Release 3 では、そういうバグはありません。


それから、MS-IE 3.0/3.01 では、
META タグで charset を指定すると、かえって文字化けしやすくなる様です。
MS-IE 3.02/4.0では試していません。


さらに、Win32 版 Lynx の先月のバージョンでは、
META タグで charset を指定すると、必ず文字化けします。
もっともこれは、私が Lynx の設定をちゃんとしていないからかもしれません。

[55] https://groups.google.com/g/fj.net.infosystems.www.browsers/c/wnawyNwhm_I/m/HURaRZwFLwYJ

Win32 Lynx の名誉のために自分でフォローしときます。

META指定無し


<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp">
では、文字化けしません。

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=x-sjis">
だと、文字化けします。

なお、LYNX.EXE の作成日時は、97/03/14 18.19 です。

[31] Charsets in Microsoft Internet Explorer 4, 2007-11-14T17:53:13.000Z, 2025-05-19T13:18:22.236Z https://www.w3.org/International/ms-charset.html

[21] Re: proposed registration of type 'text/html' for MIME, 2003-08-04T15:50:20.000Z, 2024-09-29T07:28:49.747Z https://lists.w3.org/Archives/Public/www-talk/1992NovDec/0035.html

[22] >>21 この時点で TimBL は HTML は7ビットデータにしたがっていた。

[29] Hebrew in xgopher and xmosaic, 2024-10-07T08:58:55.000Z https://groups.google.com/g/comp.windows.x.apps/c/rxYwpVeG5Mk/m/r-C__uoThWYJ

[26] >>24 >>25 リンク先は残念ながら未所蔵。

[28] Internationalized HTTP?, 2024-10-07T08:29:30.000Z https://groups.google.com/g/comp.infosystems.www/c/htw5XLv4Hj0/m/wPr5IAol_EIJ

[23] What is standard for cyrllic HTML ? Hebrew ? Arabic ?, 2024-10-07T07:59:17.000Z https://groups.google.com/g/comp.infosystems.www.providers/c/lBJKtyujAk4/m/yRxsWMDGpZUJ

[27] WWW and cyrillic, 2024-10-07T08:26:42.000Z https://groups.google.com/g/relcom.tcpip/c/dUBIIAE-MnM/m/i_YJic8dqjUJ

[48] Official Google Blog: Unicode nearing 50% of the web, 2025-10-14T07:48:09.000Z, 2025-10-19T12:59:41.663Z https://googleblog.blogspot.com/2010/01/unicode-nearing-50-of-web.html

[7] RFC 4329: Scripting Media Types, 2022-11-22T07:32:55.000Z https://www.rfc-editor.org/rfc/rfc4329.html#section-4
[9] RFC 9239: Updates to ECMAScript Media Types, Matthew A. Miller, 2022-11-22T08:24:07.000Z https://www.rfc-editor.org/rfc/rfc9239#section-4

[8] >>7 JavaScript MIME型の文字コード処理 (実装された例があるかは疑わしい)

[30] 詳しい条件は不明ながら、 Chrome はメモリー不足だと文書中から読み込むファイル (CSS など) の文字コード判定に失敗して Windows-1252 として読み込んじゃう(ことがある)っぽいなあ。 2024-11-08T02:11:07.500Z

[32] compact_enc_det/util/encodings/encodings.cc at master · google/compact_enc_det · GitHub, 2025-05-19T14:51:44.000Z https://github.com/google/compact_enc_det/blob/master/util/encodings/encodings.cc

[33] Usage Statistics and Market Share of Character Encodings for Websites, June 2025, 2025-06-15T00:41:19.000Z https://w3techs.com/technologies/overview/character_encoding

[34] >>33 現在表示されているデータでは

UTF-8 is used by 98.7% of all the websites whose character encoding we know.

となっている。

[35] >>34 の通り UTF-8 が今や圧倒的に多いのだろうが、古くから残る頁はこうした統計の対象になりにくいことが多いので漏れてしまう。また、少ないデータは精度が落ちる。

[36] EUC-JP が 0.1%、 Shift JIS が 0.1% 未満となっていて EUC-JP の方が優勢になっているが、にわかに信じがたい。 Shift JIS の頁を見ると、 2024-09-01まで 0.25% と 0.3% の間だったのが2024-12-01には0.05%と急激に落ちているが、その前後はほとんど横ばい。こういう結果が出ているということは、どこか特定のサイトが UTF-8 に一括変更したか、調査対象から外れたことが疑われる。

[38] >>36 WIndows-31J も同じ時期に 0.0008% から 0.0002% に減少しているのはなんか怪しい。

[37] また、割合が少ない文字コードを使っているドメインを見ると銀行なんかが入っていたりする。割合が少ないからといって重要なサイト、よく見られるであろうサイトが入っていないということではない。保守的で大規模なシステムを抱えているところが古い文字コードのままというのはよくあること。

[39] >>34 では ansi_x3.110-1983 なるものまで上位として挙げられている。これは誤りと考えられるもの ( ansi_x3.110-1983 )。いくら広く普及している誤りといっても、さすがにそんなものが他の諸言語の旧来文字コードに比類するようなレベルに至っているとは考えにくい。それだけ収集範囲が偏っているとみるべき。

[49] Character Set Test Area, 2025-10-28T14:26:51.000Z https://charsetplus.tripod.com/HTMLs/index.html

[50] 欧米偏重のWebブラウザー事業者による従来文字コード切り捨てについてはいろいろ語るべき点があるのでしょうが、それがわかりやすく表れているのが越南語かもしれません。

20世紀に広く用いられていた越南語の文字コードを Encoding Standard はどれ1つとして収録していません。今の Webブラウザーでは20世紀のベトナムの Webサイトがまったく読めません。

そのかわりに Encoding Standard は Windows-1258 を規定しています。 Windows-1258 は Microsoft が越南向けに開発した文字コードですが、当時ほとんど使われておらず、 Web 上に (Internet Archive を探しても) Windows-1258 の Webサイトは皆無です。なぜ Encoding Standard にあるかといえば、他の欧米等の Windows-125x シリーズとまとめて全 Webブラウザーが実装していたからです。誰も現地の実態を調べていません。

[51] chardetng: A More Compact Character Encoding Detector for the Legacy Web, Henri Sivonen, 2020-06-08T16:23:51.000Z, 2025-10-29T10:46:36.590Z https://hsivonen.fi/chardetng/#legacy

[52] >>51 は Firefox の文字コードの判定の実装の作り直しが西暦2020年(令和2年)に行われたときのものですが、越南語は Unicode と違って Windows-1258 だと分解が必要なので工夫してデータを作った!と報告してます。

でも今も当時も Windows-1258 のWebページなんてない、あったとしても天然記念物レベルなので、そんな文字コードの判定に対応しても誰の役にも立たないのです。

そして当時の実際の文字コードはというと、 VN3, VISCII, VPS は現在の Unicode の一般的な用法と同じで分解されていない合成済文字。 VNI (Web で使われた ANSI 版) は2文字の組合せで表すことは Windows-1258 と似ていますが、組合せ方はまったく違います。 Windows-1258 専用のデータはこのどちらにも流用できません。

そんな基礎的事実を確認しないまま実装を進めているというのが現実なわけです。

[53] Description of settings in lynx configuration file, 2023-10-24T19:26:50.000Z, 2025-11-02T05:10:10.462Z https://lynx.invisible-island.net/lynx_help/body.html#CHARACTER_SET

出現頻度解析等の手法

仕様書

Web と文字コードの現在

バイト列から文字列への変換

encoding sniffing algorithm