文字コードの判別

[23] 文字列であるはずのバイト列からその文字コード (文字符号化) を決定するには、決め打ち (例: UTF-8 固定)、メタ情報 (例: charset 引数) 利用、バイト列自体からの推定など、いろいろな手法があります。

[24] 推定手法やそれらの組合せは不確実性を伴うものの、現実には非常に広範囲かつ頻繁に用いられています。

文字コードの決定

[92] 文字コードの決定は、バイト列とそれに関係する一連の情報から、そのバイト列の解釈に使う文字符号化を決定する操作です。

[93] ファイル形式、転送プロトコル、プラットフォーム、各種文字コード体系、その他慣習や互換性等が絡んだ複雑な問題です。

[94] それぞれによっていろいろな規定や実装戦略がありますが、次のように一般化できます。

[95] 文字コードの決定

[96] 決定的指定
[97] BOM
[98] 上書き指定
[99] 転送プロトコルによる指定
[100] ファイル形式依存の指定の検知
[101] 環境符号化の継承
[102] バイト列等からの推定
[103] プラットフォーム設定に基づく既定値
[104] 最終既定値

[114] 通常は符号化を1つ決定することがこの手順群の目的ですが、文字コード指定メニューの推奨候補の選出のように、いくつも符号化の候補を抽出するのが良い場面もあります。

ファイル形式の判定

[106] 当該バイト列がどのような性格で、どのようなファイル形式やデータ形式なのかがわかれば、文字コードの決定の処理が限定されることがあります。

[107] 当該ファイル形式等に決定方法の規定があれば、それに従うことになります。

[25] そうでなくても内容がある程度限定される場合は、それを前提とした検出手法を採用できます。

[108] 場合によってはファイル形式の検出と文字コードの決定が同時に処理されることがあります。 sniffing

[109] エディターでテキストファイルを開く場合など、特定のファイル形式であるとは判明していないものの、特定のファイル形式の特徴をも文字コードの判定に活用できる場合があります。

[105] Web の場合については encoding sniffing algorithm を参照。

[56] それ以外のファイル形式依存の方法については charset sniffing も参照。

明示的な指定

[110] 利用者が文字符号化を明示的に指定する手段が提供されることがあります。文字コード指定メニュー

[111] 通常はこれが最優先されるべきですが、セキュリティー等の理由で好ましくないとされる場合もあります。

[112] CLI のコマンドラインオプションや API の引数などプログラムの実行者が明示的に指定する手段が提供されることがあります。

[113] こうした方法の指定が最優先されるべきか、他の指定を優先するべきかは、時と場合によります。 XHR の override charset が BOM よりは優先されないなど、他の指定が優先されることもあります。

[115] ファイル形式によって確定的な符号化を1つ選べることがあります。

[117] 例えばファイル形式が WebVTT と確定しているなら、文字コードは UTF-8 と断定できます。

[116] エディターでテキストファイルとして開く場合のように、ファイル形式に基づく確定的な決定は利用者の指定で上書きできることが望ましい場合があります。

転送プロトコルによる指定

[118] HTTPヘッダーや MIMEヘッダーの Content-Type: に指定された MIME型が文字コードを表す charset 引数を伴っている場合、これが転送プロトコルによる指定に当たります。

[119] その指定方法や解釈方法にはMIME型ごとに少しずつ違いがあるので注意も必要です。 charset

[120] Web では MIME型による規定の違いは必ずしも尊重されず、ほぼ一律に (MIME charset ではなく) Encoding Standard の符号化ラベルに読み替えられて解釈されています。 encoding sniffing algorithm, x-user-defined

[121] MIME や HTTP は charset の既定値を US-ASCII や ISO-8859-1 とする規定を持っていましたが、実情とまったく一致しておらず完全に無視されてきた歴史を持ちます。 charset charset の不存在を HTTP や MIME の文字コードの暗黙的指定とみなすべきではありません。

[122] HTTPサーバーは ISO-8859-1 や UTF-8 やその他各地域の一般的な文字コードを機械的に charset として指定することがあります。こうした機械的な指定は実態と乖離していることがしばしばあります。 Webブラウザーによる文字コード判定の失敗事例集

[123] 機械的な指定と著者による意図的な指定を区別するのは困難であり、原則的には盲信することとなりますから、文字コード指定メニューなどそれを手動で上書きできる機能が必須となります。

環境からの継承

[124] フレームとしての埋め込みや HTML から CSS や JavaScript の参照のように、「外側」からの指定が「内側」で使えることがあります。環境符号化

`BOM`

[1] Web では歴史的事情により BOM の存在がかなり重視されています。 encoding sniffing algorithm

[57] BOM に対応した仕様や実装でも、どの文字符号化の BOM を検知するかはかなりブレがあります。現在の Web は UTF-16 と UTF-8 に限定しています。過去の Web や Web 以外の実装はそれ以外にもいろいろなものに対応していたり、いなかったりします。

[132] BOM による検知は常に適用できるものではなく、使わない場合もあります。例えばファイル全体ではなくプロトコル要素として用いられる文字列片では BOM が認められていない場合が一般的であり、その場合たとえ BOM のように見えたとしてもそれは本来の文字列の先頭です。文字コードの判定には使えません。

[133] ZIPファイルのファイル名の文字コードの判定では BOM 検査を行いません。

ファイル形式依存の方法による検知

[173] HTML では <meta charset> が、 XML では <?xml encoding="" が、 CSS では @charset が文字コードの指定の構文です。各仕様はこれを検出する方法を定めています。 encoding sniffing algorithm 他のファイル形式のいくつかにも似たような構文があります。文字コードの指定, テキストファイルの先頭

[174] また、テキストエディターが文字コードの指定の構文を決めていることがあります。いくつかのプログラミング言語等もこれを採用しています。 -*- coding -*-, vim:, 局所変数群リスト, テキストファイルの先頭

[175] WebVTT の WEBVTT など、ファイル形式が確定できる文字列がテキストファイルの先頭に検知できれば、文字コード自体が明記されていなくても自動的にそのファイル形式の規定する文字コードと推定できることがあります。

バイト列等からの推定

[125] バイト列に含まれるバイトを想定される文字コードの符号構造と比較したり、自然言語の文字の出現頻度の統計データと比較したりして、使われている文字コードを推定する手法群があります。

[126] 仕組み上、文字コードを断定することは不可能ですが、実用上かなり多くの場合に正確な判断を下すことが出来ます。

[127] ローカルファイルや古い Webサイトなど、これ以外に信頼できる方法がないことも多いです。

[128] HTML では頻度解析等の手法と呼ばれ、大まかな枠組みのみとはいえ規定があります。頻度解析等の手法

[129] UTF-8 はかなり確実に判定できることが知られています。頻度解析等の手法

[130] ASCII文字のみで構成される場合、復号のみを考慮するなら ASCII でも ISO-8859-1 でも Windows-1252 でも UTF-8 でも EUC-JP でもどの回答でも正解になりますが、その後の処理を考慮すると判定不能と判断することが望ましい場合があります。頻度解析等の手法

[134] フォント依存符号化を使った HTML文書では、 <font face> を判定の補助情報に使う必要があります。頻度解析等の手法

[131] バイナリーデータを与えた場合にバイナリーと判定する判定器もあります。この挙動が望ましいかどうかは時と場合によります。既にバイナリーデータを除外したテキストファイルのみが入力のときは、無理にでもどれかの文字符号化と推定するか、判定不能と返す方がいいことも多いです。

判定器を意識した著者による記述

[135] 文字コードの判定を助けるため、紛らわしい他の文字コードに出現しない文字を含めたり、当該文字コードで典型的な文字を最初の方に含めたりする技法が使われることがあります。

[137] 文字コードが乱立しながら頻度解析等の手法が未発達だった平成時代初期の Web でよく用いられました。日本など乱立が著しかった地域に多く見られます。

[136] TOPICS - VC, 2024-08-19T09:02:08.000Z, 1998-01-31T16:05:42.656Z https://web.archive.org/web/19980131160510fw_/http://www.villagecenter.co.jp/cgi-bin/contents.cgi?0=TOPICS

<body bgcolor="black" text="white" link="yellow" vlink="#FF8080">
<!--
あいうえおかきくけこさしすせそたちつてと
IEが EUC を認識しないので、その対策です。(^_^;
-->

判定器が必要な場面

[26] 文字コードの判定の応用

決定に使う入力バイト列の長さと範囲

資源ヘッダー, sniffing, encoding sniffing algorithm

出所とロケール情報による推測

[138] 判定したいバイト列の出所 (例えば取得に使った URL の TLD) や関係するロケール系の情報が文字コードの決定に使われることがあります。

[86] 利用し得る情報の例:

[158] バイト列の取得に使った情報
- [139] 取得を始めるために使った URL
- [161] リンク元の URL
- [159] リンク元の言語情報
- [160] リンク元の文字コード情報 (環境符号化ほど信用できないもの)
[146] バイト列に付随するメタ情報
- [142] 実際の取得に使った URL (c.f. リダイレクト)
- [184] 実際の取得に使ったファイル名
- [183] 実際の取得に使った Internet Archive の URL に含まれる原 URL
- [165] From: のメールアドレス
- [166] Newsgroups: のニュースグループ
- [167] IRCサーバーのドメイン名
- [168] IRC のチャンネル
- [140] Content-Location:
- [147] Content-Language:
- [192] Content-Disposition: の filename
- [193] 書庫ファイルの格納ファイルのファイル名
- [151] 書庫ファイルの格納ファイルの OS 情報
- [152] 書庫ファイルの格納ファイルの作成アプリケーション情報
- [162] 兄弟バイト列の情報
  - [163] 同じ書庫ファイルの他のファイルのファイル名とその文字コード
  - [164] RFC 822メッセージのヘッダーと本体の文字コード
- [185] バイト列が添付ファイルであるときそれが添付された元メッセージや元メッセージの主たる部分の情報
  - [186] 実体の文字コード
  - [190] 実体の Content-Language:
  - [191] 実体の文書要素の要素の言語
[153] 利用環境に関する情報
- [154] Webブラウザーの言語設定
- [155] プラットフォームのロケール設定
  - [156] POSIXロケール
  - [157] ANSIコードページ, OEMコードページ

[141] URL やファイル名やドメイン名から利用できる情報の例:

[169] 利用方法:

[170] 文字コード指定メニューの優先表示選択肢の絞り込み
[171] 頻度解析等の手法の候補の絞り込みや重みの割当
[172] 他のどの方法でも決定できないときの既定値の選択

TLD の利用

[204] 頻度解析等の手法はバイト列だけでは似た構造の文字コードの判定に失敗することが少なくないので、他の情報を補助的に使うことが試みられています。 TLD は特に有力な情報源と考えられています。

[205] ccTLD は、一部の国際的に商業化されたものを除けば、ほぼ当該地域で使われています。従って当該地域の一般的な文字コードが使われている可能性が、他の地域の文字コードよりずっと高いと考えられます。

[196] ced は URL の情報があればヒントとして使うことがあります。 >>43

[197] .hu の場合、ハンガリー語では Latin1 と Latin2 の区別が難しいとされ、それを考慮したモードに切り替わります。 >>43

[198] .com はヒントとして重視されません。 >>43

[43] compact_enc_det/compact_enc_det/compact_enc_det.cc at master · google/compact_enc_det · GitHub, 2025-05-19T15:36:17.000Z https://github.com/google/compact_enc_det/blob/master/compact_enc_det/compact_enc_det.cc#L2059

[200] Firefox は TLD を判定に重視しています。

[39] 現行実装である chardetng では TLD に基づき動作モードが切り替わります。 >>38, >>202, >>201

[203] かつては HTML Standard の既定値に関する規定にも TLD に基づくものを取り込ませようと試みていたようですが、うまくいっていません。

ロケールの利用

[87] ロケールが判定のヒントに使われることがあります。 ZIPファイルの文字コード

[195] ced は利用者インターフェイスの自然言語の情報があればヒントとして使うことがあります。 >>43

[178] HTML やテキストファイルの navigate では、他の方法で決められないときの既定値がロケール依存となっています。 >>177

[179] より正確に言えば、実装定義または利用者指定の既定の文字符号化とすると定められています。 >>177

[180] 制御された環境や文書の符号化を予め決められる環境では、 UTF-8 を既定値とするのがよい (suggested) とされます。例えば新しいネットワークの専用の利用者エージェントではそうできると述べられています。 >>177

[181] 具体的にそのような事例があるのかは不明です。仕様書としては可能性を狭めないために「新しいネットワーク」のようなものを想定しているのでしょうが、現実的にそうしたものが大々的に導入される機会があるかは不透明です。 (例えば HTTPS や HTTP/2 への移行でも、サーバーと内容は従来のままなので、切り替えの機会とはできなかったわけで。) 特定のイントラネットや新しい種類の端末の専用ネットワークでも、わざわざ既定値を変えるための設定や実装の変更よりは HTTP charset の指定を徹底させる方向性の方が楽そうで。

[182] それ以外の環境に対しては、利用者のロケールが利用者がよく見るWebページの自然言語や符号化と相関があると考えられるため、ロケールに典型的には依存 (typically dependent) して既定値が定まるとされます。 >>177 ロケール依存の既定の文字コード

[194] UTF-8 は頻度解析等の手法で高い確率で判定可能です。であるなら UTF-8 を既定値にするよりも、既定値は Web 初期の文字コードの指定の慣習が無かった時代の Webサイトをより良く救済できる可能性が高い値を選ぶのが良いと考えられます。

[177] HTML Standard, 2025-11-04T10:59:41.000Z, 2025-11-09T05:55:50.836Z https://html.spec.whatwg.org/#determining-the-character-encoding

符号構造や出現頻度などによる総合的な推測

[2] 任意のテキストデータの文字コードの判定には、文字コードのバイトの範囲や、出現文字の頻度・確率の情報が使われています。

[58] 平成時代中頃までの古典的な方法では、文字符号化によって符号の構造が異なることを利用し、ある文字コード体系で出現する符号かそうでないかという構造的知識を主に使っていました。しかしこの方法単独では符号構造が重複する領域で互いの区別が付きづらく、あまり精度が上げられませんでした。ただ、実装が容易ではあるので、幅広く用いられましたし、現在でも使われることは珍しくありません。

[59] 例えばシフトJISと日本語EUCは第1バイトに使われるバイト、第2バイトに使われるバイトの範囲がそれぞれ違っていますので、その範囲に収まるかによってどちらか判断できることが多いです。しかし完全に重なる部分もあるため、そのような符号ばかりだと正しく判定できません。

[60] また、半角カタカナを利用すると両者の重なる領域が著しく増えるため、誤判定が多くなり、頻繁に半角カタカナの文字化けを目にすることになります。これは半角カタカナが嫌われる大きな要因の1つにもなっていました。

[5] 特に日本とキリル文字圏では、複数の文字コードが同程度に広く使われていたために自動判定が重宝されていました。

実装

出現頻度等による実装

[176] 出現頻度等による実装:

[35] UniversalCharDet の系譜
[36] GitHub - chomechome/charamel: 🌏 Truly Universal Encoding Detection in Python 🌎, 2025-05-19T12:46:16.000Z https://github.com/chomechome/charamel
[37] GitHub - jawah/charset_normalizer: Truly universal encoding detector in pure Python, 2025-05-19T12:51:46.000Z https://github.com/jawah/charset_normalizer
[40] Charset Detection | ICU Documentation, 2025-04-15T18:50:10.000Z, 2025-05-19T13:56:04.594Z https://unicode-org.github.io/icu/userguide/conversion/detection.html
[41] GitHub - hsivonen/shift_or_euc: Detects among the Japanese legacy encodings, 2025-05-19T13:59:56.000Z https://github.com/hsivonen/shift_or_euc
- [62] 日本語系文字コードの判定
[91] google/compact_enc_det: compact_enc_det - Compact Encoding Detection (2016-07-30 15:05:47 +09:00) https://github.com/google/compact_enc_det
- [42] GitHub - google/compact_enc_det: compact_enc_det - Compact Encoding Detection, 2025-05-19T14:08:52.000Z https://github.com/google/compact_enc_det/
[45] Encode::Guess::Educated - do something - metacpan.org, 2025-05-20T15:01:04.000Z https://metacpan.org/pod/Encode::Guess::Educated
[81] GitHub - vlm/zip-fix-filename-encoding: Fix cyrillic character encoding of filenames inside zip archives, 2025-05-16T10:03:38.000Z https://github.com/vlm/zip-fix-filename-encoding
- [144] zip-fix-filename-encoding/src/runzip.c at master · vlm/zip-fix-filename-encoding · GitHub, 2025-05-24T14:05:58.000Z https://github.com/vlm/zip-fix-filename-encoding/blob/master/src/runzip.c
- [61] キリル文字系文字コードの判定
[84] Wayback Machine, 2025-06-02T11:58:14.000Z https://web.archive.org/web/20250601053528/https://shoshia.tripod.com/pub/webconv.zip
- [64] GEO-CONV.PL
  - [65] &analyze
    - [66] >>64 はジョージア文字の変換器ですが、その改造元はキリル文字の変換器で、 (おそらく改変されていない)この関数はキリル文字の文字コードを出現頻度で推定するものです。注釈によると Stefan Mashkevich が1998-11-26に開発したものです。 KOI8, DOS866, WIN1251, ISO8859-5, MAC に対応しています。
[67] Universal online Cyrillic decoder - recover your texts, Petko Yotov, 2025-06-04T07:48:52.000Z https://2cyr.com/decode/
[73] Encode::Detect::CJK - A Charset Detector, optimized for EastAsia charset and website content - metacpan.org, 2025-06-25T08:14:27.000Z https://metacpan.org/pod/Encode::Detect::CJK
[77] チベット文字の文字コードにもチベット文字の符号の判定手法についてあり

[3] universalchardet は、 Mozilla が Webページの表示のために開発したものです。多くのプラットフォームに移植されて使われています。

[4] 次の符号化に対応しています:

utf-8 utf-16be utf-16le iso-2022-cn big5 x-euc-tw gb18030 hz-gb-2312 iso-2022-jp shift_jis euc-jp iso-2022-kr euc-kr iso-8859-5 koi8-r windows-1251 x-mac-cyrillic ibm866 ibm855 iso-8859-7 tis-620 windows-1253 iso-8859-8 windows-1255 windows-1252

[6] データだけで未実装: iso-8859-2 windows-1250

[82] Charamel は Python 用ライブラリーです。機械学習によって Python が標準で対応するすべての符号化に対応したと謳っています。 >>36

[83] 実際に判定させてみると、他の判定器と比べて精度は今ひとつのようにも思われます。その中には類縁の他の符号化と判断されたものがあり、使用している文字次第でどちらとも判定できるので誤判定ではないと言えるものもありますが、それらを除外しても不一致が多いように感じられます。機械学習の方法による不透明なバイナリーデータを判定に用いているため、改善も困難と思われます。

[85] 付属の試験データ >>31 は実際の Webページらしきものやその他のテキストデータが含まれますが、各文字コードには機械的に変換したものと見られます。中には非ASCII文字が1つも含まれないデータしかない符号化もあり、試験データとして精査されたものとは思えません。

[88] Expose apparent_encoding_confidence. by martinblech · Pull Request #1796 · psf/requests · GitHub, 2025-10-19T13:06:53.000Z https://github.com/psf/requests/pull/1796

符号構造のみによる実装

[54] 符号構造のみによる実装:

[76] LV Homepage (in Japanese), 2025-06-25T14:34:54.000Z, 2001-01-19T05:51:42.277Z https://web.archive.org/web/20010119052900/http://www.mt.cs.keio.ac.jp/person/narita/lv/index_ja.html

現在の自動選択の方法は簡単なものです. ファイルを先頭から読み込んでいって, 8ビット目が立っている文字があった場合, 『その行』の中で euc-japan で使用される領域のみを使っていれば euc-japan, そうでなければ shift-jis です. つまり,『漢字らしきものを含む最初の一行』で判断しています. 8ビット目が立っている文字が見つからなければいつまでも自動選択のままの状態が続き, 判断が必要になったときに判断します. shift-jis の片仮名のみを使用した場合や, 運の悪いときは, 誤って euc-japan と認識されます.

[70] Add UTF-7 to replacement encoding list? / Encoding sniffing · Issue #68 · whatwg/encoding, 2025-06-17T03:18:44.000Z https://github.com/whatwg/encoding/issues/68

[71] Encoding: make it clear sniffing for UTF-8 is not acceptable by annevk · Pull Request #14455 · web-platform-tests/wpt · GitHub, 2025-06-17T03:20:29.000Z https://github.com/web-platform-tests/wpt/pull/14455