文字コードの判別

[23] 文字列であるはずのバイト列からその文字コード (文字符号化) を決定するには、決め打ち (例: UTF-8 固定)、メタ情報 (例: charset 引数) 利用、バイト列自体からの推定など、いろいろな手法があります。

[24] 推定手法やそれらの組合せは不確実性を伴うものの、現実には非常に広範囲かつ頻繁に用いられています。

文字コードの決定

[92] 文字コードの決定は、バイト列とそれに関係する一連の情報から、そのバイト列の解釈に使う文字符号化を決定する操作です。

[93] ファイル形式、転送プロトコル、プラットフォーム、各種文字コード体系、その他慣習や互換性等が絡んだ複雑な問題です。

[94] それぞれによっていろいろな規定や実装戦略がありますが、次のように一般化できます。

[95] 文字コードの決定

[96] 決定的指定
[97] BOM
[98] 上書き指定
[99] 転送プロトコルによる指定
[100] ファイル形式依存の指定の検知
[101] 環境符号化の継承
[102] バイト列等からの推定
[103] プラットフォーム設定に基づく既定値
[104] 最終既定値

[114] 通常は符号化を1つ決定することがこの手順群の目的ですが、文字コード指定メニューの推奨候補の選出のように、いくつも符号化の候補を抽出するのが良い場面もあります。

インターフェイス

[391] 文字コードの決定の処理の入出力は、どのような場面で使われるかによっても変わってきます。

[392] 入力となり得るもの:

[395] 判定したいデータ本体 : >>410
[402] 利用者による明示的な指定 : >>110
[403] 輸送路プロトコルによる明示的な指定 : >>118
[404] 継承されるべき環境の符号化 : >>124
[393] ファイル形式 : >>106 >>173
[405] データの出所に関する情報 : >>138
[406] 利用環境に関する情報 : >>138
[407] 候補となるべき符号の限定 : >>384

[394] 出力となり得るもの:

[396] 結果として得られた符号化 : >>428
- [397] 符号化の種別1つ
  - [399] 「結果なし」
  - [400] 「バイナリー」 >>346
- [398] 符号化のリスト : >>114
[409] 結果として得られたフォント依存符号化
[401] 結果として得られたファイル形式 : >>108
[408] 結果の確信度 : >>447

[427] 判定器の入出力の設計は、 Web の場合を例にすると、 encoding sniffing algorithm の他、復号器, 符号化の変更, MIME sniffing, speculative HTML parser, HTMLの字句化, fetch (ネットワーク, キャッシュその他) といった処理を、無駄なデータ複製を抑制しつつ、適度にプロセスやスレッドを分離しながら、いかに全体として統合していくか、とういう総合設計の問題の一部分となります。

入力バイトストリーム

[410] 符号化が外部的情報だけでなくデータの内容の検査からも決める場合、当然のことながら判定器にデータを構成するバイト列を与える必要があります。

[411] バイト列をどのように与えるのが良いかはプラットフォームと応用により様々で、一概には言えません。

[414] ファイル名の文字コードの処理のような小さなデータしか扱わないと決めている判定器なら、プログラミング言語の基本的なバイト列型で十分かもしれません。

[412] HTML や CSV のように巨大かもしれないし小さいかもしれないファイルは、バイトストリームとして引き渡し、判定器が自由に読めるようにするのが良いと考えられます。

[413] 自由にとはいいつつ、一般的な実装では先頭から順に好きなところまで読んでいく形になります。といっても判定器を構成する小判定器群がそれぞれ順に走査していくような UnivCharDet 型のアーキテクチャーを採用するなら、一度しか先頭から走査できないようなデータ型は不都合かもしれません。

[415] HTTP応答などネットワークで転送されてきた巨大かもしれない、もしかすると無限の長さを持つかも知れないストリームを対象とするときは、それを対処可能なデータの渡し方を採用する必要があります。

[416] よくあるのは、バイト塊を渡すメソッドと、 EOF を渡すメソッドの2つを用意し、新規データが到着するたびに前者を呼び出す手法でしょうか。

[417] 判定器は、分割してバイト塊を受領するときは、前の塊を処理した最終状態を次の塊の最初で復元できるように設計する必要があります。

[418] 例えば2バイト文字の最初のバイトが塊の最後にあったときは、そのまま未確定の状態を保持しておき、次の塊の最初を第2バイトとして処理を再開することになります。

[419] 巨大ファイルの先頭部分だけを判定に使う場合のように不完全な入力を判定器に渡すことを認める場合には、データの末尾 (EOF) と末尾ではない最後を区別する手段が必要です。

[420] 例えば2バイト文字の最初のバイトと解釈出来るものが塊の最後にあったとき、その続きが EOF なら不正 (2バイト符号ではない、または壊れたデータ) と判断できますが、 EOF ではなく判定のための入力データの末尾なら、不正かそうでないかは判断できません。

[421] アーキテクチャーによっては、判定器から応用に対してそれ以上追加の入力データの供給が不要であることを通知する手段があってもいいかもしれません。

[422] 例えばバイトの塊を供給されながら動作する判定器は、入力に BOM があって UTF-8 と確定したら、それ以上の入力は不要であると通知すると無駄な入力を抑制できます。

[426] HTML の encoding sniffing algorithm の如く、判定に使う入力の長さや待機時間長に制限がある場合もあります。資源ヘッダーこうした入力の制限は、判定器の側と判定器にバイト列を供給する側のどちらで実装するか、ネットワークの実装等を含めた全体構成の実装戦略 (>>427) 次第となることでしょう。

[455] 書庫ファイルのファイル名のように、 1つだけの入力バイト列で十分信頼できる結果を導出できるか不安があるときに、複数のファイル名をまとめることで幾分精度を向上できる (かもしれない) 場合があります。

[456] ZIPファイルのように UTF-8 のファイル名と文字コード未詳のファイル名を混在させられる書庫形式もあります。共通のディレクトリー名部分のように、 UTF-8 のファイル名を「正解データ」として参考にできることがあります。

結果として得られる符号化

[428] 判定器の出力は文字符号化の種別です。

[429] 理想的には正解が1つ即座に返されてほしいですが、必ずしもそれが可能とは限りません。

[430] 判定器の諸実装は、どれとも決めかねるときは、

[432] 結果無しを返す
[431] ASCII や windows-1252 などの既定値を返す

... のどちらかのことが多いようです。他に

[436] 異常動作する

... ものもあるようです。

[437] 判定器の選定時に注意したいポイントです。

[433] 正常動作の2タイプのどちらがいいかは使い方によるので一概には言えませんが、判定器単体の実装としては結果無しを応用に伝える方が便利かもしれません。判定の処理の全体としては、テキストファイルとして処理するのであれば、何らかの回答を決める必要があります。

[434] HTML の encoding sniffing algorithm は、どうしても決められないときは利用者のロケールから最終回答を決めます。

[435] テキストファイルとしての処理を断念してバイナリーファイルの処理に移る応用もあるでしょうから、その場合は結果無しを最終回答するのでも良いでしょう。

[438] 候補が複数あるときでも、多くの判定器の実装は最善と思われる1つを返すようです。

[441] 複数の候補を返す、または返せる判定器の実装もあるようです。

[439] HTML の表示やテキストエディターの読み込みなど、大概の処理はどれか1つの結果を選んでその先の処理に進むことになるので、 1つに絞り切る決定的な証拠がなくても、どれかを選ぶしかありません。

[440] 文字コード指定メニューの優先候補表示など、判定結果を複数提示可能な場面もありますから、複数の候補を返せるなら、それも悪くないかも知れません。

判定された文字コードの識別

[442] 文字符号化の種別は、文字コードの識別の手法によって伝達することになります。

[443] 文字コードの識別は非常に混乱した分野であり、同じ名前でも違った文字符号化と解釈されたり、そもそもその名前が実装されていなかったりといった非互換性に溢れています。文字コードの識別

[444] 文字コードの識別を確実に行うことは相互運用性とセキュリティーのためにどの文脈でも重要には違いないのですが、文字コードの判定の処理では特別に重要です。判定器が返した結果はほとんどの場合に復号器の入力になりますから、判定器と復号器が文字コードの識別の共通理解を有している必要があります。

[446] 判定器の諸実装は、 IANA charset を採用するもの、プログラミング言語の標準ライブラリーの名前を採用するもの、 iconv の名前を採用するものなど方針がバラバラです。開発過程で二転三転して混乱している実装もあるようです。

[445] どの名前がどの文字コード体系を表すのか標準化され安定しているのは Encoding Standard の符号化名と符号化ラベルがほぼ唯一であり、これを中核とすることが望ましいと思われます。ただし Encoding Standard は欧米の Web 系の符号化に偏向しており、 Web 以外やアジア系の符号化に弱いのがネックです。

未対応の符号

[457] 文字コードの判定の処理が、復号器が対応できない文字符号化を回答とすることがあります。大別して2種類あります。

[458] 文字コードの指定が未対応の文字符号化であると主張しているとき
[459] 判定器が対応しているが復号器が対応していない文字符号化を検知したとき

[460] >>458 は、例えば HTTP の charset="" 引数に未知の文字符号化が指定されたときです。

[461] こうした場合、未知の符号であるとして処理の全体を中断するのが良いと考えられる場合もあれば、他の符号としての解釈を試みる場合もあります。

[462] HTML の encoding sniffing algorithm は、諸手法のうち前段の手法で未知の符号化が得られたときは、採用せず後段の手法を試みるよう定めています。

[463] >>460 のように符号化ラベルが未対応なだけで符号自体には対応しているときは、他の手法で救済できる可能性があります。

[464] また、共通部分が多い似た符号が他にあれば、それを使えば不完全でも復号できる可能性があります。

[466] 応用側から予め対応可能な符号の一覧を判定器に渡して、それ以外は出力させないという設計もあり得ます。

[465] 相互運用性やセキュリティーにも関係する問題なので、関係する仕様との整合性やシステム全体の実装戦略を勘案しつつ決めるべき事項です。

[467] どう設計するにせよ、判定器は未知の符号化ラベルに遭遇しても異常動作をするべきではありませんし、応用は判定器が未知の結果を返しても異常動作をするべきではありません。

[248] なお >>384 も参照。

符号の包含と重なり

最適な文字コードの選定

結果の確信度

[447] HTML の encoding sniffing algorithm は結果が確定か暫定かの別を持ちます。 HTML では確定的な符号化の情報が見つからないときの暫定結果を後からより確定的な情報が得られたときに変更できます。

[448] HTML 以外でも、文字コードの決定の根拠が HTTPヘッダー等の信頼できる情報なのか、推定なのかの違いがセキュリティーその他に関係する場合もあることでしょう。

[449] 判定器は出力した結果やその他の候補の符号化それぞれの得点を内部的に持っていることがあります。 UnivCharDet の系譜の諸実装は確度 (confidence) [ 0, 1 ] を計算し、最大のものを結果としています。他の実装にも似たような尺度があります。

[450] 判定器の実装の中にはこうした値を出力できるものもあります。

[451] ただ、こうした値は特定の実装でのみ意味を持つものです。同じ実装でも版によって判定結果が変わることがあります。こうした値を得ても、当該判定器の開発者以外にとっては大した情報にはなりません。

[452] とはいえ複数の符号化の候補があるときは、相対的な大小で候補の順位を決めることができます。

[453] また、非常に強い可能性なのか、同じくらいの可能性のいくつかの候補なのか、消去法なのか、といった違いを利用者インターフェイスでうまく表現できる応用もあるかもしれません。

[454] そのためには、ただの内部的な値の出力ではなく、可能な値の範囲とその意味を厳密に定めた判定器と応用との間の API としての値空間が必要です。現時点でそのような事例は見当たりません。

結果を引き渡すタイミング

[468] 短い入力しか扱わない判定器なら、関数のような形で単純に入力に対して出力を返す形で結果を応用に引き渡す仕組みでも十分です。

[469] ネットワークからのデータなど入力サイズが短かったり長かったりし、時には無限のこともあるなら、いつどのように結果を引き渡すかを考える必要があります。

[470] 例えば HTML の場合は入力の最初の1024バイトに <meta charset> があればその結果を返せますが、それがなければ最後まで読む必要があるかもしれません。極端な場合、長く ASCII文字が続いた後に少しだけ非ASCII文字が出現することもあり得ます。 HTML には符号化の変更の仕組みがあるので、最後まで読み終わらなくても復号やレンダリングの開始を実行して、後から再読み込みするという手法を採れます。

[471] そうした分野で使う判定器なら、判定器が良いと判断したタイミングまたは応用が欲したタイミングで暫定結果を応用側に引き渡し、引き続き処理を続け、末端まで到達したら最終結果を応用側に引き渡す、といった何度も結果を作って渡せる仕組みが必要になります。

上位層文字符号化の推定

文字として符号化された文字やバイト

ファイル形式の判定

[106] 当該バイト列がどのような性格で、どのようなファイル形式やデータ形式なのかがわかれば、文字コードの決定の処理が限定されることがあります。

[107] 当該ファイル形式等に決定方法の規定があれば、それに従うことになります。

[25] そうでなくても内容がある程度限定される場合は、それを前提とした検出手法を採用できます。

[472] WebVTT なら UTF-8 と確定できます。

[473] ZIPファイルのファイル名なら、歴史的に ZIPファイルで利用された事例がある文字コード体系のいずれかに絞り込めます。

[474] HTML なら、 HTML Standard で encoding sniffing algorithm として決定手順が定められています。

[108] 場合によってはファイル形式の検出と文字コードの決定が同時に処理されることがあります。 sniffing

[390] バイナリー判定関連: >>346

[109] エディターでテキストファイルを開く場合など、特定のファイル形式であるとは判明していないものの、特定のファイル形式の特徴をも文字コードの判定に活用できる場合があります。

[105] Web の場合については encoding sniffing algorithm を参照。

[56] それ以外のファイル形式依存の方法については charset sniffing も参照。

利用者や応用からの明示的な指定

[110] 利用者が文字符号化を明示的に指定する手段が提供されることがあります。文字コード指定メニュー

[111] 通常はこれが最優先されるべきですが、セキュリティー等の理由で好ましくないとされる場合もあります。

[112] CLI のコマンドラインオプションや API の引数などプログラムの実行者が明示的に指定する手段が提供されることがあります。

[113] こうした方法の指定が最優先されるべきか、他の指定を優先するべきかは、時と場合によります。 XHR の override charset が BOM よりは優先されないなど、他の指定が優先されることもあります。

[116] ファイル形式によって確定的な符号化を1つ選べることがあります。例えばファイル形式が WebVTT と確定しているなら、文字コードは UTF-8 と断定できます。そのような場合ですらも、エディターでテキストファイルとして開く場合のように、ファイル形式に基づく確定的な決定は利用者の指定で上書きできることが望ましい場合があります。

転送プロトコルによる指定

[118] HTTPヘッダーや MIMEヘッダーの Content-Type: に指定された MIME型が文字コードを表す charset 引数を伴っている場合、これが転送プロトコルによる指定に当たります。

[119] その指定方法や解釈方法にはMIME型ごとに少しずつ違いがあるので注意も必要です。 charset

[120] Web では MIME型による規定の違いは必ずしも尊重されず、ほぼ一律に (MIME charset ではなく) Encoding Standard の符号化ラベルに読み替えられて解釈されています。 encoding sniffing algorithm, x-user-defined

[121] MIME や HTTP は charset の既定値を US-ASCII や ISO-8859-1 とする規定を持っていましたが、実情とまったく一致しておらず完全に無視されてきた歴史を持ちます。 charset charset の不存在を HTTP や MIME の文字コードの暗黙的指定とみなすべきではありません。

[122] HTTPサーバーは ISO-8859-1 や UTF-8 やその他各地域の一般的な文字コードを機械的に charset として指定することがあります。こうした機械的な指定は実態と乖離していることがしばしばあります。 Webブラウザーによる文字コード判定の失敗事例集

[123] 機械的な指定と著者による意図的な指定を区別するのは困難であり、原則的には盲信することとなりますから、文字コード指定メニューなどそれを手動で上書きできる機能が必須となります。

[197] かつては Webブラウザーのフォームの提出で query parameter やフォームデータに _charset_ に符号化ラベルが設定されてサーバー側に送出される仕組みがありました。

[232] また、これに類似するものとして、一部の Webアプリケーションは ie のような名前の引数に符号化ラベルを設定していました。

[233] Webアプリケーションのサーバー側の処理 (CGIスクリプト等) はこうした入力における指定をあれば、それを採用して引数の復号を行っていました。

データ内部の指定

[559] 例えば: <meta charset="">, encoding宣言, -*- coding -*- charset sniffing

フォント指定からの推定

文字として符号化された文字やバイト

指定の読み替え

[206] 文字コードの指定には色々な表現法があります。また、それぞれに複雑な事情が色々あります。指定された文字コードの名前等はそのまま使うのではなく、適宜の読み替えが必要になります。

[207] HTML の prescan では、 ASCII 系の文字コードであるにも関わらず UTF-16 系の文字コードが指定されたとき、これを UTF-8 に読み替えることになっています。 prescan, UTF-16, 符号化ラベル

[208] x-user-defined は歴史的理由により Windows-1252 に読み替えられることがあります。 x-user-defined, prescan

[115] キリル文字の文字コードは、歴史的理由により、蒙古語を表すことが確実な場合 (例えば .mn ドメインから取得した場合) にロシア系の規格ではなく蒙古の規格に読み替える必要があります (>>187)。

[209] Web では同じ符号化にいろいろな符号化ラベルがあります。本来は異なる文字コードを指していた符号化ラベルが、歴史的理由によって統合されている場合が多々あります。

[210] 同じ文字コード名でもインターネットメールと Web とで異なる歴史的経過を辿っており、異なる読み替えが必要となる場合もあります。

環境からの継承

[124] フレームとしての埋め込みや HTML から CSS や JavaScript の参照のように、「外側」からの指定が「内側」で使えることがあります。環境符号化

ファイル形式依存の方法による検知

[173] HTML では <meta charset> が、 XML では <?xml encoding="" が、 CSS では @charset が文字コードの指定の構文です。各仕様はこれを検出する方法を定めています。 encoding sniffing algorithm 他のファイル形式のいくつかにも似たような構文があります。文字コードの指定, テキストファイルの先頭

[174] また、テキストエディターが文字コードの指定の構文を決めていることがあります。いくつかのプログラミング言語等もこれを採用しています。 -*- coding -*-, vim:, 局所変数群リスト, テキストファイルの先頭

[175] WebVTT の WEBVTT など、ファイル形式が確定できる文字列がテキストファイルの先頭に検知できれば、文字コード自体が明記されていなくても自動的にそのファイル形式の規定する文字コードと推定できることがあります。

[244] cmsd_doc_reference.pdf, 2015-08-28T09:04:15.000Z, 2025-11-23T04:24:09.319Z https://cms.al-design.jp/downloads/EUC-JP/cmsd_doc_reference.pdf#page=69

<?php require( "cmsdesigner/include/view.php.inc" ); // encoding="euc-jp" ?>

は、定型文として入れてください。(「// encoding="euc-jp"」は Dreamweaver の文字化け(不具合?)回避の為のおまじないです。)

[245] encoding="" の sniffing を応用した hack か?

バイト列等からの推定

[125] バイト列に含まれるバイトを想定される文字コードの符号構造と比較したり、自然言語の文字の出現頻度の統計データと比較したりして、使われている文字コードを推定する手法群があります。

[126] 仕組み上、文字コードを断定することは不可能ですが、実用上かなり多くの場合に正確な判断を下すことが出来ます。

[127] ローカルファイルや古い Webサイトなど、これ以外に信頼できる方法がないことも多いです。

[128] HTML では頻度解析等の手法と呼ばれ、大まかな枠組みのみとはいえ規定があります。頻度解析等の手法

[130] ASCII文字のみで構成される場合、復号のみを考慮するなら ASCII でも ISO-8859-1 でも Windows-1252 でも UTF-8 でも EUC-JP でもどの回答でも正解になりますが、その後の処理を考慮すると判定不能と判断することが望ましい場合があります。頻度解析等の手法

[134] フォント依存符号化を使った HTML文書では、 <font face> を判定の補助情報に使う必要があります。頻度解析等の手法

[131] バイナリーデータを与えた場合にバイナリーと判定する判定器もあります。この挙動が望ましいかどうかは時と場合によります。既にバイナリーデータを除外したテキストファイルのみが入力のときは、無理にでもどれかの文字符号化と推定するか、判定不能と返す方がいいことも多いです。

判定器を意識した著者による記述

[135] 文字コードの判定を助けるため、紛らわしい他の文字コードに出現しない文字を含めたり、当該文字コードで典型的な文字を最初の方に含めたりする技法が使われることがあります。

[137] 文字コードが乱立しながら頻度解析等の手法が未発達だった平成時代初期の Web でよく用いられました。日本など乱立が著しかった地域に多く見られます。

[117] 日本では Shift_JIS と EUC-JP の区別のため、 0xFDFE, 美乳, 龠 などが使われました。文字コード判定器を意識した著者による記述

[136] 日本の平成時代前半の Webアプリケーション (CGIスクリプトなど) は入力データの文字コードの判定が必須の処理でした。正しい文字コードと確実に認識されるよう、 <input type=hidden> で固定の文字列を用意しておき、判定の材料とする手法がしばしば使われました。

判定器が必要な場面

[26] 文字コードの判定の応用

[254] Googleの検索結果サマリーが半角カタカナだらけ, 2020-08-20T23:48:51.000Z, 2025-11-23T05:54:04.480Z https://www.shtml.jp/mojibake/google_hankaku.html
- [255] Googleの検索サマリーが「\」やフランス語のアクセント記号だらけ, 2020-08-20T23:48:52.000Z, 2025-11-23T05:55:00.048Z https://www.shtml.jp/mojibake/google_yen.html
- [256] 「痴」「稚」が一杯。英語サイトを作ったら文字化け, 2020-08-20T23:48:46.000Z, 2025-11-23T05:55:24.455Z https://www.shtml.jp/mojibake/english.html

[240] 1551276 - (chardetng) Autodetect legacy encoding on unlabeled pages, 2025-11-23T02:33:03.000Z https://bugzilla.mozilla.org/show_bug.cgi?id=1551276

[241] Security: ASCII can be autodetected as ISO-2022-JP [40089450] - Chromium, 2025-11-23T03:27:53.000Z https://issues.chromium.org/issues/40089450

[242] >>241 Firefox の開発者が ISO-2022-JP を自動判定するのはセキュリティー上の問題だと主張し、 Chrome に判定から除外させた回。ところが Firefox は今でも ISO-2022-JP と判定している。 2025-11-23T03:29:38.400Z

決定に使う入力バイト列の長さと範囲

資源ヘッダー, sniffing, encoding sniffing algorithm

出所とロケール情報による推測

[138] 判定したいバイト列の出所 (例えば取得に使った URL の TLD) や関係するロケール系の情報が文字コードの決定に使われることがあります。

[86] 利用し得る情報の例:

[158] バイト列の取得に使った情報
- [139] 取得を始めるために使った URL
- [161] リンク元の URL
- [159] リンク元の言語情報
- [160] リンク元の文字コード情報 (環境符号化ほど信用できないもの)
[146] バイト列に付随するメタ情報
- [142] 実際の取得に使った URL (c.f. リダイレクト)
- [184] 実際の取得に使ったファイル名
- [183] 実際の取得に使った Internet Archive の URL に含まれる原 URL
- [165] From: のメールアドレス
- [166] Newsgroups: のニュースグループ
- [167] IRCサーバーのドメイン名
- [168] IRC のチャンネル
- [140] Content-Location:
- [147] Content-Language:
- [192] Content-Disposition: の filename
- [193] 書庫ファイルの格納ファイルのファイル名
- [151] 書庫ファイルの格納ファイルの OS 情報
- [152] 書庫ファイルの格納ファイルの作成アプリケーション情報
- [162] 兄弟バイト列の情報
  - [163] 同じ書庫ファイルの他のファイルのファイル名とその文字コード
  - [164] RFC 822メッセージのヘッダーと本体の文字コード
- [185] バイト列が添付ファイルであるときそれが添付された元メッセージや元メッセージの主たる部分の情報
  - [186] 実体の文字コード
  - [190] 実体の Content-Language:
  - [191] 実体の文書要素の要素の言語
[153] 利用環境に関する情報
- [154] Webブラウザーの言語設定
- [155] プラットフォームのロケール設定
  - [156] POSIXロケール
  - [157] ANSIコードページ, OEMコードページ

[141] URL やファイル名やドメイン名から利用できる情報の例:

[169] 利用方法:

[170] 文字コード指定メニューの優先表示選択肢の絞り込み
[171] 頻度解析等の手法の候補の絞り込みや重みの割当
[172] 他のどの方法でも決定できないときの既定値の選択

[236] 845791 - Gather telemetry about the necessity of the Russian and Ukrainian encoding detectors, 2025-11-23T02:17:27.000Z https://bugzilla.mozilla.org/show_bug.cgi?id=845791

[239] >>236 Firefox がキリル文字の文字コードの判定を廃止する非互換変更を企て失敗した回

TLD の利用

[204] 頻度解析等の手法はバイト列だけでは似た構造の文字コードの判定に失敗することが少なくないので、他の情報を補助的に使うことが試みられています。 TLD は特に有力な情報源と考えられています。

[205] ccTLD は、一部の国際的に商業化されたものを除けば、ほぼ当該地域で使われています。従って当該地域の一般的な文字コードが使われている可能性が、他の地域の文字コードよりずっと高いと考えられます。

TLDによる文字コード判定の補助

[215] ただ、この情報は飽くまでも補助に過ぎません。

[216] IPアドレスによるアクセスでは TLD を使えません。
- [217] 逆引きや IPアドレスの割当国データベースに基づく推定も可能ではありますが、実行コストの高い演算なので、判定ヒントを得るためにしては費用対効果に見合うか疑問です。
[218] gTLD では ccTLD による推定を使えません。
- [219] 昔も今も ccTLD 以外の TLD は全世界的によく使われています。
[220] ccTLD でも国外で多く使われている事例がいくつもあります。
- [222] 例えば .tv は国外のテレビ業界で使われがちです。
- [221] ccTLD を使う手法はこうした用途が多い ccTLD を除外しています。 TLDによる文字コード判定の補助
  - [223] しかし完璧ではなく、国外利用が多くても除外されていないことがあります。
  - [224] 国内利用についても ccTLD に基づくヒントを供給できなくなる弊害があります。
[225] 正書法改革や表記法の対立、内戦などを抱えている国では、 ccTLD のヒントが機能しにくいことがあります。

[226] TLD は若干の傾斜を与えたり、最終的に判断がつかなかったときの既定値を決めたりするのに使うのがいいのでしょう。 TLD に基づき候補を絞り込んでそれ以外を除外したりするのは避けておくのが無難です。

[227] 逆に言うなら、

[228] TLD からのヒントがなくてもそれなりに高精度で判別できるようにすること、
[229] 文字コード指定メニューのような利用者が上書きする手段を用意すること、

の両方が必須です。

[238] >>237 Firefox が gTLD での文字コードの判定を廃止する非互換変更を企て失敗した回

[187] HTTP charset や HTML <meta charset> などで指定された文字符号化は、 .mn の場合、次のように置換するべきです。ロケール等による文字コード判定の補助

ロケールの利用

[87] プラットフォームのロケールや言語の情報が文字コードの判定のヒントに使われることがあります。

[195] ced は利用者インターフェイスの言語情報があればヒントとして使うことがあります。 >>43

[38] subtitle の文字コードの判定に言語情報が使われることがあります。ロケール等による文字コード判定の補助

[39] ZIPファイルの文字コードの判定の補助または既定値の決定に POSIXロケールが使われることがあります。 ZIPファイルの文字コード

[43] compact_enc_det/compact_enc_det/compact_enc_det.cc at master · google/compact_enc_det · GitHub, 2025-05-19T15:36:17.000Z https://github.com/google/compact_enc_det/blob/master/compact_enc_det/compact_enc_det.cc#L2059

[178] HTML やテキストファイルの navigate では、他の方法で決められないときの既定値がロケール依存となっています。 >>177

[179] より正確に言えば、実装定義または利用者指定の既定の文字符号化とすると定められています。 >>177 現実的には利用者の言語から決めることになります。

[180] 制御された環境や文書の符号化を予め決められる環境では、 UTF-8 を既定値とするのがよい (suggested) とされます。例えば新しいネットワークの専用の利用者エージェントではそうできると述べられています。 >>177

[181] 具体的にそのような事例があるのかは不明です。仕様書としては可能性を狭めないために「新しいネットワーク」のようなものを想定しているのでしょうが、現実的にそうしたものが大々的に導入される機会があるかは不透明です。 (例えば HTTPS や HTTP/2 への移行でも、サーバーと内容は従来のままなので、切り替えの機会とはできなかったわけで。) 特定のイントラネットや新しい種類の端末の専用ネットワークでも、わざわざ既定値を変えるための設定や実装の変更よりは HTTP charset の指定を徹底させる方向性の方が楽そうで。

[182] それ以外の環境に対しては、利用者のロケールが利用者がよく見るWebページの自然言語や符号化と相関があると考えられるため、ロケールに典型的には依存 (typically dependent) して既定値が定まるとされます。 >>177 利用者の言語, ロケール依存の既定の文字コード

[194] UTF-8 は頻度解析等の手法で高い確率で判定可能です。であるなら UTF-8 を既定値にするよりも、既定値は Web 初期の文字コードの指定の慣習が無かった時代の Webサイトをより良く救済できる可能性が高い値を選ぶのが良いと考えられます。

[177] HTML Standard, 2025-11-04T10:59:41.000Z, 2025-11-09T05:55:50.836Z https://html.spec.whatwg.org/#determining-the-character-encoding

[235] Encoding detector causing compat issues [41301730] - Chromium, 2025-11-23T02:10:48.000Z https://issues.chromium.org/issues/41301730

I'm not sure when exactly Chromium diverged from WebKit, but the status prior to M55 (for several years) is that Chromium, by default, did no sniffing whatsoever and just used a system locale default. Secondly, if the user ever clicked "Autodetect" in the encoding menu, this acted as a permanent setting, and in that case ICU autodetector would run on 100% of page loads, overriding all headers, and supporting the entire set of ICU encodings.
Starting at M55, we removed all menus and all influence of system locale, and started to run CED autodetector by default but only affecting pages without headers.
To my knowledge, Chromium has never shipped a Japanese-specific sniffing configuration.

その他の試み

[68] Encode::Detect::Upload - Attempt to guess user's locale encoding from IP, HTTP_ACCEPT_LANGUAGE and HTTP_USER_AGENT - metacpan.org, 2025-06-16T10:29:46.000Z https://metacpan.org/pod/Encode::Detect::Upload

[69] >>68 Accept-Language:, User-Agent: (OS), アクセス者の IPアドレスを使って文字符号化を推定する。平成25年。

符号構造や出現頻度などによる総合的な推測

[2] 文字コードの指定の構文が存在しない (または利用されていない) 文字列のバイト列があるとき、その文字コードはバイト列それ自体から推定することになります。

[377] この推定は、どうしても不確実性が伴います。様々な手法が開発され、それらを組み合わせることで精度が高められてはいますが、いずれの手法も絶対的とは言えません。

[378] この種の技法は3通りに大別できます。

[379] 符号構造に基づく判別
[380] 典型的バイト列による推測
[381] 統計的手法による推測

この3種は必ずしもきっちりと分類できるものではなく、境界的技法もありますし、実装上は組合せて実現されることもあります。

[382] 例えば符号構造上あり得ないバイトは条件分岐のような形で単独で判定することもできますし、統計的手法による期待出現頻度 0 と記述して計算することもできます。どのように実現するかは実装戦略上の判断になります。

[383] 各技法の詳細はこの後の各節を参照。

[230] 平成時代初期 (西暦1990年代) には Web 等で文字コード情報のないテキストファイルが国や言語の境を超えて多く流通するようになり、文字コードの判定の手法の研究と実装が各所で行われました。

[5] 特に日本とキリル文字圏では、複数の文字コードが同程度に広く使われていたために自動判定が重宝されていました。

[331] 21世紀に入ると単一の実装で全世界に対応する多言語対応手法の普及が進みましたが、文字コードの判定も単一地域の利用者が遭遇する文字コード体系に限らず、全世界の文字コード体系を対象とする必要が生じ、複雑化しました。

[332] 逆に Web では charset 引数等による明示的な指定が普及し、追って UTF-8 への統合が進んだことで、バイト列からの推定による文字コードの判定の出番は減少しました。

[333] とはいえ、過去のデータやイントラネット、 ZIPファイル、 CSV、 subtitle など旧来の文字コードが混在する領域も依然として残っており、文字コードの判定の技術の需要が失われたわけではありません。

対象とする符号

[384] 判定器は、対応する符号 (文字コード体系) を決める必要があります。

[385] 多くの符号に対応している判定器は便利ですが、どんな判定手法も完璧でない以上、誤判定とのトレードオフになることには注意が必要です。対応符号数が多いほど誤判定のリスクが高まります。似た構造の符号が含まれると判定問題の難易度が急激に上がります。

[386] 判定器の実装戦略にもよりますが、一般に符号数が増えれば増えるほど、判定速度は劣化し消費メモリー量は増大します。判定に必要な計算や参照するデータが多くなるためです。

[387] 従って判定器の実装者は適用対象の分野をよく分析し、必要な符号を過不足なく選ぶ必要があります。 Webにおける文字コード, ファイル名の文字コード

[423] 便利な工具として使える独立した判定器なら、多少処理に時間がかかっても、あらゆる候補を徹底的に分析して回答を出すことに意味があるかもしれません。

[424] 一方で Webブラウザーに組み込まれた判定器なら、文字コードの判定は数多くの処理の一部に過ぎませんから、時間をかけるより高速に動作することが、多くの検証用データを保持するより小さな実装であることが求められます。

[425] ZIPファイルのファイル名の文字コードのための判定器は、およそ出現するとは考えにくい UTF-16 や ISO-2022-JP のような符号を最初から候補から除外しておく方が何かと良さそうです。

[388] セキュリティーにも注意が必要です。例えば、本来ただの ASCII文字列と判断されるべきものに UTF-7 を注入し、 UTF-7 と判定させることで任意プログラムを実行させるような攻撃手法があり、 UTF-7 という符号化方式自体が危険と認識され忌避されるようになった事例があります。文字コードの判定という演算が行われること自体が相応しくない状況もあれば、文字コードの判定で特定の符号を認識することに問題がある状況もあり、符号化方式の側に汚名が着せられるケースもあり、ケースバイケースの判断が必要です。文字のセキュリティー, Webセキュリティー

[389] 特定の符号と判断された場合に機能制限モードに切り替えるとか、外部的指定が無く文字コードの判定が必要とされたときに機能制限モードに切り替えるとか、対策の仕方もケースバイケースです。

符号構造に基づく判別

[231] 文字コードの判定の基礎的な技法の1つが符号構造を利用するものです。

[58] 平成時代中頃までの古典的な方法では、文字符号化によって符号の構造が異なることを利用し、ある文字コード体系で出現する符号かそうでないかという構造的知識を主に使っていました。しかしこの方法単独では符号構造が重複する領域で互いの区別が付きづらく、あまり精度が上げられませんでした。ただ、実装が容易ではあるので、幅広く用いられましたし、現在でも使われることは珍しくありません。

[59] 例えばシフトJISと日本語EUCは第1バイトに使われるバイト、第2バイトに使われるバイトの範囲がそれぞれ違っていますので、その範囲に収まるかによってどちらか判断できることが多いです。しかし完全に重なる部分もあるため、そのような符号ばかりだと正しく判定できません。

[60] また、半角カタカナを利用すると両者の重なる領域が著しく増えるため、誤判定が多くなり、頻繁に半角カタカナの文字化けを目にすることになります。これは半角カタカナが嫌われる大きな要因の1つにもなっていました。

[334] 多バイト符号の判定では符号構造を理解し区別することが基礎となります。

[336] ただし各符号の構造は共通の部分もありますから、完璧ではありません。

[339] 特に EUC-JP, gb18030 (= EUC-CN), EUC-KR (= UHC) はいずれも EUC を採用しているので、基本的な文字が収容される CS1 が同一の構造となっています。

[337] また、 EUC-JP の2バイト文字の少なくない数が、 Shift_JIS の1バイト文字 (半角カナ) 2つ分に当たります。

[338] こうした同一部分は判定に使えません。同一部分を除いた残りの固有部分で、どの符号かがわかります。ところが基本的な文字が同一構造の部分にあると、固有部分が文字列に含まれているとは限らないので、判定できないことになります。

[340] 狭義の構造だけで判断できなくても、空き領域で判断できることがあります。 2バイト符号には使われていない領域も多いですが、各符号で少しだけ空きの範囲が違います。空きが含まれていれば、その符号は候補から除外できます。

[341] ただし、空き領域が外字として利用されてきた歴史があることには注意が必要です。空き領域が出現したからといってただちに除外すると、正解も除外されてしまうおそれがあります。

[335] 1バイトの7ビット符号や8ビット符号の判定では、符号平面のほとんどのビット組合せに有効な文字が割り当てられてしまっているため、符号構造とその利用からの判断の余地はそれほど大きくありません。

[342] それでも一部の符号には空き領域があるので、それが出現すれば、その符号は候補から除外できます。

[343] 1バイトの8ビット符号の CR や多バイト符号の1バイトの未使用のビット組合せは、基本的には使用されていません。極稀に外字等で利用されることがあるものの、 Web 等で流通するデータに利用されることはまずないと考えられます。これらは多バイト符号の先頭バイトに使われる領域なので、当該多バイト符号以外を除外する条件として使えます。

[344] 0x7F も条件は近いのですが、ほとんどの符号で使われておらず、多バイト符号の1バイト目にも2バイト目にもまず出現しないので、どう扱ってもかわりありません。

[345] CL のうち、空白等 ([ 0x09, 0x0D ], 0x1A) と ISO/IEC 2022 で使う制御機能 (0x1B, 0x0E, 0x0F) を除いた部分も、通常の文字列に出現することはまずありません。

[347] これらも、 ASCII の系譜の文字コードの判定にはほとんど関与しません。

[348] ただし、 VISCII 等では図形文字を割り当てていること、 OEMコードページでは図形文字を呼び出すために使われたこと、には注意が必要です。

[346] 文字コードの判定の実装の中にはバイナリーという判定結果を返すことができるものもあります。この領域が出現し、 VISCII, UTF-16 等でないなら、バイナリーと判断できます。

[349] 文字コードの判定の実装がバイナリーをどう扱うかは悩ましい問題です。用途と実装戦略次第のところではありますが、明らかに文字列ではないバイト列の処理を延々と続けても仕方がないと考えると、バイナリー、あるいは「結果無し/不明」という回答を用意して、それが確定的になれば早々に処理を打ち切るという選択肢もあることでしょう。

[78] 対応している符号化を順番に試してエラーにならなかったものを採用するというだけの実装を「文字コードの判定」だと称しているものがたまにあります。このような方法は符号構造がまったく違う符号の区別になら使えますが、多くの8ビット符号の区別が不可能です。

[257] このような原始的な手法では Shift_JIS と EUC-JP の区別すら完全にはできないことが日本では古くからよく知られています。

[79] 符号構造が限定される場合なら、その限定される特徴で判定したほうが高速かつ確実なことが多いので、この手法が役に立つことはほぼないといっていいでしょう。

UTF-8

[129] UTF-8 はかなり確実に判定できることが知られています。頻度解析等の手法

[288] UTF-8 の2バイト以上のバイト列が含まれ、それ以外に非ASCII文字が含まれないなら、 UTF-8 と判定してほぼ間違いありません。

[285] ただし8ビット符号の領域を使っている以上誤判定の可能性が皆無ではありません。

[287] ced は4種類の2バイト列を UTF-8 ではなく windows-1252 に加重する例外条件を持っています。 >>286

[286] compact_enc_det/compact_enc_det/compact_enc_det.cc at master · google/compact_enc_det · GitHub, 2025-11-24T08:13:14.000Z https://github.com/google/compact_enc_det/blob/master/compact_enc_det/compact_enc_det.cc#L83

`BOM`

[1] Web では歴史的事情により BOM の存在がかなり重視されています。 encoding sniffing algorithm

[57] BOM に対応した仕様や実装でも、どの文字符号化の BOM を検知するかはかなりブレがあります。現在の Web は UTF-16 と UTF-8 に限定しています。過去の Web や Web 以外の実装はそれ以外にもいろいろなものに対応していたり、いなかったりします。

[132] BOM による検知は常に適用できるものではなく、使わない場合もあります。例えばファイル全体ではなくプロトコル要素として用いられる文字列片では BOM が認められていない場合が一般的であり、その場合たとえ BOM のように見えたとしてもそれは本来の文字列の先頭です。文字コードの判定には使えません。

[133] ZIPファイルのファイル名の文字コードの判定では BOM 検査を行いません。

ISO/IEC 2022 指示シーケンス

[355] ISO/IEC 2022 の指示シーケンスは自己識別的に符号化文字集合を特定する情報を含んでおり、文字コードの判定上極めて重要です。

[356] ただし実務上いくつか注意が必要です。

[357] ESC が含まれていることだけで ISO/IEC 2022 と判定するのは危険です。 CSI のために使っているもの、 ISO/IEC 2022 と異なる非標準の用法、破損データなどの場合も想定する必要があります。
[358] ISO/IEC 2022 の中にも ISO-2022-JP など完全に自己記述的な指示シーケンスを含む符号と、そうでない符号があります。前者なら指示シーケンスを決定的根拠とできますが、後者は追加の情報がないと確定できません。
[359] 具体的には次のような符号に特に注意が必要です。
- [360] IE が対応していた ISO-2022-JP とシフトJIS の混合など ISO-2022-JP
- [361] ISO-2022-JP に8ビット符号としてまたは SI/SO により半角カナを追加した独自仕様の符号
- [362] ISO-2022-JP やシフトJISに ESC を使った独自構文で絵文字を追加した符号
- [363] 汎用機等で使う ESC を使った独自構文で漢字と JIS X 0201 を区別する符号
- [364] 大韓民国でよく流通していたという指示シーケンスの無い ISO-2022-KR
- [365] ANSIエスケープシーケンスを含んだソースコードやバッチファイルなど
[366] 私用の終端バイト Fp や一部端末の非標準の終端バイトの指示シーケンスを使った符号指示シーケンス, Fp は、それが何を表すのか判定が必要になる場合があります。
- [367] 公開データとして流通しているものは Mule 系の Fp の場合が多いようですが、それ以外もあり、一部は衝突しているので要注意です。
[368] 復号器が完全な ISO/IEC 2022 の実装ではない場合は、たとえ完全に自己記述的な符号であったとしても、どんな指示シーケンスが利用されているか検査が必要となります。
- [369] 例えば ISO/IEC 2022 全体の復号器がない環境で、 ISO-2022-JP-2 と ISO-2022-JP-3 の復号器があるなら、両者は共通部分とそれぞれの固有部分があるので、どちらの復号器が適切かの判断が必要となります。

日本語文字コードの識別用符号列

[370] 日本語圏ではシフトJISと日本語EUCの区別のために特徴的な文字列を挿入する手法が開発されてきました (>>135)。

[371] こうした手法は Shift_JIS と EUC-JP の区別にはそれだけで有益であったとしても、それ以外の世界の文字コードが候補となるとき、必ずしも十分な根拠にならないこともあります。

[372] しかしせっかく著者が提供してくれているヒントを判定器が無視するのももったいないのであり、 BOM や指示シーケンスほどの確実性は無いとしても、それに準じた重要情報として利用することが期待されます。

gb18030 の特徴的な符号列

[275] gb18030 の4バイト符号は、第1バイトと第3バイトに右のバイトが使われ、第2バイトと第3バイトは ASCII数字のバイトが使われるというかなり独特の構造をしています。主要な多バイト符号でASCII数字を第2バイトに使うのは gb18030 だけです。各種の8ビット符号でこうした並びが出現することもあるでしょうが、特殊な用例に限られるのではないかと思われます。そこでこうした並びを数えて、 gb18030 と判定する有力な根拠として使うことができます。

判定条件からの逸脱の扱い

[350] ある符号で使わないバイトの出現でその符号を候補から除外することは、ときに正解の符号まで過剰に除外してしまうおそれがあります。

[351] 空き領域が出現した候補を除外すると、外字が入ったデータを正しく判定できない場合があります (>>341)。その符号における空き領域の利用実態を勘案して出現頻度の閾値を決めるなど、曖昧な判断が望ましいことがあります。

[352] 符号構造から逸脱した候補を除外すると、破損データを正しく判定できない場合があります。古いデータには特に言えることですが、生成や転送の過程の何らかの問題で多バイト文字の一部が破損したり、関係ないデータが混入したり、といった理由で通常の符号構造に沿わないバイトが出現することが、ままあります。一度の違反で即決せず、バイト列の全体の傾向から総合的に判断するべき場合があります。

[353] 判定条件を弱めれば弱めるほど不規則データへの耐性は高まりますが、他の符号と誤認する可能性も高めてしまうことになります。あらゆる破損に対応することは原理的に不可能で、どこかで線引きが必要です。

[354] 正常データのほとんどすべてを正しく判定できつつ、異常データもできればなるべく作成者の想定に近いものと判定できることが好ましいと考えられますが、具体的にどのような状態を良しとし、どのようにそれを実現するか、は判定器の適用分野と実装戦略次第になります。

典型的バイト列による推測

[249] 符号や応用に依存した「ありがち」なバイト列のパターンが出現することがあります。

[250] どれくらい決定的な根拠にできるかはケースバイケースで、他の符号との区別や「ありがち」な度合いによって調整が必要となります。

8ビット符号の特徴的な符号列

[265] かなり多くのWebページが©を使った著作権表記を持っています。 ©の前は空白かタグで、 ©の後は空白かタグか、年号か著作権者が来ます。

[266] windows-1252 やいくつかの文字コード体系で 0xA9 に © があります。 >>265 のようなバイト列のパターンを発見できれば、そうした文字コード体系である可能性が相当高くなります。

[269] 0xA9 は Shift_JIS で半角カナの ゥ に当たります。幸い ゥ は直前にカタカナが来ることがほとんどで、 >>265 のようなパターンで出現することはまずありません。 Shift_JIS でないことを示す徴証として使うのが良いと考えられます。

[318] 他の多バイト符号では第1バイトに使われることがありますし、 Shift_JIS でも第2バイトには使われることがあります。前後が空白, という条件が重要になります。多くの多バイト符号だと第2バイトに < や > が来ることもないので、タグも空白と同等に扱えます。それ以外だと徴証としては少し弱くなります。

[317] windows-1252 やいくつかの文字コード体系で 0xAE に ® があります。 0x99 に ™ があります。これらは語末に出現します。

[319] 英数字の後に半角カナ 0xAE が1つだけ出現して空白が来ることはほとんどないので、 Shift_JIS ではない可能性が高いと判断できます。

[320] しかし 0xAE や 0x99 は多バイト符号の第2バイトになることがあるので、非ASCII文字の後に 0xAE や 0x99 が来るケースでは注意が必要です。

[321] ced は「NESTLÉ®」を UTF-8 と誤認される windows-1252 の実例として挙げています。この例のように Shift_JIS 等の他に UTF-8 としても正当なバイト列になり得ることがあるので注意が必要です。

[267] 他に非ASCII文字がなくても©や®だけが非ASCII文字として含まれることが、欧米や中央アジアをはじめ、世界的によく見られます。そうした場合にこれを Windows-1252 と判断することが重要になってきます。

[268] 言語モデルによる判定は letter だけを使いがちで、 © のような記号が除外されていて判定に使われず、文字化けしてしまうことがあります。

[270] chardetng などがこうしたものを windows-1252 と判定する条件を組み込んでいます。 >>289

[290] ただし chardetng はそれでも © を ISO-8859-2 と誤認しがちです。 ISO-8859-2 との区別についてはわざわざ注釈で言及があります >>289 ので、意識して設計されているはずですが、それでも取り扱いが難しいということなのでしょう。

[329] Open Society-Georgia Foundation (OSGF), 2025-11-30T03:20:04.000Z https://web.archive.org/web/19981202173516id_/http://www.osgf.ge/

[580] chardetng はこの他にも序数標識や ’ に関係するいくつかのパターンで特殊処理を持っています。 >>289

[289] chardetng/src/lib.rs at main · hsivonen/chardetng · GitHub, 2025-11-24T08:19:16.000Z https://github.com/hsivonen/chardetng/blob/main/src/lib.rs#L58
[295] chardetng/src/lib.rs at main · hsivonen/chardetng · GitHub, 2025-11-24T08:34:54.000Z https://github.com/hsivonen/chardetng/blob/main/src/lib.rs#L450

価格

[322] windows-1252 などいくつかのコードページの 0x80 は € です。通貨記号の後にASCII数字が続くなら、価格の表記と考えられ、その文字コード体系であることのヒントとして使えます。

[323] 言語モデルによる判定は letter だけを使いがちで、通貨記号や数字が除外されていて判定に使われず、文字化けしてしまうことがあります。

[324] 0x80 は主要な多バイト符号の第1バイトには使われないので、空白の後などで重要なヒントとして使えます。しかし第2バイトに使われることはあるので、注意が必要です。

[325] windows-1252 の 0xA4 など他の通貨記号は多バイト符号の第1バイトや第2バイトや、 Shift_JIS の半角カナに使われることがあるので、注意が必要です。

罫線素片

[326] 多くの OEMコードページは罫線素片等の CUI 描画のための部品文字を多く持っています。これらは通常の文章には出てこないことが多いですが、図表などで使われることもあります。

[327] こうした文字が1つだけ孤立して出現することはまずないので、負のヒントとして使うことができます。

[328] ただし縦線はそこだけ見ると前後に別の文字が来る、孤立した文字に見えますから、単に前後が罫線素片でないというだけでは足りず、少し工夫が必要です。前後の行との結合を検査すれば確実ですが、そこまでせずとも、他に横線 (罫線素片の連続) があるなら同様に罫線素片とみなしてよく、他に横線がどこにもないなら負のヒントとみなすのがいいかもしれません。

[251] ファイル名に出現することもまずないので、 OEMコードページが使われることが多い ZIPファイルのファイル名の文字コードの判定では1個の出現だけでも強力な負のヒントになります。

仮名

[510] 日本語の文章には仮名が頻出します。

[511] どの文字コード体系でも仮名は連続して特定の範囲に配置されていますから、仮名が使われた文章は特徴的なバイト列になります。

[512] Shift_JIS と EUC-JP との区別や、各国の EUC との区別に非常に便利な特徴です。日本では古くから使われてきました。近年でも chardetng が利用しています >>252。

ハングル

[513] 大韓民国語の日常的な文章は大部分がハングルで表記されます。漢字は例外的です。

[514] EUC-KR と gb18030 や EUC-JP は基本構造が共通しているので、一見すると区別がつかなそうですが、いくつか特徴があります。

[515] ハングルは分かち書きされ、中文や日本語はされないので、語長で明瞭に区別できます。
[516] 日本語では仮名が有意に検出できます (>>510)。
[517] EUC-KR の KS X 1001 ではハングルと漢字のブロックが分かれています。ハングルの領域ばかりの出現でも区別できると chardetng は述べています。 >>252

EUC-JP の特徴的な符号列

[271] EUC-JP の CS3 は JIS X 0212 ですが、先頭付近のいくつかの区にダイアクリティカルマーク付きアルファベット等が配置されています。こうした文字の使われ方を想像すると、欧州の言語の単語を表す通常のアルファベットの列の中に孤立して1つだけ混じることが多そうです。 2つ以上続くこともあるでしょうが、1つだけのことが多そうです。

[272] 例えば ASCII文字に囲まれた 0x8F (SS3) と GR のバイト2つで構成される3バイトの列は、 >>271 の文字である可能性が高そうです。各種の8ビット符号でもこのようなバイト列が出現することは考えられますが、この特徴的な並びが意味のある言語の語を構成することは余り多くはなさそうです。そこでこうした並びを数えて、 EUC-JP と判定する有力な根拠として使うことができます。

[273] 実際のところ EUC-JP でこれらの文字を使った (しかし一般の日本語文字はあまり使わない) 文章はそこまで多くないと思われます。文字コードの判定のためのライブラリーのテストデータに含まれていることもあるのですが、テスト用に変換して人工的に作った例文と思われます。

[274] よってあまり優先度は高くありませんが、簡単に対応できるならしておいても良いかなという感じでしょうか。

UTF-16 や UTF-32

[373] HTML をはじめとする機械可読のデータ形式のほとんどは ASCII文字を構文記述に使っています。 Unicode では ASCII文字が [ U+0000, U+007F ] に配置されているので、 UTF-16 や UTF-32 では 0x00 が規則的かつ大量に出現することになります。

[374] ASCII文字が使われていることが期待される UTF-16 / UTF-32 のバイト列は、 BOM がなくても 0x00 の数を数えることで高確度で判定できます。

[375] ASCII文字が少ない場合でも、近いブロックに配置された文字が並びがちという特徴を使えば、 UTF-16 か UTF-32 か ASCII 系かはそれなりの確度で判定できると思われます。

[376] しかしあまり需要が無いので、研究も実装もそれほどなされていないようです。

改行

[636] Mac OS符号化であることの徴証の1つとして「改行が CR であること」が使える可能性がありますが、この性質を実用している判定器は見当たりません。実世界データでの検証の報告もなく、実効性は不明です。

[645] 文字コードの判定と近接する問題に「改行コードの判別」があります。

[637] テキストファイル系の現代的なデータ形式のほとんどは改行コードとして CR, LF, CRLF のいずれもを認識するか、そうでないとしても空白文字として扱うので、改行の判別が必要になることはそれほど多くありません。

[638] 改行コードの判定を主に必要とするのはテキストエディターの類で、どの形式であるかを認識し、新たな改行や保存時に使う改行を判定結果に設定することになります。

[639] あまり必要性の高くない単純な処理なので、詳しく議論されている例を見かけません。具体的な実装方法としては、

[640] 最初に発見したものを採用する
[641] 全体を走査して最頻のものを採用する

... のどちらかが一般的でしょうか。

[642] なお、行が長大または改行が存在しないファイルを読み込んだときに異常動作しない対策は必須となります。 (テキストエディターはファイルの全体を読み込むことが多いのでこの処理に特化した問題とはならないかも知れませんが。)

[643] ASCII の系譜のほぼすべての文字コードで CR と LF が存在し、同じビット組合せで表されます。それらの判定の処理では文字コードの違いを意識する必要はありません。多バイト符号でも支障ありません。

[644] UTF-16 や UTF-32 のような符号では CR や LF も2バイト以上になるので、バイトレベルで判定するなら注意が必要になります。

統計的手法による推測

[258] 統計的手法は、バイトやバイトの連続の出現状況と、それらが表すであろう文字や文字列の出現頻度の統計データとを突き合わせることで符号を推定します。

[259] 有名な換字暗号の解読法に、英語の文章で e が頻用されることを利用して暗号文を解読するものがありますが、基本的な原理はこれと同じです。

[260] 文字コードの判定問題は、既知の有限少数個の符号のいずれかに回答候補が絞り込まれていますから、任意の換字暗号解読問題より簡単です。

[261] しかし符号化されているのが英文とは限らず、世界中のどの自然言語かわからないし、混合されているかもしれないし、自然言語の文章とも限らないという難しさがあります。

[262] ファイル名のように利用できる材料が少ないこともあれば、ネットワークから取得中のデータのように利用できる材料が徐々に増えていくこともある (= 途中で傾向が変化するかもしれないし、全体像が見えない段階で判断を迫られることもある)、という難しさもあります。

[478] 統計的手法には原理的な限界があります。まず、「対応していない言語は判定できない」という根本的問題があります。言語の頻度モデルは既知の自然言語に基づいて構築されているため、モデルに含まれていない言語、または収集されていない方言やスラングを入力された場合、推定器は誤った言語モデルを適用するか、雑音として扱ってしまいます。未知語彙の多いテキスト、記述体系が非標準的な言語は、とくに誤判定が起きやすい領域です。

[477] また、既知の自然言語であっても、通常の文章から逸脱した「奇抜」な表現は統計的特徴を乱し、精度を大きく低下させます。文学的効果を狙って異常な語彙分布にしたり、極端に省略・連結した文体を採用したり、比喩的または視覚的な表記 (特殊記号の多用や AA、ギャル文字などの利用) を行うと、言語モデルの前提である頻度の安定性が破壊されます。「ハングル表記の日本語」「ヘブライ文字で書かれた英語」のような、文字と言語の一般的な組合せと乖離しているデータも、統計的手法の想定外です。

[479] 自然言語的でないデータの扱いはさらに困難で、例えば「文字コード表」「文字一覧表」「索引」のような資料は、特定の語や文字が異常に均等に、あるいは偏って出現するため、語の使用頻度に基づく判定はほぼ機能しません。

[646] 統計的に不安定な短い入力では、長い入力と同じ判定結果が得られるとは限らないという点も重要です。これは、判定器の挙動を調整する際に「最小の再現データを用意し、その入力に対して望ましい出力が得られるように修正する」という一般的な開発手法が必ずしも通用しないことを意味しています。短い入力は統計量そのものが揺らぎやすく、小さなバイトの偏りが大きく結果を左右してしまうため、点的なテストケースを追加しても、それが広い入力空間における挙動の改善につながるとは限りません。むしろ、短い断片を対象とした局所的な調整が、長い入力に対して逆効果となることもあり得ます。こうした特性が判定器の開発の難しさの最大の要因のひとつです。

言語モデル

[263] 多くの判定器は自然言語の文章の文字や文字の連続 (n-gram) の出現頻度に基づき言語モデルを用意し、推定に使います。

[264] 具体的にどのような言語モデルを作り、どのように保持し、どのように処理に使うかは、それぞれの判定器で違います。

[475] 同じ自然言語や同じ文字コードの言語モデルと言っていても、その実態は実装ごとにまったく違うので、基本的には他の実装には流用できません。

[476] 例外的に、 UnivCharDet の系譜の各種判定器は共通祖先のオープンソースソフトウェアからの派生なので、他のソフトウェアのソースコード上のデータや言語モデル生成ツールを流用できることがあります。その場合でも、言語モデルの使い方に手が入っている実装も多いですし、判定器内の各構成部分のバランスの違いもありますから、無調整で流用できるとは限らないことには注意が必要です。

言語対応と言語判定

[480] 設計によるところも大きいですが、言語モデルは必ずしも1つの自然言語ごとに1つとする必要はなく、文字の利用度が似た傾向にある複数の自然言語をまとめたモデルを用意することで足りる場合もあります。

[481] 欧州など複数の自然言語で同じ文字コード体系を共有している領域では、細かく自然言語を区別するよりもまとめた方が精度も処理速度も良くなることもあります。借用語や固有名詞や引用文で混在しがちな言語群は、細かく分ける方が結果が悪くなるかもしれません。

[482] 言語モデルの種類が多いほど、必要な処理が増えるということですから、処理速度は悪化します。しかし言語モデルを統合しすぎても、言語の特徴が均されて見えづらくなりますから、判別精度は悪化します。実データの傾向を見ながら適度なバランスで分割・統合された言語モデルを用意し、それらを使って結果を導出する計算のパラメーターを調整していく地道な作業が必要となります。

[483] 判定器のなかには、文字コード判定と併せて言語判定の機能を備えるものも存在します。確かに自然言語を特定して文字の頻度から符号を判定するという判定器の仕組みは、自然言語の判定器という側面も持っています。

[484] しかし、この二つの機能を統合することが優れた実装戦略であるかについては慎重な検討が必要です。文字コード判定と自然言語判定では、要求される言語モデルの精度や粒度が異なるためです。文字コードの種類よりも自然言語の種類の方がはるかに多く、細分化された言語モデルが必要になります。また、UTF-8 のように符号構造を利用すれば言語モデルなしで判定可能な符号であっても、統合してしまうと結局は各自然言語ごとのデータを用意する必要が生じ、不要な複雑さを抱え込むことになります。

[485] とりわけ欧州の諸言語のように、使用する文字種も符号構造もよく似ている場合、文字コード × 自然言語の組合せごとに類似したモデルが多数必要となります。最低でも十数個規模の言語モデルを管理することになります。このような環境では、計算結果の小さな差異で優劣が入れ替わるので、調整が綱渡りのように不安定なものとなります。

[486] さらに重要なのは、誤判定のコストの違いです。自然言語の誤判定は大きな影響がないことが多いですが、文字コードの誤判定はデータの読解不能 (文字化け) という致命的な結果を招きます。綱渡りの調整で判断を迫られた場合には文字コードの判定を優先せざるを得ませんが、自然言語の判定精度の足を引っ張るとしたら本末転倒です。

[487] 新たな自然言語への対応を増やす際にも、対応済みの自然言語の判定への悪影響はもちろん、対応済みの文字コードの判定への悪影響を回避する必要があり、自然言語の追加の開発コストとリスクが大きくなってしまいます。

言語モデルの開発

[488] 言語モデルの開発は容易ではありません。対象となる言語の文章を大量に収集し、分析しますが、世界中の各言語の文章群 (コーパス) の入手からして困難です。

[497] 平成時代初期に開発された UnivCharDet も苦労したと思われ、言語モデルの都合で西欧と中欧への対応に制限があるなど機能性に影響が出ています。 UnivCharDet の系譜のソフトウェアの多くはその言語モデルをそのまま引き継いでいます。

[498] ced は Google のデータベースを利用しているようです。 Google が世界中から集めた Webページの分析結果を自由ソフトウェアとして利用できるのは素晴らしいことですが、 Google 社外の我々はそれをただ使うことしかできず、研究することも改良することも、他に流用することもほとんど不可能という限界も抱えています。

[499] ced に限らず他の判定器の言語モデルも、基本的には「そこにある」という以上のことはどうにもできない不透明なデータです。微調整くらいはできるかもしれませんが、完全に再生成するには同一の元データを用意し、同じ方法で計算、加工しなければなりません。完全に再生成できなければ改良もできません。ところがすべての元データを用意するのは原作者すら不可能な場合が多いです。

[500] これは近年 LLM 等の AI 技術で問題となっている構図とよく似ています。 OSAID

[489] UnivCharDet の系譜のソフトウェアの一部や chardetng >>252 は Wikipedia の記事を使っています。 Wikipedia には様々な分野の記事が集まっており、適度に固有名詞や外来語も混ざっていると考えられますから、目的に適った文書群といえます。

[490] ただし Wikipedia が万能ともいえません。まず、 Wikipedia に存在しないか、十分な記事がない自然言語では適しません。

[491] 幸い、 Unicode 以前に独自の文字コード規格を開発し流通させてきた自然言語の多くは Wikipedia が存在しているようです。しかしフォント依存符号化を使ってきた少数言語などはカバーされていないことがあります。

[492] また、ファイル名の文字コードの判定のような一般の文章とは異なる語彙の偏りを持つ可能性がある対象に適用する場合の Wikipedia 由来のデータの有効性は明らかではありません。

[493] 音楽ファイルのメタデータや subtitle も一般の文章とは異なる偏りを持つ可能性があります。ただ Wikipedia にも楽曲やアーティストの記事はありますから、カバーされていないともいえません。有効なのかどうか明確ではないという状況です。

[494] Web では文字コードの判定 (推定) が必要なのは初期の Webページが中心です。既に二十年前後が経過しており、自然言語の表記や語彙にも多かれ少なかれ変化が生じていると考えられます。正書法改革が行われた言語もあります。現在の Wikipedia から作成した言語モデルが当時の Webページに機能するかどうかは、慎重にならざるを得ません。

[496] これについては、 UnivCharDet の系譜や chardetng を使った古い Webページの判定に顕著な劣化が見られないことから、実用上の問題にはならなそうです。

[558] Wikipedia は中文 (簡体字 / 繁体字), セルビア語 (キリル文字 / ラテン文字) で同じ記事データを別表現に自動変換しています。元データは中途半端な混在の可能性が、変換済みデータは不自然な表記の可能性があり、取り扱いには注意が必要となります。

[509] Wikipedia は整った説明調の文章が多く、会話文や俗語に乏しいことには特に注意が必要かもしれません。

[495] Unicode とそれ以外の文字コードとでは異なる符号化モデルを採用していることがあります。特にアジアでは、地域で使われてきた文字コードやフォントと Unicode とが「文字」の概念のレベルで違っているケースが散見されます。 Wikipedia など Unicode のデータはそのままでは適用可能な言語モデルにならないかもしれません。 Unicode から当該文字コードへ変換することもできるでしょうが、変換器の出力は当時の一般的な入力方法での利用実態と乖離していることも懸念されます。

[501] Unicode 以前の文字コードの文書では、当該文字コードにない文字を代用表記にしていたり、文字参照で表したりしていることもあります。こうした文書では通常の文章と違った文字の利用頻度となることがあります。

[502] どこの国でも初期の Webページでは英語が使われがちです。英語と地元の固有名詞の組合せは、地元の言語とも純粋な英語とも違った文字の利用頻度となることがあります。

[503] こうした事情を抱えた古い Webページは、 Wikipedia 由来の言語モデルをそのまま単純に使った判定では必ずしも正解を得られないようです。

[504] 注意が必要な具体的事例:

[505] ルーマニア語の文字の選択ルーマニア語文字問題
[506] 越南語の文字コードの符号化モデルの違い (VNI, TCVN3, windows-1258) >>613
[508] 半角カナの符号化モデルの違い (濁点、半濁点) >>613
[507] インド系文字の文字コードの符号化モデルの違い
[589] CJK互換漢字に対応付けられている漢字およびそれに関係するCJK統合漢字に対応付けられている漢字の扱い

記号の扱い

[608] 言語モデルにおいて狭義の文字 (letter) 以外の数字, 句読点, その他の記号等をどう扱うのが良いのか、は難問です。一般の n-gram 等でもそれらは除去したり、 SP に置換したりすることが多いです。記号等は任意の単語の前後に現れたり、同じ位置でも時と場合によって違う記号を使い分けたり、自然言語とは異なる用法の列を形成したりするので、自然言語の単語における letter の出現パターンとは違うことが多く、混ぜたモデルが有効に機能するとは限らないのです。

[609] 記号を混ぜた言語モデルは利用コーパスの性質の影響も強く受けてしまうと考えられます。 Wikipedia 由来のモデルだと、整った説明文に出てくる句読点は頻出するでしょうが、装飾的な記号の使われ方はあまりしないと予想されます。俗語や文学的文章、専門性の強い技術的文章などの記号の使われ方に適応できるかどうかが未知数です。

[610] 記号等がまったく判定に寄与できないわけではなく、言語モデル以外の方法で、あるいは letter 用とは別の言語モデルで加味することはあり得ます。例えば「、」や「。」に相当するバイトが定期的に頻出するなら日本語文字コードの可能性が高いとして加算する (ただし皆無だとしても減点要素にはしない) という採点は可能でしょう。欧文で語頭や語末にあるバイトは引用符かもしれない、などといった性質もうまく盛り込める形のモデルも有用そうです。

[611] UnivCharDet の系譜の判定器の言語モデルは基本的には letter の出現頻度等で構成されています。系譜の実装の一部は記号類の出現の度合いを判定に加味することがあります。

[612] chardetng は記号等をいくつかの種別に分けて letter とは違った方法で判定に加味しています。

結合文字の扱い

[613] 結合文字を扱う必要がある場合、

[614] 言語モデルにおいて結合文字はどう扱うべきなのか
[615] 合成済み文字を使う文字コードと基底文字と結合文字の組み合わせを使う文字コードがあるとき、一方のデータによる言語モデルを他方の判定にも適用できるのか

といった疑問が生じます。これが主に問題となるのは越南語の文字コードの各種です (>>561)。また、技術的には結合文字ではありませんが、半角カナの濁点・半濁点にも同じことがいえます (>>571)。

[616] 合成済み文字かどうかによって基底文字の出現頻度は変化しますし、基底文字 + 結合文字や結合文字 + 次の文字の bigram が変化します。この違いがどう影響するのかです。

[617] 1つ目の疑問 (>>614) については、基本的には letter と同じ扱いで良いと思われます。

[618] 少し意外に思われますが、越南語の文字コードとそれ以外の欧州などの文字コードの区別に結合文字の扱いはあまり寄与しません。 UnivCharDet の系譜の判定器で Wikipedia から生成した言語モデル、すなわち合成済み文字方式の文字が含まれる可能性が高いモデルを使ったものがありますが、越南語かどうかを概ね正しく判定します。また、 chardetng は独自の方法で決めた2種類の表現でデータを作っていますが、どちらでも大差はないという報告になっています >>252。

[619] このような結果になるのは、それ以外の文字や並びによる越南語かどうかの区別が大きな要素であって、非ASCII文字部分で越南語の文字コードのどれを使っているかによる差が小さいということです。越南語の文字コード相互の差が付きにくいという問題は合成済み文字か基底文字と結合文字の組み合わせかを区別して適切な言語モデルを使えば少し改善できますが、それだけでは不十分です。越南語の語の構造を意識して採点すると更に改善できます (>>561)。あるいは trigram などでも改善できるかもしれません。

[620] この越南語の結果が他の言語の同様の符号化モデルの違いにも当てはまるのかどうかは定かではありません。越南語は規則的な単語の構造で結合文字の出現の仕方も特異なので、むしろ例外的なのかもしれません。

[621] 基底文字と結合文字の組み合わせが一般的なものと異なる場合は、積極的に減点した方が良いかもしれません。越南語の場合はそれを語全体の構造を意識した採点により実現できますが、他の言語では前後2字の連続によって減点することになるでしょうか。

ASCII文字の扱い

[305] EBCDIC などを除くと、ほとんどの文字コード体系は ASCII文字を共通に持っています。そのため ASCII文字は文字コードの判定に大きくは寄与しません。

[306] また多くのマーク付け言語やプログラミング言語は英語の語彙を大量に含んでいます。

[307] HTML文書の場合要素名、属性名、 JavaScript コード、 CSSスタイルシートなどの形で多くの英語の ASCII文字表記を含みます。更にいえば、初期の Webサイトはどの地域でも英語が多いです。本文が英語でないとしても、話題がインターネットや計算機の技術系のページでは英語や英語由来の ASCII文字の語が極めて頻出します。

[315] 判定に使う文字の出現頻度の情報は、想定される自然言語の文章から計算されています。英語の濃度が極度に大きいと、本来の自然言語の出現頻度から離れていき、判定が狂う要因となってしまいます。

[308] こうした事情があるので入力の ASCII文字をどう取り扱うかは設計上無視できない問題となります。

[309] ASCII文字を無視すれば、こうした「ノイズ」も一気に除去することができ、非ASCII文字の文字コードの判定に注力し、関係ない部分の処理の負担を軽減できます。

[310] 一方で欧州言語などASCII文字が言語の表記の主体となる場合、非ASCII文字の割合が少ないので、すべてのASCII文字を捨ててしまうと言語判定の重要な情報まで捨ててしまうことになります。

[311] 中間解として、非ASCII文字の周囲の ASCII文字を判定に活用するのが現実的です。 ASCII文字と非ASCII文字にまたがる n-gram の出現頻度は、とりわけ欧州言語の判定に重要です。

[312] UnivCharDet は非ASCII文字を含む単語を8ビット符号の判定に利用しています。

[313] chardetng はそれより攻めていて ASCII文字同士の連接は判定に使わないようです。

[314] ただしこうした戦略の違いがどれだけ判定性能や動作速度や消費メモリー量に影響を及ぼすのか、定量的な比較はあまり行われていないようで不明瞭です。

[316] 欧州語で、しかもファイル名のような短い文字列が入力のとき、 ASCII文字だけの部分でも言語判定のヒントに使えれば、数少ない非ASCII文字やその前後だけでは情報が不足する言語判定の補強材料になります。しかし両者が関係ない単語の場合もあって、そのときは誤判定のリスクが増大します。

エスケープとの混合

[188] エスケープ (HTML の文字参照など) とそうでない通常の文字が混合されている場合、純粋な文字列とは違った文字分布になってしまう場合があります。

[189] 単純に ASCII文字だから、マーク付け言語の構文要素だから、といった理由でエスケープを除去すると、通常の文字の前後関係が言語の一般的なパターンと外れてしまい、判定に失敗することがあります。

[196] エスケープとそうでない文字が混在するのは、特に理由が無いこともありますが、敢えて混在させていることもあります。文字化けしやすいとか、その文字コードに存在しないとかです。得てしてそれらは文字コードの判定の際どい条件に関わってくる要素になりがちです。

欧州ラテン文字系文字コードの区別

[200] Windows-1252 (含 ISO-8859-1) と ISO-8859-2 と Windows-1250 は区別の難易度が高いことが知られています。

[201] そもそもラテン文字系言語は文章の多くが ASCII文字で、言語次第で少々の非ASCII文字が混ざるという構造です。非ASCII文字主体の他文字の言語よりも判別が難しいです。

[202] Windows-1252 と Windows-1250 は似た構造ですが、収録される文字の種類は一部で著しく異なっています。文章に少々混じる非ASCII文字のうちの更に一部の頻出文字が共通で、残りが全く異なるので、バイトの並びとして見たとき、どちらかにわかに判断しがたいことが多いです。

[203] Windows-1250 と ISO-8859-2 はだいたい同じで少し違います。どちらも中欧でよく使われていた文字コードで、同じような言語で同じように使われていて、わずかな違いがどちらなのか判定するのが難しいです。

[211] Mozilla の UnivCharDet は ISO-8859-2 に対応しているものの、 ISO-8859-1 が誤判定されてしまうとして無効化されています。 UnivCharDet の派生の中にはこれを改善して有効化しているものもありますが、それらも完璧に判定できるわけではありません。

[212] ced は .hu ドメインのみ trigram を有効にするなど、特別な処理で判定を強化しています。それでも Chrome はたまに判定を誤ります。ロケール等による文字コード判定の補助

[213] chardetng も TLD による傾斜など特別な処理で判定を強化しています。それでも Firefox はしばしば判定を誤ります。ロケール等による文字コード判定の補助

[214] 完璧な判定は困難ですから、どの手法を採るにせよ、最終的に文字コード指定メニューなど利用者が選択を覆せる手段が必須です。

[281] >>280 はハンガリー語で書かれた HTML です。各種の判定器は ISO-8859-2, windows-1250, windows-1252 と判断が分かれています。 Firefox は windows-1252 と考えます。 Chrome は windows-1252 と考えますが、 ced にバイト列を与えると windows-1250 と回答します。 2025-11-24T06:15:55.100Z

[282] 実際には3符号化の共通文字が非ASCII文字でも多いのですが、ハンガリー語であることとハンガリー語の文字の使い方から ISO-8859-2 / windows-1250 と考えるのが妥当です。 >>280 の範囲では ISO-8859-2 と windows-1250 は同等です。

[283] Firefox と Chrome は文字コード指定メニューがないので、文字化けしたまま修復できません。一種の不具合といえます。

[280] Bemutatkozik a WILD WEST GYÕR, 2025-11-24T06:08:55.000Z https://www.members.tripod.com/wildwestgyor/bemut.htm

[539] ラテン文字は言語が多いので、言語モデルは個々の言語ではなくいくつかまとめた言語群ごとに用意するのが無難です (>>485)。

[540] 西欧 (windows-1252 / iso-8859-1 / macintosh / ibm850 の類) のうち、言語 fo, is は利用文字が他と大きく違います。 chardetng は西欧をこれらとそれ以外とで二分しています >>252。定量的評価がなされているのかは不明ですが、有効な戦略のようにみえます。

[541] 残りの西欧 (旧植民地等を含む。) は、スカンジナビア・ドイツとそれ以外とでやや利用文字に異なりがあるので、二分するのが一案と思われます。

[542] したがって西欧系の言語モデルは次の3種類にまとめられます。

[543] 西欧 : af, es, fr, it, pt
- [544] 含、初期 Web ページで windows-1252 + 文字参照がよく使われた : et, mt, ro, rs, sq, tk
[545] 南北欧 : da, de, fi, no, sv
[546] 北北欧 : fo, is

[547] トルコ語は西欧の文字コードとよく似たものが使われますが、微妙に違いがあり区別しづらいこと、大文字と小文字の扱いが違うこと (>>520) に注意が必要です。

[548] 中欧、バルトはそれぞれの文字コード群に対応する言語群でモデルをまとめてしまって構わなそうです。 ISO-8859-3 は専らエスペラント語で使われたので、これは独立させた方が良さそうです。

[549] トルコ語 : az, tr
[550] 中欧 : cs, hr, hu, pl, ro (ただし >>505), sk, sl, tk
[551] バルト : et, lv, lt
[554] エスペラント : eo

[552] et は >>551 と >>554 に重出しますが、この是非については検討の余地があります。

[555] 他に ibm865 や ISO-8859-15, ISO-8859-16 などを扱うなら、対象言語に特化した言語群のモデルを用意したほうが良いかもしれませんが、 >>543 との関係を検討しなければなりません。

[556] なお各言語と国家と文字コードの利用実態についてはロケール等による文字コード判定の補助も参照。

[553] 越南語は言語も文字コードも性質が大きく異なるので、別途の扱いが必要です。

東側諸国の言語モデル

[525] 旧ソ連を中心とする東側諸国は20世紀末に正書法改革やロシア語からの脱却を進めたところが多く、その影響が問題となります。

[526] 初期の Webページの文字コードを扱うという目的で Internet Archive に残る各国の古い Webサイトを調査すると、地域によって差も大きいものの、

[527] ロシア語 (windows-1251, KOI8-R)
[528] 英語
[529] 現地言語のラテン文字表記 (windows-1250, windows-1252, windows-1251, KOI8-R のいずれかと、それらで足りなければ文字参照)

が大部分で、国単位の例外で

があります。ラテン文字に移行した国の旧キリル文字表記やロシア連邦の少数言語のキリル文字表記は見つけるのが困難です。ロケール等による文字コード判定の補助

[536] 従って言語モデルの開発において旧正書法のデータを入手する必要性は大きくなさそうです。

[538] 現地言語のラテン文字表記について、何度か正書法の改定が行われている場合もありますが、少なくても文字コードの判定に関係しては、特に目立った違いのようなものは検出できません。

[537] UnivCharDet はキリル文字に関してロシア語の言語モデルを用意していました。 UnivCharDet の系譜の判定器の中にはこれだけでは不足としてブルガリア語の言語モデルを追加したものがあります。 Webページの判定ではこの2つのモデルがあれば他のキリル文字言語も含めて実用的な精度が得られるようです。

[523] chardetng はアゼルバイジャン語について

For Azerbaijani, I replaced ə with ä to synthetize the windows-1254-compatible 1991 orthography.

なる調整をしたと説明しています。 >>252 しかしその必要性について十分な根拠を示していません。

[524] アゼルバイジャンにおける windows-1254 の利用は皆無ではないにせよ一般的とは言い難く、ここで説明されているような表記法の利用実態があるのか、それが判定精度に寄与するのか、といった点に不安が多いです。実際に Internet Archive で確認できる古い .az の Webサイトは英語かロシア語か、そうでなければ windows-1251 と文字参照の組合せであり、 >>523 のような事例は未発見です。ラテン文字の文字コード, ロケール等による文字コード判定の補助

[522] chardetng は蒙古語でも調整したと説明しています。 >>252 これは Encoding Standard や Firefox が MNS 4330 の存在を認めていないために必要になる処置です。

大文字と小文字

[294] 出現頻度による手法の多くは大文字と小文字を同一視して文字や n-gram の頻度を見ています。ほとんどはこの手法でうまく判定できます。

[520] トルコ語では他の言語と I / i の大文字と小文字の扱いが違うので、注意が必要です。

[521] 日本語の平仮名と片仮名は使われ方がアルファベットの大文字と小文字とは違うので、同じような取り扱いにするかどうかは悩みどころです。

[292] chardetng は大文字と小文字の使い分けが自然なものを加点し不自然なものを減点しています。 >>291

[293] ギリシャ文字ですべて大文字にした語は、キリル文字をすべて小文字にした KOI-8 やヘブライ文字と混同しやすいとされ、 ced や chardetng が特殊処理を入れています。 >>291, >>284

[291] chardetng/src/lib.rs at main · hsivonen/chardetng · GitHub, 2025-11-24T08:24:04.000Z https://github.com/hsivonen/chardetng/blob/main/src/lib.rs#L154

[284] compact_enc_det/compact_enc_det/compact_enc_det.cc at master · google/compact_enc_det · GitHub, 2025-11-24T07:39:23.000Z https://github.com/google/compact_enc_det/blob/master/compact_enc_det/compact_enc_det.cc#L1770

// Greek all-caps is confusable with KOI8x all-lower and Hebrew.

[299] Countermeasures for various misdetections. · hsivonen/chardetng@0973b4b · GitHub, 2025-11-24T08:50:10.000Z https://github.com/hsivonen/chardetng/commit/0973b4b67da81b9be2f643d0da70536d616aec06

ASCII 文字と非 ASCII 文字の隣接

[300] chardetng はラテン文字とそれ以外 (ASCII文字とそれ以外) の隣接で非ラテン文字系符号を減点しています。 >>299, >>252

[518] 日本でよく見る、ラテン文字の並びの途中にぽつんと漢字が1字混ざるタイプの文字化けの抑制になりそうです。

[519] この種の規則を組み込むには慎重な評価が必須です。多バイト符号の第2バイトが ASCII英数字になることはよくありますし、日本語などで漢字とラテン文字が隣接することは割とよくあります。

語長

[297] chardetng は語長が23超ならタイ文字以外を減点しています。 >>296

[298] chardetng は EUC-KR のハングルの語長が5超なら減点 (EUC_KR_LONG_WORD_PENALTY) しています。 >>296

[301] 他の実装にはあまり見られないので有効性は不明瞭です。

[302] johab は他の符号と誤認の排除にハングルの語長の平均 (大雑把に 3 字くらい) との乖離の検知が有効なようです。

[296] chardetng/src/lib.rs at main · hsivonen/chardetng · GitHub, 2025-11-24T08:46:35.000Z https://github.com/hsivonen/chardetng/blob/main/src/lib.rs#L755

書字方向

[303] ISO-8859-8 など視覚順と論理順の区別が必要となる場合があります。

[304] ヘブライ文字は語末形と語中形が異なるものが5字10種あります。 ISO/IEC 8859-8 や Windows-1255 はそれらに別のビット組合せを充てています。 UnivCharDet はヘブライ文字列の先頭や末尾の字形の個数や前後から見た bigram の評価によってどちらか判定しています。

[253] chardetng はヘブライ文字ではなくそれと併用される ASCII 句読点の使われ方で判定しているようです。 >>252

[557] どちらの手法も長短ありそうです。句読点法は、題名やファイル名や短文などで機能しない虞があります。

[252] chardetng: A More Compact Character Encoding Detector for the Legacy Web, Henri Sivonen, 2020-06-08T16:23:51.000Z, 2025-12-03T05:01:28.298Z https://hsivonen.fi/chardetng/

越南語

[561] ベトナム語はラテン文字ですが、発音区別符を多用します。 Unicode 以前は数個の異なる文字コードが使われていました。越南語の文字コード

[562] いずれも ASCII の拡張ですが、欧米のラテン文字の文字コードとは言語の構造も文字コードの構造も違います。ところがASCII英数字に非ASCII文字が少々混じるという基本構図は同じなので、単純な bigram の出現頻度だと区別が付き辛いこともあります。

[563] 越南語は音節ごとに分かち書きされ、借用語や略語などを除くと、 3, 4つ前後の子音字と母音字が非常に規則的に並びます。非ASCII文字も母音字等に規則的に出現します。

[564] この性質を使うと越南語主体の文章とそれ以外は高確度で区別できます。

[565] ただし英語に少々越南語が混じる文章を扱うと難しく、非ASCII文字が少なめの欧文との区別が付きにくいことには変わりありません。

[566] 越南語の文字コードの各種の中には、すべての文字が合成済み文字であるもの (現在の Unicode の一般的な利用法はこちら。) と、結合文字を使うものがあります。大文字と小文字がすべて揃っていないものもあります。

[567] 結合文字の有無などで文字の単位が異なり、出現頻度や隣接の仕方が違いますから、言語モデルはそれぞれの文字コードの利用実態に合わせて開発する必要があります。

[568] chardetng は Unicode と符号化モデルが異なる windows-1258 用のデータを Wikipedia の Unicode 用データから生成するためあれこれ操作しているようです。 >>252 しかし、少なくても Web において windows-1258 が大規模に利用された形跡がなく、当該操作で製作されたデータの有用性は不明瞭です。 windows-1258

[569] Internet Archive に残る初期の Web で実際に越南語の文字コードを利用した HTML文書での実験によると、越南語版 Wikipedia の Unicode 記事から作った言語モデルで viscii, x-viet-vps, x-viet-tcvn3, x-viet-vni (とその他欧米の文字コード) の区別は不可能ではないものの、不安を感じる精度であります。 viscii, x-viet-vps は合成済み文字なのでこのままでよく、 x-viet-tcvn3, x-viet-vni は当時の当該文字コードの文書群を集めて製作した言語モデルに切り替えることで、一応実用に耐える精度は実現できるようです。

[570] ただ、越南語が少ない場合 (>>565) などに改良の余地はあります。どこまでを言語モデルの改良により、どこからを他の手法の組み合わせによるべきかも探求の余地があることでしょう。

半角カナ

[571] 半角カナは、日本語情報処理における歴史的功績は大きく、幾度も流行のように使われてきた一方で、文字化けの元凶として嫌われてきました。半角カナ半角カナが嫌われる技術的原因の多くが文字コードの判定に関係します。すなわち、

[572] EUC-JP を Shift_JIS と誤読すると半角カナが頻出します。つまり文字化けすると半角カナが現れます。
[573] Shift_JIS の半角カナは EUC-JP の2バイト文字とバイト列として区別がつかないことが多いです。つまり半角カナを使うと文字化けしがちです。
[574] ISO-2022-JP の正式仕様に半角カナはありません。そのため半角カナが使えなかったり、非標準の方法で出力されたりします。つまり半角カナを使うとエラーか規格違反になり、文字化けしがちです。
[575] Latin1 の記号を Shift_JIS と誤読すると半角カナになります。つまり文字化けすると半角カナが現れます。

[576] 半角カナは使うべきでないと言われ続け、文字コードの判定の技術開発・実装でも半角カナの判定はあまり重視されてきませんでした。厄介な存在にも関わらず、文字コードの判定でどう扱うのがいいのか、ノウハウはさほど蓄積されてきていません。それでいながら半角カナが使われ続け、文字化けの元凶でもあり続けるという悪循環がありました。

[577] UnivCharDet の系譜の判定器は入力に日本語の言語指定がなければ半角カナだけの文字列を理解できず、欧米等の8ビット符号と誤認することがあります。 UnivCharDet は半角カナを判定に使わないので、2バイト文字がなければ他の符号に負けます。

[578] chardetng は半角カナと欧米等の8ビット符号の区別のための得点調整を入れており、半角カナだけの文字列のテストを用意していますから、この問題を認識し対策していることがわかります。実際に UnivCharDet の系譜の判定器よりこの種の判定は高精度です。

[579] Shift_JIS の半角カナのバイトは Latin1 の記号等のバイトと重なっています。 Web では © などの Latin1 文字が頻出します (>>265)。 Latin1 側で特徴的なパターンに加点するだけでなく、 Shift_JIS 側で不自然なパターンに減点する対策が有効です。 Latin1 の記号が配置されている 0xAx の領域には Shift_JIS で句読点や小書き仮名が配置されています。これらのいくつかは、他の半角カナの後に来る可能性が高いなど、使われ方に傾向があります。そこからの逸脱は、 AA などで出現し得ることには配慮しつつも、減点要素にできます。

[581] 半角カナが含まれていても、平仮名や漢字も一般的な日本語の表記方法で含んでいる短くない文章なら、文字コードの判定に失敗することは多くありません。問題となるのは半角カナのみで構成される語句です。

[582] いくつかある入力欄の1つだったり、多数あるファイルのファイル名だったりで他に同じ文字コードで記述されているはずのバイト列があるなら、なるべくそれらをひとまとめにして文字コードの判定の処理を適用することで誤判定の可能性を下げられます。

[583] それでもファイル名の短い文字列などで半角カナのみで構成されるバイト列を判定するべき場面はあります。8ビット符号と同じように半角カナの言語モデルを使って出現頻度で検査するのが良いのでしょうが、考えるべきことがいくつかあります。

[584] 言語モデルはどう作るのがいいでしょうか。
- [585] 半角カナがどう使われるか考えてみると、大別して、 (1) 通常の日本語表記のうち片仮名部分 (2) 人名の振り仮名など発音表記 (3) 箇条書きなどの記号 (4) 通常の日本語の文や語句だが片仮名表記、 (5) AA 等の構成要素、 (6) 俗語あたりが考えられそうです。半角カナこのうち (3) (5) は言語モデル法で扱うのは無理です。 (1) は Wikipedia などから片仮名部分を抜き出せば作れそうです。 (2) (4) が (1) と同じ言語モデルで対応可能なのかどうかは自明ではありません。 (2) (4) (6) は仮名漢字変換の辞書などを活用することも考えられますが、意味のある出現頻度データが得られるのか不安があります。
- [586] (1) - (6) の用途の言語モデルは、合わせて1つ作るのが良いのでしょうか、それともいくつか作るのが良いのでしょうか。合わせることはできるのでしょうか。
[587] 半角カナには濁点・半濁点付き仮名がありません。濁点・半濁点を親文字から分離して頻度や隣接を数える必要があります。
[588] 半角カナの言語モデルと Shift_JIS の判定はどう組み合わせるのが良いのでしょう。半角カナのみと Shift_JIS 全体とを別の符号であるかのように扱うのが良いのか、 Shift_JIS の判定の一部として半角カナも組み込むのが良いのか、どちらの設計も長短ありそうです。

インド系文字

[622] インド系文字の文字コードは数多ありますが、それらの区別の技法の研究や実装の事例はそれほど多くないようです。多くの文字コードがフォント依存符号化であり、 HTML やワープロの文書形式におけるフォント指定の方法でフォント名が明示されているので、それを読み取ることで処理は足り、バイト列からの推定などの高度な手法の出番は多くありません。

[623] しかし平文やフォント指定なしでの利用の実績がある文字コード体系もあり、それらはバイト列からの推定が必要になります。

[624] インド系文字の文字コードのほとんどは Unicode とは異なる符号化モデルを採用しています。主要な文字コードは Unicode との変換器がありますから、 Unicode のコーパスから変換したデータを作ることは一応可能ですが、変換器の生成データが従来文字コードの実用当時の使われ方と同じかどうかは不安があります。変換器は生成しないけれども実用されたバイトの並びが存在するかもしれませんし、バイトの並び方に実用とは異なる偏りが生じる可能性もあります。

[628] したがって、インド系文字の文字コードの言語モデルを作る際には、 Unicode のコーパスを使うのではなく、当該文字コードが実用されているデータを収集するの必要があります。十分な分量を集めることが難しい可能性もありますが、 TSCII や TAB のような主要な文字コード体系については世界の他の文字コードも含めて互いに区別するのに十分な精度が出せるモデルを生成できることが確認されています。

[625] チベット文字の文字コードについては、チベット文字で頻出する文字のバイトの出現頻度を使った研究があり、中華人民共和国の多バイト符号系の文字コード体系も含めて検討されています。チベット文字の文字コード

[626] チベット文字の文字コードの変換器で、入力に含まれる ASCII文字の並びが英語なのか、チベット文字の翻字なのかを語の構造や割合によって推測して決定するものがあります。チベット文字の文字コード

[627] ビルマ文字の文字コードの判定器は入力に含まれるUnicode文字の並びのパターンを検査してフォント依存符号化 (主に Zawgyi) を判定するものが多いです。入力が UTF-8 文字列となるのが独特な点です。ビルマ文字の文字コード

[629] Zawgyi もフォント依存符号化として使われることが多いのでフォント名で判定できそうなものですが、判定器の実装の多さを見るにそれ以外の需要もかなりある (あった) ようです。 SNS の本文や動画サイトの説明文などにも平成時代末頃までは Zawgyi が散見され、フォント名情報がないので判定が必要になります。

[630] 他にない珍しい取り組みとして、フォントデータを調べて文字コードを識別する研究の事例があります。クメール文字の文字コードバイト列の文字コードの判定とは違って符号構造くらいしか使える要素がなく、出現頻度による判定は適用できません。もしかするとグリフデータの類似度を利用するような手法への発展の可能性もあるかもしれません。

[631] Unicode 以外がほとんど使われなくなった現在では実需要もほとんどないとは思われますが、過去のデータやフォントの調査と分析でこうした手法が役に立つ場面もあるかもしれません。インド系文字の文字コードの全体像は未だ解明されておらず、有名なフォントとその符号体系は知られているものの、有名なもの以外のフォントや各符号の類縁関係など今後の調査研究が期待される領域は多く、人間の作業を補助する機械的手段は有効と思われます。

発展的手法

[632] それほど実践例の報告はありませんが、近年の機械学習技術の進展は、文字コードの判定の技法にも一定の発展可能性を与えています。この分野は従来の判定器の比較的単純な統計モデルで十分に高い精度が得られるため、大規模な再発明が行われることはありませんでした。しかしその反面、短い入力、利用事例が少なく情報が少ない文字コード体系、文字コードの混在、文字コードの修復が破損データなど依然として適用が難しい領域も残っています。

[633] 深層学習、とりわけバイト列を直接扱える Transformer 系モデルは、この“情報が薄い状況”にも比較的強く、十分な訓練データさえ確保できれば、短いバイト列から符号化の特徴的な癖を直接学習し、既存手法を上回る判断を行える可能性があります。さらに、複数候補の符号化を自然に同時出力し、曖昧性の分布を確率的に提示できるという点は、既存の判定器の「確信度」が実装依存である問題に対しても、一つの解決方向を示し得ると思われます。しかし現実には、流通する実データが少なく、かつ文字化けを含む多様な“現実的な失敗例”を網羅した訓練データが存在しないため、モデル構築に必要なコストは決して小さくありません。GPU 計算資源を用いた大規模学習を必要とするほどの商業的需要がこの分野にあるかといえば否定的で、歴史やアーカイブの研究者の関心も高くないのが現状です。

[634] より生成的なモデルを利用すれば、従来の「正しい文字コードを当てる」枠を越え、符号化の復元経路そのものを推定する、といった応用も考えられます。たとえば、壊れたバイト列に対して、 Shift_JIS として読み取った場合、あるいは EUC-JP として読み取った場合のそれぞれの文脈的妥当性を示し、どの変換段階で破損が生じた可能性が高いかを説明しながら復元を補助するといった具合です。ただしこの種の生成モデルはもっともらしい仮説を自然に作り出してしまうため、過剰な“理屈付け”による誤誘導を避ける設計と利用者側の知識が不可欠となります。

[635] アーカイブ的な観点では、単にテキストを判定するだけでなく、当時のシステム全体 (オペレーティングシステム、フォント、入出力システム、アプリケーション固有の符号化規則など) を含む実行環境の再現を重視する考え方もあります。これは、フォントの文字コード情報が不明確なまま利用された (そして現在も明確になっていない) HTML や RTF 文書など、21世紀初頭頃 (平成時代半ば頃) までに製作された文書群の復元において特に重要です。この種の資料では、符号化判定器だけで完結するのではなく、使用されていたフォントが暗黙に前提とした符号の体系や符号化モデル、アプリケーション固有の制限や不具合まで含めて推測する必要があります。機械学習とエミュレーション技術を組み合わせることで、当時の実環境に近い“総合的な推定”を行うような高度な仕組みも将来的には可能となるでしょうが、これもまたコストに対して需要が限られているため実現までの道程は易くないでしょう。

実装

出現頻度等による実装

[176] 出現頻度等による実装:

[35] UniversalCharDet の系譜
[36] GitHub - chomechome/charamel: 🌏 Truly Universal Encoding Detection in Python 🌎, 2025-05-19T12:46:16.000Z https://github.com/chomechome/charamel
[37] GitHub - jawah/charset_normalizer: Truly universal encoding detector in pure Python, 2025-05-19T12:51:46.000Z https://github.com/jawah/charset_normalizer
[40] Charset Detection | ICU Documentation, 2025-04-15T18:50:10.000Z, 2025-05-19T13:56:04.594Z https://unicode-org.github.io/icu/userguide/conversion/detection.html
[41] GitHub - hsivonen/shift_or_euc: Detects among the Japanese legacy encodings, 2025-05-19T13:59:56.000Z https://github.com/hsivonen/shift_or_euc
- [62] 日本語系文字コードの判定
[91] google/compact_enc_det: compact_enc_det - Compact Encoding Detection (2016-07-30 15:05:47 +09:00) https://github.com/google/compact_enc_det
- [42] GitHub - google/compact_enc_det: compact_enc_det - Compact Encoding Detection, 2025-05-19T14:08:52.000Z https://github.com/google/compact_enc_det/
[45] Encode::Guess::Educated - do something - metacpan.org, 2025-05-20T15:01:04.000Z https://metacpan.org/pod/Encode::Guess::Educated
[81] GitHub - vlm/zip-fix-filename-encoding: Fix cyrillic character encoding of filenames inside zip archives, 2025-05-16T10:03:38.000Z https://github.com/vlm/zip-fix-filename-encoding
- [144] zip-fix-filename-encoding/src/runzip.c at master · vlm/zip-fix-filename-encoding · GitHub, 2025-05-24T14:05:58.000Z https://github.com/vlm/zip-fix-filename-encoding/blob/master/src/runzip.c
- [61] キリル文字系文字コードの判定
[84] Wayback Machine, 2025-06-02T11:58:14.000Z https://web.archive.org/web/20250601053528/https://shoshia.tripod.com/pub/webconv.zip
- [64] GEO-CONV.PL
  - [65] &analyze
    - [66] >>64 はジョージア文字の変換器ですが、その改造元はキリル文字の変換器で、 (おそらく改変されていない)この関数はキリル文字の文字コードを出現頻度で推定するものです。注釈によると Stefan Mashkevich が1998-11-26に開発したものです。 KOI8, DOS866, WIN1251, ISO8859-5, MAC に対応しています。
[67] Universal online Cyrillic decoder - recover your texts, Petko Yotov, 2025-06-04T07:48:52.000Z https://2cyr.com/decode/
[73] Encode::Detect::CJK - A Charset Detector, optimized for EastAsia charset and website content - metacpan.org, 2025-06-25T08:14:27.000Z https://metacpan.org/pod/Encode::Detect::CJK
[77] チベット文字の文字コードにもチベット文字の符号の判定手法についてあり

[3] universalchardet は、 Mozilla が Webページの表示のために開発したものです。多くのプラットフォームに移植されて使われています。

[4] 次の符号化に対応しています:

utf-8 utf-16be utf-16le iso-2022-cn big5 x-euc-tw gb18030 hz-gb-2312 iso-2022-jp shift_jis euc-jp iso-2022-kr euc-kr iso-8859-5 koi8-r windows-1251 x-mac-cyrillic ibm866 ibm855 iso-8859-7 tis-620 windows-1253 iso-8859-8 windows-1255 windows-1252

[6] データだけで未実装: iso-8859-2 windows-1250

[276] compact_enc_det (ced) >>91 は、 Google による文字コードの判定のオープンソースライブラリーです。

[277] Google Chrome で採用されています。 Google 社内の検索や Gmail などでも使われていると言われています。

[278] この種のライブラリーの中でも精度は高いです。 Google検索で使われる Google 社内の世界最大規模の Webページデータベースの解析の成果が反映されていると見られます。ソースコード中でもいろいろな調整が入っている様子が窺えます。

[279] ただ逆に言えばオープンソースとはいえ Google 社員以外がこれを改善する改変を行うことは困難で、そのまま使うか、他のソフトウェアの改善のヒントに使うくらいしかできません。

[82] Charamel は Python 用ライブラリーです。機械学習によって Python が標準で対応するすべての符号化に対応したと謳っています。 >>36

[83] 実際に判定させてみると、他の判定器と比べて精度は今ひとつのようにも思われます。その中には類縁の他の符号化と判断されたものがあり、使用している文字次第でどちらとも判定できるので誤判定ではないと言えるものもありますが、それらを除外しても不一致が多いように感じられます。機械学習の方法による不透明なバイナリーデータを判定に用いているため、改善も困難と思われます。

[85] 付属の試験データ >>31 は実際の Webページらしきものやその他のテキストデータが含まれますが、各文字コードには機械的に変換したものと見られます。中には非ASCII文字が1つも含まれないデータしかない符号化もあり、試験データとして精査されたものとは思えません。

[88] Expose apparent_encoding_confidence. by martinblech · Pull Request #1796 · psf/requests · GitHub, 2025-10-19T13:06:53.000Z https://github.com/psf/requests/pull/1796

符号構造のみによる実装

[54] 符号構造のみによる実装:

[76] LV Homepage (in Japanese), 2025-06-25T14:34:54.000Z, 2001-01-19T05:51:42.277Z https://web.archive.org/web/20010119052900/http://www.mt.cs.keio.ac.jp/person/narita/lv/index_ja.html

現在の自動選択の方法は簡単なものです. ファイルを先頭から読み込んでいって, 8ビット目が立っている文字があった場合, 『その行』の中で euc-japan で使用される領域のみを使っていれば euc-japan, そうでなければ shift-jis です. つまり,『漢字らしきものを含む最初の一行』で判断しています. 8ビット目が立っている文字が見つからなければいつまでも自動選択のままの状態が続き, 判断が必要になったときに判断します. shift-jis の片仮名のみを使用した場合や, 運の悪いときは, 誤って euc-japan と認識されます.

[70] Add UTF-7 to replacement encoding list? / Encoding sniffing · Issue #68 · whatwg/encoding, 2025-06-17T03:18:44.000Z https://github.com/whatwg/encoding/issues/68

[71] Encoding: make it clear sniffing for UTF-8 is not acceptable by annevk · Pull Request #14455 · web-platform-tests/wpt · GitHub, 2025-06-17T03:20:29.000Z https://github.com/web-platform-tests/wpt/pull/14455

[199] Escape Codec Library: ecl.js, 2012-04-16T04:12:06.000Z, 2025-11-19T14:41:59.833Z https://www.junoe.jp/downloads/itoh/enc_js.shtml

[198] ISO-2022-JPとSJISとEUCJP(とUTF-8)をざっくり判別するアルゴリズム - うならぼ, 2025-11-19T14:38:09.000Z https://unarist.hatenablog.com/entry/2017/02/28/205401

品質検査

[590] 判定器の性能評価はいくつかの観点がありますが、動作速度やメモリー消費量などの一般的なソフトウェアの評価指標はもちろんとして、文字コードの判定の精度が最重要となります。

[591] ところが判定精度は評価が困難です。外部的な charset 指定やデータ形式で定められた <meta charset> 等の記述を利用する場合の挙動は容易に検査可能ですし、同じ条件ならすべての判定器が必ず同じ回答を返すべきであり、そうでないなら不具合だと断言できます。判定器の実装も決定的で安定した手法に違いないでしょうから、あまり多くのパターンを用意せずとも品質を確認できます。ところがそのような付加情報のないバイト列の文字コードの判定問題は、発見的手法の積み重ねで実装ごとに挙動が異なり、どの実装も完璧ではないことが前提となります。ある試験データの挙動から他の試験データの挙動を予測することは簡単ではなく、どのような試験データをどれだけ用意したかによって見かけの精度がまったく変わってしまいます。

[592] 対象となる分野の試験データを各種満遍なく大量に確保できれば良いのですが、どのように集めれば「満遍なく」と言えるのかすらも簡単には答えられません。そして、 UTF-8 化が進んでいる現在では対象データを探すのはどんどん難しくなっています。いっとき確保できたとしても、大量のデータを永続的に、しかも権利関係のトラブルなく開発関係者間で保持し続ける難しさも、継続的な開発の障害となります。

[593] Webページの場合、 Internet Archive の過去のサイトから実際のデータを試験データとして確保できます。ただし、古い Webサイトの URL を見つけて、人手で正しい文字コードを確認して「正解」データを整備する必要があります。古いサイトだけでなく実稼働サイトも試験データとすることで幅広い時代の言語に対応可能か検査したいところですが、実サイトは継続性に不安が残ることと、更新によって内容が変わってしまう可能性が常にあることに気をつけなければなりません。 Internet Archive に最新の複製を保存しつつ「正解」データを作るのが良いでしょう。

[594] ZIPファイルの場合、一般公開されずに流通しているものが多いと思われますが、それらを収集して試験データとして利用することは無理だと思った方が良いでしょう。公開ファイルは Webページと同じ要領で Internet Archive や実稼働サイトから探して使うことになります。近年ではどこの国でも政府や地方自治体でオープンデータの公開サイトを用意しており、 ZIPファイルで配布されていることが多いです。 UTF-8 化が進んでいますが、従来文字コードの ZIPファイルも未だに大量に生成され続けています。

[599] 各種の判定器の実装は、最低限の動作検証のための短い試験データを用意していたり、注釈やドキュメントに実例を示していたりすることがあります。このようなデータは実利用例そのものではないにせよ、各実装者の取り組んだ問題をコンパクトに表現したものであり、きっかけとなった実際の課題を反映しているはずです。実世界の事例そのものだけでなく、こうしたものも試験データとして有益と考えられます。

[600] ただし、こうしたものは極端に短く単体での出現は非現実的とも考えられますから、それに過度に適応するのも考えものです。

[595] 各種の判定器の実装は、テストデータを用意、公開しているものもありますが、いずれも分量はあまり多くありません。 Unicode の原文から変換されて作られたらしきものも多いです。中にはおよそ実用されたとは思えない自然言語と文字コードの組み合わせの試験ファイルも含まれていたりします。

[596] また、 Wikipedia の各言語の Unicode の文章を各種の文字コードに変換して、それを試験データとして使ったという報告も見られます。

[597] こうした試験データを使った性能評価は、実世界データの確保が難しい以上、やむを得ないと言わざるを得ないものではあります。限定的で人工的とはいえ、確かにある種の入力に対して正しく文字コードを判定できると確認できるのなら、それは当該ソフトウェアの品質検査として無駄とは言えません。ただ、そうした制限付きで恣意的な試験データによって他の判定器と性能を比較し、あちらの精度はどれくらいでこちらの精度はどれくらいだ、などと優位性を語るのは如何なものかとも思います。

[598] 確かに精度が低いよりは精度が高い方が優れているのかもしれませんが、それは他の性能指標や機能性 (文字コードのカバー範囲など)、あるいは開発の継続可能性 (改善・修正のし易さなど) 等々とのトレードオフでもあるでしょう。たとえ人工的な文書集合での精度が良いとしても、その集合が対象分野の実データの性質と乖離していれば、実践での精度とは違う意味のない数値にしかならないことも注意が必要です。重要なのは精度の数値自体ではなく、利用目的への適合性です。

[607] 各種判定器のソースコードをよく見ると、判定条件や状態機械の遷移条件などが間違っているのではないかと思われる事例もちらほら見られます。その性質上、境界値などのちょっとした不具合も全体の複雑さに埋もれて露見しにくくなります。多少であれば総合的な影響は少ないものの、短い入力や特殊な文章などに対する反応が悪くなるおそれがありますから、いろいろな試験データで動作を確認することが重要です。

頻度解析等の手法のためのテストデータ

[7] gecko-dev/extensions/universalchardet/tests at master · mozilla/gecko-dev · GitHub, 2025-05-17T09:04:18.000Z https://github.com/mozilla/gecko-dev/tree/master/extensions/universalchardet/tests
- [8] MPL 2
[9] juniversalchardet/data at master · seratch/juniversalchardet · GitHub, 2025-05-18T03:30:23.000Z https://github.com/seratch/juniversalchardet/tree/master/data
- [10] MPL 1.1 / GPL 2+ / LGPL 2.1+
[11] juniversalchardet/src/test/resources at main · albfernandez/juniversalchardet · GitHub, 2025-05-18T03:36:18.000Z https://github.com/albfernandez/juniversalchardet/tree/main/src/test/resources
- [12] MPL 1.1 / GPL 2+ / LGPL 2.1+
- [13] >>9 を含み、更に追加
[14] ude/src/Tests/Data at master · errepi/ude · GitHub, 2025-05-18T03:40:02.000Z https://github.com/errepi/ude/tree/master/src/Tests/Data
- [15] 「MPL 1.1 / GPL 2+ / LGPL 2.1+」、「Wikipedia と同じ」、「The Project Gutenberg と同じ」が混在
- [16] >>9 を含み、更に追加
[17] test · master · uchardet / uchardet · GitLab, 2025-05-18T04:21:47.000Z https://gitlab.freedesktop.org/uchardet/uchardet/-/tree/master/test?ref_type=heads
- [18] MPL 1.1 / GPL 2+ / LGPL 2.1+
[19] rust-chardet/tests/data at master · thuleqaid/rust-chardet · GitHub, 2025-05-18T05:01:25.000Z https://github.com/thuleqaid/rust-chardet/tree/master/tests/data
- [20] LGPL 3
[21] chardet/tests at main · chardet/chardet · GitHub, 2025-05-18T05:10:41.000Z https://github.com/chardet/chardet/tree/main/tests
- [22] 不自由なものを含む
  - [28] problematic licensing of /tests? · Issue #231 · chardet/chardet, 2025-05-19T06:27:37.000Z https://github.com/chardet/chardet/issues/231
  - [27] Documentation licensed only to non-commercial and personal use found · Issue #271 · chardet/chardet, 2025-05-19T06:24:05.000Z https://github.com/chardet/chardet/issues/271
[29] GitHub - Ousret/char-dataset: Public dataset used to challenge Charset-Normalizer, 2025-05-19T08:37:52.000Z https://github.com/Ousret/char-dataset
- [30] ライセンス不明
[31] charamel/tests/fixtures at master · chomechome/charamel · GitHub, 2025-05-19T11:59:39.000Z https://github.com/chomechome/charamel/tree/master/tests/fixtures
- [32] Apache 2.0 となっているが、出所の怪しげなファイルもある
- [33] Git LFS
- [34] 機械的に変換したファイルが多い?
[46] compact_enc_det/compact_enc_det/compact_enc_det_unittest.cc at master · google/compact_enc_det · GitHub, 2025-05-21T06:26:33.000Z https://github.com/google/compact_enc_det/blob/master/compact_enc_det/compact_enc_det_unittest.cc
- [47] Apache 2.0
- [48] C++ ソースコードに埋め込まれている
[605] libguess/src/tests/testbench at master · kaniini/libguess · GitHub, 2025-12-05T15:33:34.000Z https://github.com/kaniini/libguess/tree/master/src/tests/testbench
- [606] BSD3

メモ

[80] How to reliably guess the encoding between MacRoman, CP1252, Latin1, UTF-8, and ASCII - Stack Overflow, 2025-10-18T08:36:44.000Z https://stackoverflow.com/questions/4198804/how-to-reliably-guess-the-encoding-between-macroman-cp1252-latin1-utf-8-and

[51] mb_detect_encoding() は文字コード判定として使用できるか(その1) - t_komuraの日記, 2025-05-21T12:15:39.000Z https://t-komura.hatenadiary.org/entry/20090615/1245078430
- [50] mb_detect_encoding() は文字コードの妥当性検証として使用できるか(その2) - t_komuraの日記, 2025-05-21T12:15:09.000Z https://t-komura.hatenadiary.org/entry/20090621/1245595484
- [52] mb_detect_encoding() は文字コードの妥当性検証として使用できるか(その3) - t_komuraの日記, 2025-05-21T12:17:54.000Z https://t-komura.hatenadiary.org/entry/20090705/1246802467

[49] [ptexenc] 入力ファイルの文字コードの自動判定 · Issue #142 · texjporg/tex-jp-build, 2025-05-21T12:13:06.000Z https://github.com/texjporg/tex-jp-build/issues/142

[89] 21990 – When a rare EUC-JP character is present, explicitly (and correctly) labelled EUC-JP document is mistreated as Shift_JIS, 2025-11-16T05:48:11.000Z https://bugs.webkit.org/show_bug.cgi?id=21990

[90] 16482 – Hook up ICU's encoding detector and add a boolean param to Settings and WebPreferences, 2025-11-16T05:50:12.000Z https://bugs.webkit.org/show_bug.cgi?id=16482

autodetection