[18] universalchardet は、文字の出現頻度の統計データを元にバイト列の文字コードを判定する手法とその実装です。
[32]
当時は正常に表示されていたはずなのに現在 >>31 は文字化けしています。なんという皮肉でしょうか。
現在 Content-Type:
が text/html; charset=UTF-8
とされていますが、実際には windows-1252
で符号化されているようです。
[17] 本家 Mozilla の C++ の実装の他、各言語への移植版が存在しています。
UTF-32BE
,
UTF-32LE
,
X-ISO-10646-UCS-4-3412
,
X-ISO-10646-UCS-4-2143
が削除されるなど、
HTML Standard / Encoding Standard
方面の動きと連動した機能削減が行われている。[20] 次に示すのは独立した実装ではなく、他の実装のラッパーとして機能するものです。
[10] UNIVCHARDET 自体は1実装に過ぎず、何らかの標準でも、標準によって義務付けられた実装でもありませんが、 Web Applications 1.0 は文字符号化の決定算法の中で出現頻度分析に基づく推定の利用を認めており、 その具体例として >>1 を挙げています。
[9] HTML documents misinterpreted by charset sniffer を参照してください。
[25] >>24 は諸々改善されていることがドキュメントにあるが、近年の Webブラウザーの、 旧来文字コードを切り捨てていく方向に則ってるのが不安要素だなあ。
[28] >>27 は1バイト符号化の判定に大きな変更を加えている (従来未対応の文字コードへの対応を含む。) が、マージされずに長年放置されている。
Google search: A composite approach to language/encoding detection
三