HTML documents misinterpreted by charset sniffer

HTML documents misinterpreted by charset sniffer

HTML (text/html)

[1] TX-NA906X(N) ( 版) http://www.jp.onkyo.com/product/txna906x/

Sniffed as Windows-1252, but it is Shift_JIS in fact.

[2] 地名☆京都の地名と通り☆京都観光まるごと案内☆ ( 版) http://www.sames-sab.net/38-timei.html

シフトJIS ながら、 Windows-1252 と判定されます。 Gecko でも一瞬化けて表示されますが、 すぐに再読み込みされてシフトJIS として処理されます。 HTTP charsetmeta charset とも指定されていません。

[3]

ChromeEUC なのにシフトJIS と誤判定されました。

[5] Big5 with no character encoding declarations at all.

>>6's 「つながり」 page - The frameset page is encoded in UTF-8, where the inner page is encoded in Shift JIS without charset parameter. (misinterpreted as UTF-8 by Chrome)

[7] http://www1.odn.ne.jp/akari-design/index.html/taiken2006.htm Firefox: 初見だと一瞬化けて表示されたのち、正しくなった

[8] >>7 404

[9] 沼津市内観光に関するお願い () http://www.lovelive-anime.jp/uranohoshi/sp/news01.html

Chrome ではシフトJIS判定されて読めない、Firefox では UTF-8 となり読める。

(HTTPヘッダーにもHTML文書にも文字符号化宣言なし。)

[10] �����ҵİ��ó�ư���, http://www.masaichi.net/yoriko/archives/report/

HTTPヘッダーtext/html; charset=UTF-8HTML<meta http-equiv="Content-Type" content="text/html;charset=euc-jp" />。 実際は EUC-JP。 おそらく昔は HTTPヘッダーがなかったのが、 サーバーの更新で charset=utf-8 が付くようになってしまったのだろう。

Firefox では手動で文字コードを変更して表示できるが、 Chrome にはそういうメニューがないので表示する手段がない。

[14] 文字コード変更メニューにも事例あり。

[15] 擬史能登伝, http://geo.d51498.com/CollegeLife-Labo/6989/GishiNotoDen.htm

charset 指定なし。 Firefox では windows-1252 判定されるが Shift_JIS が正しい。 文字コード変更メニューがなくなったので正す方法がない。

平文 (text/plain)

[12] >>11 Content-Type: text/plainFirefox でも Chrome でも Shift_JIS と誤認するが、実際は UTF-8

[13] >>12 Firefox開発ツールコンソールcharset がないと警告は出すが、警告だけでなにかしてくれるわけではない。 昔は文字コード変更メニューがあったのに、 削除されてこういうのを手動で修正することもできなくなってしまった。

メモ