文字コード

文字コード

[1] 文字コード (character code) は、文字符号化する方式です。 現在広く用いられている文字コードUnicode / UTF-8 ですが、過去には様々な文字コードが用いられていました。

[4]文字コード」は曖昧な用語で、少なくても次のような意味で使われることがあります。

[16] 更に、文字符号化は複雑な問題で、そのうちの「文字コード」 という語によって表される範囲も曖昧で文脈によります。

文字コードの一覧

ISO/IEC 646 系

ISO/IEC 8859 系

[23]

JIS X 0208 系

[26] JIS X 0208文字集合

EUC 系

EUC

シフト JIS 系

[33] このカテゴリーの符号多バイト符号と呼ばれることが多いです。

ISO/IEC 2022 系

[28] ISO/IEC 2022文字コードおよび似たような構造の文字コード

ISO/IEC 10646 系

[27] Unicode の類

その他

文字の名前とエスケープ

[24] 文字の識別には色々な方法が提案されてきました。 文字の一般的な呼称や意味に基づく名称を与える方法、 何らかの文字コードの値を文字列表現して用いる方法、 その混合で実に様々なバリエーションがあります。

文字コード扱いされることがある符号化や書式

[8] 符号化文字集合文字符号化方式とはいえないものの、 しばしば文字コードとして扱われる符号化の方式やデータ形式もあります。

文字コードの分類

文字コード群に関する仕様

その他の概念

[22]

応用

[32] 応用文字コード

セキュリティー

[25] 文字のセキュリティー参照。

関連

[2] 文字に割り当てられた数値としての「文字コード」については、符号位置を参照。

[5] 改行コードの選択や、 BOM の有無、利用する正準化の方式 (NFC など) もしばしば「文字コード」の違いに含められます。

[6] 実装によっては、内容転送符号化 (Base64 など) やプロトコルでのエスケープ表現 (パーセント符号化符号化語など) も文字コードと同列に扱っていることがあります。 しかし layering violation であり、良い設計とは言えません。

[7] 解説などでそうしたものを文字コードの一種として扱うものもありますが、 明らかに誤りです。

メモ

[3] A composite approach to language/encoding detection (Shanjian Li 著, 2007-01-24 09:18:52 +09:00 版) http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html (名無しさん)

[10] smontagu.damowmow.com (2004-01-07 23:56:12 +09:00 版) http://smontagu.damowmow.com/

[11] 統計学の力を借りて、文字化け退散! 解決&高速化編 - ψ(プサイ)の興味関心空間 ( 版) http://ledyba.org/2011/11/06191333.php

[12] Describe the security situation around encodings and require browsers to... · 2e43ead · whatwg/encoding ( ( 版)) https://github.com/whatwg/encoding/commit/2e43ead5c796e314cd3aaada10a2dc33de7bfaf1#diff-8d4d847e6257b75f4bf8030496281de4R65

[29] 電碼――中国の文字コード, , http://cryptiana.web.fc2.com/code/chinese.htm