[10]
20世紀頃は文字とバイトの区別が明確になされないことが多くありました。
[3] 歴史的にオクテット列/バイト列と文字列は同義または類義と考えられていた場面もありますが、 本来両者は別のものです。
[6] 近年のプログラミング言語やデータ交換形式などではバイト列と文字列を区別するケースが増えていますが、
かつては同一視するのが一般的でした。
[35]
中華人民共和国ではバイトが字节と訳されています。
[12]
Unix 世界では通常ファイル名はバイト列です。
[8] JavaScript には長らく文字列の型 String しかありませんでしたが、
ES6 でバイト列のための TypedArray が追加されました。
それまでは文字列としてバイト列を扱うことがありました。
[2]
Emacs には文字コード体系を表す coding system
として、
ASCII + 8ビットデータに使える raw-text
とバイナリーデータに使える no-conversion
があります。
バイトは内部符号において他の文字と区別して表現されます。
[5]
Ruby にはASCII互換オクテット列を表す文字列のエンコーディング
ASCII-8BIT
があります。
[11]
バイト列を表すために ISO-8859-1 が流用されることがしばしばあります。
Python ではしばしばこのために latin-1 が用いられます。
[17]
MySQL / MariaDB には CHARSET=BINARY があります。
CHAR や TEXT が BINARY
だと
BINARY や BLOB と同じように扱われます。
[16]
IANA charset には不明な8ビット符号の文字列を表す
unknown-8bit
があります。
[18]
RFC 4790
は照合順序を定めるものですが、ここでいう照合順序はバイト列に対して定義された文字コードと比較・整列を包含する概念であり、
i;octet
のようなバイト列としての比較がその一種として定義されています。
[26] URL のパーセント符号化のように、文字列の中に escape として (文字を escape したものではなく) バイトを埋め込む形のものがあります。
[13] 文字コードの判定の処理は、便宜上、
入力がバイナリーデータであると判定することがあります。
null などでそれを表すこともありますが、
専用の文字符号化のようなものとして表すこともあります。
[15]
compact_enc_det
は、
BINARYENC, X-BINARYENC, binary
という値でバイナリーデータを表しています。
>>14