UTF8UTF8

UTF-8符号化されたバイト列

目次

  1. UTF-8 符号化されたバイト列
  2. UTF-8 符号化された Latin1
  3. UTF-8 符号化された TIS 620
  4. UTF8UTF8
  5. 関連
  6. メモ

UTF-8 符号化されたバイト列#

[9] Perlバイト列文字列として扱うことができます。これは同型復号に相当する暗黙の型変換を伴っています。 utf8::upgrade

[1] JSONバイト列を扱う方法として、相当する Latin1文字とみなす方法があります。 これは同型復号に相当する操作です。

UTF-8 符号化された Latin1#

[4] GitHub - grantm/encoding-fixlatin: CPAN module: Fixes Latin-1 and CP1252 characters in UTF8 data, https://github.com/grantm/encoding-fixlatin

UTF-8 符号化された TIS 620#

[2] thaiconv | Lyndon Hill, Lyndon Hill, , https://www.lyndonhill.com/projects/thaiconv.html

Cross coded UTF-8
TIS-620 that has been converted to UTF-8 Latin1 (0xA0-0xF0). For example, the Thai character that has the value 160 in TIS-620 may have the Latin representation é, this character gets converted to the Unicode for é. This mode is likely to be converted correctly only if the cross coding and decoding occur in the same locality.

UTF8UTF8#

[205] compact_enc_det/util/encodings/encodings.pb.h at master · google/compact_enc_det · GitHub, https://github.com/google/compact_enc_det/blob/master/util/encodings/encodings.pb.h#L150

  // Some external vendors make the common input error of
  // converting MSFT_CP1252 to UTF8 *twice*. No output conversion needed.
  UTF8UTF8             = 63,

[212] Encode::DoubleEncodedUTF8 - Fix double encoded UTF-8 bytes to the correct one - metacpan.org, https://metacpan.org/pod/Encode::DoubleEncodedUTF8

[214] Transliteration Tools for Indian Languages | ashishware.com, , https://ashishware.com/2006/06/25/Transl.shtml/

[215] >>214 本文前半は本当の UTF-8。後半は UTF-8 を再度 UTF-8 符号化したものか。

関連#

[213] 文字コードの修復, 同型符号化

メモ#