Unicode地域符号

地域部分タグ (言語タグ)

[128] 地域 (region) 部分タグは、 特定の地域における言語のバリエーション (方言綴りの差異など) を表すために使うことあができます。 RFC 4646 2.2.4., RFC 5646 2.2.4.

[272] 言語タグ全体については、「言語タグ」の項も参照してください。

仕様書

呼称

[274] Unicode言語識別子Unicodeロケール識別子では領土 (territory) unicode_region_subtag とも呼ばれています >>276

文脈

[129] IETF言語タグ地域部分タグは、言語拡張言語用字系の後で、 その他の部分タグの前になければなりません RFC 4646 2.2.4., RFC 5646 2.2.4.

[145] IETF言語タグ地域部分タグは複数個あってはなりませんRFC 4646 2.2.4., RFC 5646 2.2.4.

[10] IETF言語タグ地域部分タグは、 他の言語と区別するような意味を持たない時は省略して構いませんRFC 4646 2.2.4., RFC 5646 2.2.4. 言語部分タグと地域部分タグの組合せ

[3] ScriptLangTag では、 用字系部分タグ (必須) の直後に1つだけ置けます。 省略も可能です。

[14] マップのローカライズ  |  Google Maps JavaScript API  |  Google Developers () https://developers.google.com/maps/documentation/javascript/localization?hl=ja

語彙

2文字ラテン文字

[130] 2文字のラテン文字地域部分タグは、

... で定義された、またはそれにより登録された2文字の国符号を更に IANA に登録したものです。 RFC 4646 2.2.4., RFC 5646 2.2.4.

[23] ISO 3166 も参照。

例外的予約国符号

[279] >>131 で「例外的の予約 (exceptionally reserved) 」された 2文字の国符号についても、 RFC 4646 には含まれていませんでしたが、 RFC 5646 においては IANA に登録され、利用できることとされています。 RFC 5646 2.2.4.

UK

[280] ただし、 GB と同義の UK は除外されています RFC 5646 2.2.4.

[291] Unicode地域符号としては、 UK も認められています。 ただし、やはり GB正規形とされています。 >>278, >>19

私用

[281] 私用AA, QM ... QZ, XA ... XZ, ZZIANA に登録されており、利用することができます RFC 4646 2.2.4., RFC 5646 2.2.4.

[282] Unicode言語識別子Unicodeロケール識別子では、そのうち特に XA .... XZ応用が使っても良いと定めています。 >>278

[283] 逆にそれ以外の私用Unicode領土符号は特別な意味を割り当てるために予約されているということです。

[5] XK は、コソボを表すため用いられています。 LDML もそれを追認しています (XK, XKK, 983) >>19

[18] LDML の「industry practice」という注釈になんとなくを感じますね。 あくまで慣習を記録しただけで主体的に規定するのではないという逃げ道を残しているような。

[2] 他の ISO 3166応用での割当については ISO 3166 を参照。

QO

[284] Unicode言語識別子Unicodeロケール識別子では QOOutlying Oceania を表します >>278

[21] LDML によれば QO / QOO / 961Oceania (009) のsubcontinent を持たないものを表します。 >>19

QU

[285] Unicode言語識別子Unicodeロケール識別子では QU欧州連合 (European Union) を表します >>278

[286] しかし EU を用いるのが好ましい (preferred) とされています >>278

[22] LDML QU / QUU / 967 >>19

[287] EU が割り当てられる前にこちらの意味が定義されたようです。

ZZ

[288] Unicode言語識別子Unicodeロケール識別子では ZZ未知・非妥当な領土 (Unknown or Invalid Territory) を表します >>278

[20] LDMLZZ / ZZZ / 999API で使ったり、 非妥当な符号を置き換えるのに使ったりすると注釈しています。 >>19

3文字数字

[132] 3文字の数字地域部分タグは、

... により定義、または登録されたものを更に IANA に登録したものです。ただしこれには例外が多くあります。 RFC 4646 2.2.4., RFC 5646 2.2.4.

[292] Unicode地域符号としては、 001 (世界) は標準形 (standard form) を表すとされています。 >>278

[293] 例えば ar-001 は現代標準アラビア語を表します >>278

[16] LDMLterritories 属性では、 領土固有の指定がない場合に適用される既定値を記述するときに、 001 が使われます。


[7] ScriptLangTag では、実装が言語用字系にうまく対応付けられないかもしれないので推奨されない (not recommended) とされます >>6

[8] 理論上は「北米スペイン語」「中南米スペイン語」のようなものに便利なのかもしれませんが、 フォント構成上そうした分類が必要にはなりにくいのかもしれませんし、 あるとしても国符号を列挙した方が相互運用性は高そうです。

歴史

[262] RFC 3066 では2文字国符号と、3文字から8文字の部分タグが2番目の部分タグとして認められていました。 3文字から8文字の部分タグIANA に登録することができるものとされていました。 1文字の部分タグは将来の拡張のために予約されていました。 RFC 3066 2.2

[263] 当時は用字形部分タグはなく、また私用は1番目の部分タグx を使うことによってのみ表せました。

[290] RFC 1766 では2番目以降の部分タグとして任意の値を登録できるとされていました RFC 1766 2.

[271] RFC 1766RFC 3066ISO 3166 における私用国符号 (>>130) に言及していました RFC 1766 2., RFC 3066 2.2.RFC 1766 では単に ISO で予約されているとしているだけでしたが、 RFC 3066 では使ってはならないとされていました。 RFC 4646 以降は使って良いとされています。