仕様書

構文

[21] t 拡張は、それを表す t という部分タグの後に、言語タグと欄をつなげたものです。言語タグは変換元の言語を表しますが、省略できます。欄は変換についての追加情報を表し、任意の個数記述できます。ただし言語タグを省略した場合は、最低1つは欄が必要です。 >>5

[46] 大文字と小文字は区別しませんが、小文字が正準形です >>5。

変換元の言語タグ

[13] 変換元として t 拡張内に埋め込まれる言語タグは、正規かつ妥当かつ正準形でなければなりません。また、拡張や私用は含んではなりません。 >>5 なおここで「正規」とは、 irregular でなく regular に一致することをいいます。

[14] これらの制限により、1文字の部分タグ (i, x, u など) が含まれることはありません。1文字の部分タグは拡張や私用の区切りとして使われるので、 t 拡張内に含めることは原理上できません。更に、 RFC 3066 までに IANA に登録され、 RFC 4646 以後の正規な言語タグの構文に合致しないタグや、未登録のタグや正準形でないタグは使えないことになります。この辺りは少し厳し目ですね。なお、大文字と小文字の違いは正準形か否かとは独立しているので、問題となりません。

[15] 用字系だけを指定したい時は、言語部分タグとして und を使います >>5。

追加情報欄

[18] 変換についての追加情報を任意の個数、「欄 (field) 」として含めることができます。欄は先頭の部分タグとしてラテン文字と数字の2文字を使って表します。この先頭の部分タグを欄分離子 (field separator) といいます。 >>5

[20] ラテン文字の後に数字が来る2文字の部分タグは、拡張や私用を除き言語タグの他の部分で使われることがないので、変換元の言語タグの指定と明確に区別できます。

[22] 各欄は、欄分離子のあと、3-8文字のラテン文字や数字で構成する部分タグが1つ以上必要です。 >>5 それらの部分タグの意味は欄の種類により異なります。

[19] 例えば und-Cyrl-t-und-latn-m0-ungegn-2007 は UNGEGN の2007年版の転写法を用いてラテン文字から変換したキリル文字を表します。

[23] 同じ欄分離子を1つの言語タグで複数回使ってはなりません。欄同士の順序には意味はありませんが、アルファベット順で整列したものを正準形とします。 >>5

[24] アルファベット順というのは、 ASCII 順ということでいいのでしょうか。

[26] 欄の一覧

d0
i0
h0
k0
m0
s0
t0
x0

h1

[27] 欄の定義は LDML で規定されることになっていますが、実際には XML ファイルの構文が定義されているだけで、その意味は XML ファイル中に簡単に説明されているだけです。

u 拡張はもっと詳しい説明があります。

[28] t 拡張の定義は http://unicode.org/repos/cldr/trunk/common/bcp47/transform.xml に含まれると説明されていますが、実際には欄ごとに別のファイルに含まれています。

`m0` 欄

[29] m0 欄は変換方式を表します >>5, >>35。

[35] http://unicode.org/repos/cldr/trunk/common/bcp47/transform.xml

[30] この欄は最初に定義されたもので、 RFC 6497 にも説明があります。 RFC は他の場所の定義を要約したような体になっていますが、実際には RFC が最も詳しい説明のようです・・・。

[31] この欄に属する部分タグで数字だけで構成するものは、日付を表すことになっています。その場合、他の部分タグがなければならず、最後の部分タグでなければならず、 4桁で年を表すか、6桁で年月を表すか、8桁で年月日を表すかのいずれかでなければならず、できるだけ短くするべきです。この日付自体、必要な時だけ使うべきです。 >>5

[32] この日付の表現が XML ファイルに定義されなくても使っても良いものなのかどうかは明確ではありません。勝手に使っても良いとは書いてありませんが、現時点では RFC で例示されているものも含め、 XML ファイルには日付付きの値は登録されていません。

[33] 例えば und-Hebr-t-und-latn-m0-ungegn-1977 は UNGEGN の1977年版転写法によりラテン文字をヘブライ文字にしたものを表します。

`i0` 欄

[36] i0 欄は IME を表します >>37。

[37] http://unicode.org/repos/cldr/trunk/common/bcp47/transform_ime.xml

`k0` 欄

[38] k0 欄は鍵盤を表します >>39。

[39] http://unicode.org/repos/cldr/trunk/common/bcp47/transform_keyboard.xml

`t0` 欄

[40] t0 欄は機械翻訳を表します >>40。

[41] http://unicode.org/repos/cldr/trunk/common/bcp47/transform_mt.xml
- [55] 移転確認 2024-04-05T12:47:53.200Z
- [56] cldr/common/bcp47/transform.xml at main · unicode-org/cldr · GitHub, 2024-04-05T12:46:58.000Z https://github.com/unicode-org/cldr/blob/main/common/bcp47/transform.xml

`s0` 欄

[47] s0 欄は、アクセント処理、適切な引用符の選択、十六進数表記といったような種々の変形(元)を表します。「Transform source for non-languages/scripts.」と説明されています。

zawgyi

`d0` 欄

[47] d0 欄は、正規化、case folding、アクセント処理、適切な引用符の選択、十六進数表記といったような種々の変形(先)を表します。「Transform destination for non-languages/scripts.」と説明されています。

`h0` 欄

[48] 「Language mixed into hybrid language tag」を表すと説明されています。

[49] 値は妥当な言語タグでなければなりません。

[50] es-t-h0-en は Spanglish を表すとされています。

`h1` 欄

[51] 「Language mixed into hybrid translation source」を表すと説明されています。

[52] 値は妥当な言語タグでなければなりません。

[53] 「-t- subtag」 (t 直後) も妥当な言語タグでなければなりません。

[54] es-t-hi-h1-en は Hinglish から翻訳された Spanish を表すとされています。

`x0` 欄

[42] x0 欄は私用です >>43。

[43] http://unicode.org/repos/cldr/trunk/common/bcp47/transform_private_use.xml

[44] 構文的に適切な任意の部分タグの列を使うことができます >>43。すなわち、 3-8文字の英数字の部分タグを任意個指定できます。

適合性

[45] t 拡張の構文やその他の要件は RFC にいくつもありますが、 BCP 47 のいう「拡張の妥当性」には明確に言及されていません。例えば未登録の欄を使うと拡張は非妥当となるのかは不明瞭です。

拡張と安定性

[25] 新たな欄や値の定義は Unicode CLDR 技術委員会の手続きにより LDML に追加することで行われるとされています。 >>5

[34] 構文や意味を変更する場合には RFC が必要なものの、そのような安定性を損なう変更は Unicode Consortium の方針に反するとされています。 >>5

おまいう...

歴史

[58] 開発初期には拡張 s と拡張 t でわけて記述する案もありました。 >>57

[3] 2011-12-16付けで IANA に登録されています >>4。

例

[8] >>7 より:

"zh-t-i0-pinyin", to indicate Chinese text generated with a pinyin input method
"en-t-k0-dvorak", to identify a Dvorak keyboard for English
"it-t-k0-osx-extended", to request an extended Mac keyboard for Italian

私用のタグの例:

"ru-t-en-x0-mobile", to indicate a translation from English to Russian for use on a mobile device, or
"ja-t-de-m0-und-x0-medical", to identify a machine translation from German to Japanese with a specialized dictionary for medical terms.

[16] >>5 より:

ja-t-it はイタリア語から変換した日本語
ja-Kana-t-it はイタリア語から変換した日本語のカタカナ表記
und-Latn-t-und-cyrl はキリル文字から変換したラテン文字

メモ

[59] [ICU-12077] Add some code to handle BCP47 aliases for transforms (added by CLDR) - Unicode Consortium, 2025-08-16T14:30:39.000Z https://unicode-org.atlassian.net/browse/ICU-12077

拡張T

拡張 t (言語タグ)

仕様書

構文

変換元の言語タグ

追加情報欄

`m0` 欄

`i0` 欄

`k0` 欄

`t0` 欄

`s0` 欄

`d0` 欄

`h0` 欄

`h1` 欄

`x0` 欄

適合性

拡張と安定性

歴史

例

関連

メモ

拡張T

仕様書

構文

変換元の言語タグ

追加情報欄

m0 欄

i0 欄

k0 欄

t0 欄

s0 欄

d0 欄

h0 欄

h1 欄

x0 欄

適合性

拡張と安定性

歴史

例

関連

メモ

`m0` 欄

`i0` 欄

`k0` 欄

`t0` 欄

`s0` 欄

`d0` 欄

`h0` 欄

`h1` 欄

`x0` 欄