[93] 言語タグの1つ目の部分タグは言語です。 言語タグ全体が言語を表す識別子ですが、言語部分タグは特に狭義の言語を表します。
[108] 言語部分タグは、特に他と区別する必要がある場合は一次言語部分タグ RFC 5646 と呼ばれています。
[274] Unicode言語識別子、Unicodeロケール識別子では基底言語符号、
unicode_language_subtag
とも呼んでいます
>>280。
[7] IETF言語タグの先頭で必ず1個だけ使うことができます。
[8]
ScriptLangTag
の先頭で使うことができます。省略可能です。
[18] 地域部分タグとの組合せについては、 言語部分タグと地域部分タグの組合せを参照。
[97] 4文字のラテン文字である言語部分タグは、将来の拡張のために予約されています。 RFC 4646 2.2.1., RFC 5646 2.2.1.
[98] 5文字から8文字のラテン文字である言語部分タグは、 IANA によって登録された言語です。 ただし、 IANA に登録しようする前に ISO 639 に従い登録しようと試みなければならない RFC 5646 2.2.1. (以前は試みるべきである RFC 4646 2.2.1.)、またその登録に失敗したものは IANA にも登録されそうにないだろう、とされています。 RFC 4646 2.2.1., RFC 5646 2.2.1.
[100] 数字その他の文字や、9文字以上の部分タグを先頭に使うことは認められていません。
x
や i
以外の1文字の部分タグも認められていません。
mul
#✎[216] mul
(複数の言語) は、複数個の言語タグを指定できるなど他に方法がある時は使うべきではありません。
RFC 3066 2.3, RFC 4646 4.1., RFC 5646 4.1.
und
#✎[217] und
(未決定) は、
言語が必須である場合を除き使うべきではありません。
RFC 3066 2.3, RFC 4646 4.1., RFC 5646 4.1.
[10]
なぜ敢えてこれを SHOULD 要件という強い規定にしたのかは謎です。
普通はある言語だと指定したい要求があるから指定する、
それがなければわざわざ指定しないわけであって、
雉も鳴かずば撃たれまい、
この規定はあってもなくても良さそうなものです。
むしろこの規定のせいで、正当な理由で指定したいときにしづらくなっている感があります。
(SHOULD なので正当な理由があれば使ってもいいのですが...)
言語不詳だと指定したい気持ちがあるなら、
それは正当な理由ですから、気にせず und
を使うべきです。
[287] RFC 6497 は、言語を特に問題とせず、用字系についてのみ記述したいとき、
言語部分タグに und
を使うとしています。
[288] 例えば und-Latn-t-und-cyrl
はキリル文字からラテン文字に転写されたものを表します。
[6]
weekOfPreference
要素の
locales
属性では、
ロケール固有の指定がない場合に適用される既定値を記述するときに、
und
が使われます。
[9] Movie Atoms, , https://developer.apple.com/library/archive/documentation/QuickTime/QTFF/QTFFChap2/qtff2.html#//apple_ref/doc/uid/TP40000939-CH204-SW16
適当な値がなければ und
を使えるとしています。
[29] [malar_braille] BCP 47 tag modified, ramesh-k, , https://github.com/keymanapp/keyboards/commit/d429c808315b27ec520604a37dc546d17d619654
[30] >>29 は点字入力鍵盤。元は und-Brai
で表していたものを、
思いつく言語タグ + Brai
の羅列に置き換えた。本当にこれでええんか?
mis
#✎[221] mis
(未符号化) は、言語はわかっているものの言語符号が無いことを表していますが、
言語タグでは使うべきではありません。
und
か私用部分タグを使うべきです。
RFC 5646 4.1.
und
は不適切なんじゃないでしょうか・・・。私用を使うのがよいですね・・・。zxx
#✎[219] 歌詞の無い音楽や非言語的な音声、計算機言語などの自然言語に属さないものについては、
zxx
(非言語的、非適用可能) 言語部分タグを使うことができます。
[20] 地図作成 - 地図作成 - HERE Developer, , https://jp.developer.here.com/documentation/geojson-map-components-cartography/data_spec_guide/common/globals.html#languagebcp47
root
#✎[273] 言語タグの変種である Unicode言語識別子・Unicodeロケール識別子は、
言語部分タグに相当する部分で特別な値 root
を使っています。
[276] >>96 には ISO 639-2 による私用の
qaa
... qtz
も含まれています RFC 4646 2.2.1., RFC 5646 2.2.1.。
[277] Unicode言語識別子、Unicodeロケール識別子はそのうちの
qfz
... qtz
について意味を定義しないので他の応用が使っても問題ないとしています
>>279。逆に言えばそれ以外の私用の符号は (現在は未定義ですが)
将来的に特別な意味で使われる可能性があります。
[2] いずれにせよ、私用の値は相互運用性の問題の元ですから、 使うべきではありません。
[14] ConLang Code Registry (CLCR) では人工言語用の言語符号を私用3文字符号に割り当てています。 >>13
[15] ISO に正式な符号が割り当てられたことで取り下げされたものもあります。
[16]
long code (長符号)
として示されたものは IETF言語タグ (言語部分タグ art
+
私用部分タグ) のように見えますが、何の説明もありません。
[281] Unicode言語識別子、Unicodeロケール識別子は互換性のためにいくつかのマクロ言語について、
その全体を指す本来の意味ではなく、代表的な言語を表すことと解釈するとしています >>279。
例えば、 zh
は中文全体を指すものですが、特に cmn
(官話) のことを意味するものとみなしています >>279。
[40] XSL-FO では言語タグの登場場面である
xml:lang
属性値に inherit
が指定できます。
(XML 的にそんなのありかよ? と思いますが) この値は
xml:lang
属性の既定値 #IMPLIED
を明示した形になります。
>>308
[309] これは XML もIETF言語タグも認めていない、 XSL-FO だけの独自仕様です.
Zinh
という値がありますが、
言語タグでは使うべきではないとされていますし、
言語タグ全体ではなく用字系にだけしか指定できないものです。
inherit
に相当するものはIETF言語タグの体系には存在していません。[22] 綜語 / 宇田川浩行 / デライト, 希哲社, https://dlt.kitetu.com/?fg=KNo.F85E/45E0
情報処理では ISO の言語コード・国名コードを独自に拡張し「syn_KTK」(三文字),「sy_KT」(二文字)を用いる。これにより,同じ情報を一般的な日本語(ja_JP)と,実験的な綜語で訳し分ける事などが可能になる。
[23] デジタルシネマ 名前付け規則 / 付録1ab: 言語コード一覧表 (日本語訳) – シネマテクノロジー, , https://cinematechnology.jp/dcnc/dcnc-appendix-1ab-language-codes
言語コードは ISO 639-1, 639-2, 639-3 に準拠します。
特例として、 “
LAS
” はラテンアメリカ系スペイン語を表しますが、ISO 639-3 の定義ではラマ語(トーゴで話される言語)を表します。映画配給業界の慣習で “LAS
” はラテンアメリカ系スペイン語として既に広く使用されているため、この名前付け規則ではラテンアメリカ系スペイン語として使い続けることにしました。
音声言語名または字幕言語名が記載されていない場合、名前付け規則の言語コードには
XX
を使用します。このコードは
ContentTitleText
要素内でのみ使用します。
Language
要素が存在しない場合、音声または字幕言語が存在しないことを意味します。
[24]
>>23 この名前付け規則言語コードはその他にも Q
から始まる私用の符号や、
4字の独自の符号を定めています。それ以外でもいくつか非標準のものが混じってそうな。
[31] skf の内部コードやプログラム内部で使われる言語は、 ISO 639-1 の英字2字符号 (大文字) にいくつか追加したものです。 >>32, >>35
NU
は、「言語ニュートラル」です。 >>32@N
は、「Unicode であり、言語中立である」です。 >>35@U
は、 「Unicode でない」です。「言語中立かどうかとは無関係」
です。 >>35EM
は、「ヨーロッパ系の混在言語」です。 >>35US
は、「米英語」です。 >>35skf_2.00.17.tar.xz
の doc/5.languages.txt
[127] 言語部分タグは RFC 1766 以来ずっと最初の部分タグとして存在しています。
[269] RFC 1766 は2文字言語符号を使ってもよいとしていました。 RFC 1766 2.
[261] RFC 3066 は2文字言語符号、3文字言語符号を使ってもよいとしていました。 RFC 3066 2.2.
[270] RFC 1766 と RFC 3066 はその他には私用の x
と
IANA 登録用の i
を認めており、それ以外はすべて使用禁止とされていました。 RFC 3066 2.2.
[289] RFC 7033 - WebFinger ( ( 版)) https://tools.ietf.org/html/rfc7033#section-4.4.4.4
x
である場合 (私用) とi
である場合 (祖父) があります。 RFC 5646 2.2.1. (後述)