[262] 大文字と小文字は区別しません (どちらでもいいです) が、 プロトコル等で特別に定めていることもあります。
ja
(言語タグ)[81] ja
は日本語を表す ISO 639 言語符号であり、
言語タグであります。
[82] 特に細かい指定が必要ないときはこれを使います。
ja-JP
(言語タグ)[21] 日本国で使われる日本語と特に明記する必要がある場合は、
言語タグ
ja-JP
を使うことができます。
[59]
実際には、日本国以外で日本語が使われる場面は多くなく、
しかも国の違いを明示する必要がある場面はその中でもわずかなので、
ja
とだけ書くのが一般的です。
[60]
特定のプログラムの仕様等で地域部分タグが必須な場合や、他の言語タグとの統一性のため地域部分タグを明示したいような場合もあって、
ja-JP
が使われることもままあります。
しかしそうした事情がなければ、短くて必要十分である ja
が望ましいと考えられます。
ja_JP
(POSIX ロケール識別子)[58]
POSIX locale ja_JP
は日本国の日本語のロケールを表します。
[61] POSIX では言語符号と国符号を組み合わせて両方明記するのが一般的です。
[62]
稀に誤って言語タグ ja_JP
が使われることがあります。
(この誤りは日本語以外の言語タグでもみられます。)
言語タグの構文に違反しており、明確な誤りです。
jp
(言語タグ)[7]
jp
は、
よく誤って使われる日本語を表しているらしい言語タグです。
[64]
国符号が JP
なので、よく日本語も誤って jp
と記述されるのです。
[65]
多くの実装は jp
に対応しておらず、未知の言語とみなします。
[66]
なお、日本語を ja
と表し jp
と表さないのは ISO 639
言語符号の仕様に過ぎず、人間同士で便宜上用いる略号や、
ISO 639 以外の言語符号で日本語を 「jp」「JP」
と表すことは必ずしも誤りではありません。
[67] ただ、紛らわしい表現であることは確かです。 また、日本語のことを人間同士で「JP」や「JA」と略すのは、 英語話者の間でも、日本語話者の間でも、 一般的な表現ではないので、伝わりやすいとはいえません。 確実に伝わるといえる場面以外では避けるべきです。
[68]
また、 Accept-Language:
に相当する Webブラウザーの設定に自分で
jp
を追加している人も稀にいるようです。
jpn
(言語タグ)[87]
jpn
は日本語の ISO 639 3文字符号です。
言語タグとしては使えませんが、極めて稀に使われることがあります。
japanese
(言語タグ)[83]
極めて稀に言語タグ japanese
が使われることがあります。
[85] 対応している実装はみたことがありません。
日本語
(言語タグ)[88]
極めて稀に言語タグ 日本語
が使われることがあります。
[90] 対応している実装はみたことがありません。
jpx
[126] >>125 は津軽弁を追加しようとしたものの、言語タグがわからず、(おそらく)断念しています。
[127] 言語タグ体系が整備されていないことで自分の使いたい言語を自由に使えないという実害の1事例といえ、 由々しき事態です。
[2] ja_KS
は、 Facebook が関西弁を表すために使っている
>>1 ロケール識別子です。
[3] 他の ja_JP
などは POSIXロケールと同じですが、
ja_KS
は Facebook 独自のもので、 Facebook
以外のシステムでは使えません。
KS
の部分は ISO 3166 の国符号を使うことになっています。
将来もし KS
なる国符号がどこか新しい国に割り当てられ、
そこで日本語が使われるようになると、衝突します。[13]
Webブラウザーの
Vivaldi
は、
ja-KS
というロケール識別子を使っています。
>>12
[14] BCP 47 言語タグのような構文ですが、 BCP 47 言語タグとして使われることもあるのかどうか不明。
[15]
Android 関連のファイルでは Android のロケール形式により
ja-rKS
となっています。 >>12
[20] 関西弁のネイティブスピーカー・ボランティア翻訳者、大募集(しました)! | Vivaldiブラウザ, https://jp.vivaldi.net/announcement/kansai_translator/
[4] BCP 47 言語タグとして、
ja-JP-kansai
が使われることがあります。
[9] IANA登録簿には未登録です。 言語タグの古い仕様書では正当な言語タグだったのですが (当時は未登録でもOKだった)、 その後の仕様の非互換変更のせいで、本稿執筆時点では非妥当な言語タグになってしまっています。
[249]
大阪弁の言語タグに ja-osaka
があります。
[250] 古くから例文でよく使われています。大阪弁の言語タグの事実上の標準といって良いでしょう。 実利用がどれだけあるかは不明です。
[86]
言語タグ
ja-ryuukyuu
が平成時代中期頃に提案されていました。
実用例は見当たりません。
[130] ISO 639 言語符号 / IETF言語タグで琉球諸語を表すものがあります。
[148]
>>147 は沖縄語の辞書の XML 移植版ですが、
ryu-Hira
,
ryu-Jpan
,
ryu-Latn
,
jp-Jpan
を使っています。
最初の3つは沖縄語の見出し語の各種表記、
最後は日本語の説明文。
[149]
IPA 発音記号列を Latn
とするのは誤りではないものの、違和感があります。
[147] - 6_s206.pdf, , https://researchmap.jp/SoMiyagawa/published_papers/40398156/attachment_file.pdf
[76]
日本語の古語を表す言語タグ
ja-classic
,
平安時代の日本語を表す言語タグ
ja-classic-heian
が平成時代中期頃に提案されていました。
実用例は見当たりません。
[212]
平仮名の読み仮名を表すため言語タグ
ja-Hira
>>211, >>213, >>219
が使われることがあります。
[78]
片仮名の読み仮名を表すため言語タグ
ja-Kana
>>209, >>213, >>223, >>231, >>287, >>291
が使われることがあります。
[220]
他に言語タグ
ja-Hira-JP
>>214, >>215
や言語タグ
ja-Kana-JP
>>102
が使われることがあります。
[77]
言語タグ
ja-Hrkt
>>222
が使われることがあります。
ひらがなかカタカナかを問わないことを示すためでしょうか
(>>222 の例示はすべて平仮名)。
[275]
Semantic Web 系のデータベースでよみがなの意味の ja-hrkt
が実用されている事例
>>310
をみました。
[298]
なお ja-Kana
については >>282 も参照。
これら 2 つの属性では、locale サブ属性に言語を表す値を設定することで、クラウドサービス
が 必要 とす る言 語の 値を 取り 出す こと に対 応す る。 locale サブ 属性に 設定 する 値に は、 [RFC5646] の形式で、IANA Language Subtag Registry に登録された値を用いる。同一言語で 異なる表記がある場合は、script subtag の値を含めることで対応する。具体的には、次のよう な値とする。
No 表記 locale サブ属性に使用する値 1 漢字表記 ja-JP 2 よみがな表記 ja-Hira-JP 3 ローマ字・英語表記 en-US よみがな表記は「ひらがな」で値を設定するものとする。クラウドサービスが「カタカナ」で
値を必要とする場合は、クラウドサービス側で「ひらがな」で受け取った値を「カタカナ」に変 換する。
[232] なお、これらの言語タグは読み仮名用の識別子に使われることが多いですが、 「読み仮名」という言葉が持つ「本来の表記は漢字仮名混じりであるところ、 発音を明確にするため仮名表記でも併記する」というニュアンスは言語タグ自体には表れていないことには注意が必要です。 そのようなニュアンスが必要だとすると、言語タグではなくそれを利用する文脈 (プロトコルやデータ形式やそれらを活用する応用) の側で定める必要があります。
[233]
例えば日本語 (ja
) と英語と仏語と・・・のデータを併記できる多言語文字列対データがあったとして、
そこに ja-Hira
のデータを追加したとしても、
日本語や英語や仏語と並列の別の言語のデータと解釈されるのが自然で、
ja
と ja-Hira
が対になっていてセットで使われるデータと解釈されるためには特別の規定と処理が必要になります。
[234]
読み仮名だけでなく「平仮名のみの文章」や「片仮名のみの文章」も
ja-Hira
や ja-Kana
で表される対象であることにはやはり注意が必要です。
具体的には、
のようなものがあります。 設計者はこうしたものと読み仮名の共存が必要かどうか、可能かどうかを考慮しなければなりません。
[279] >>278 これは言語タグによる区別でいいのではないかとの問いに対し、 読み仮名であることを別に表す方が便利との回答。
[91]
日本語ローマ字表記を表す言語タグ
ja-Latn
が使われることがあります。
>>162, >>209, >>211, >>223, >>229, >>231, >>251
[241] ほとんどの用途は読み仮名に相当するローマ字併記を表すものです。 これについては >>232 を参照。 それ以外のローマ字文は例えば
があります。これらにもやはり ja-Latn
が使えます。
[173]
登録ファイル付でIANA登録簿に登録された異体部分タグ
hepburn
があります。
接頭辞は
ja-Latn
とされます。
ヘボン式ローマ字を表します。
>>174
[175]
つまり言語タグ
ja-Latn-hepburn
で日本語のヘボン式ローマ字表記を表せます。
[176]
この hepburn
の登録には、
のヘボン式考案から近年のウェブページまでいろいろが参照されています。
そしてヘボン式には色々な変種があれども、それらを区別するのは生産的でないと主張しています。
>>174
つまり hepburn
は「ヘボン式といわれるいろいろな手法のどれか」を表しています。
[178]
hepburn
という部分タグの意味はの旧ヘボン式であるかのように説明があるのですが
>>174、
それに続く何が言いたいのかよくわからない文章を読んでいくとどうやら「ヘボン式」
全般を包括的に表したいらしい (>>176) ことが判明します。
[188] それを念頭に読み直すと旧ヘボン式の説明の後になぜか
The common characteristic of Hepburn romanization in its many variants, apart from the name, is an emphasis on approximating Japanese _pronunciation_ using English or European spelling conventions. Hepburn romanization does not attempt to parallel or transcribe the Japanese logographic scripts (hiragana or katakana).
と各種ヘボン式の「共通の性格」を説明した段落があります。 >>174
hepburn
が意味する「ヘボン式」の範囲はこの記述から推測する以外ありません。
[179] つまり、
というのが共通の性格だといっています。ただこの「共通の性格」
というのも曖昧な表現で、この性質を絶対に満たすものが hepburn
だと言っているようにも理解できますし、 hepburn
の多くはこの性質を満たすがそうでない例外ケースもあり得るという解釈も一応可能です。
[183] この説明から当然浮かんでくる疑問は
hepburn
に該当するのかhepburn
に該当するのかhepburn
に該当するのかhepburn
に該当するのかといったようなものですが、いずれも hepburn
の意味の根幹に関わる疑問です。
[196]
なおローマ字以外にヘボン式は存在しないので
Latn
と明示するのは冗長に思われますが、
ja-Latn
にしか対応していない実装でも
ja-Latn
にフォールバックできるというメリットがあります。
[192]
付 >>190 (登録ファイルは付)
でIANA登録簿に登録された異体部分タグ
heploc
があります。
接頭辞は
ja-Latn-hepburn
とされます。
米国 Library of Congress の方式のヘボン式ローマ字を表します。
>>189
[193]
つまり言語タグ
ja-Latn-hepburn-heploc
で日本語のヘボン式ローマ字 (米国 Library of Congress 式)
表記を表せます。
[194]
ところがこれは付 (登録ファイルは付)
で非推奨とされました。
alalc97
が好ましいとされています。
つまり
ja-Latn-hepburn-heploc
は
ja-Latn-alalc97
とするべきとされています。
>>190
[195]
わずか数ヶ月での朝令暮改ですが、これは登録ファイル付で日本語に限定しない
alalc97
が登録された
>>191
ためそちらに寄せるべきと判断されたことによります。
ja-Latn-hepburn-heploc
を
ja-Latn-alalc97
に置き換えるべきと実装するのは不可能です。これは当時指摘されていますが >>246、
対処されなかったようです。[245] ヘボン式以外の方式、例えば訓令式用で広く通用する言語タグはありません。
[205] 拡張Tによって記述できる転写方式もあります (>>199)。
[208]
>>207 は
ja-Latn-s-Hani-t-Hepburn
(ヘボン式),
ja-Latn-s-Hani-t-Kunrei
(訓令式)
という例を示しています >>207 が、
これらは当時の提案
(後に拡張Tに統合され構文がまったく違うものに変更されたもの。)
に沿って >>207 のブログ記事著者が独自に考案した利用法を提案したもので、
このまま使うことはできません。
[258]
ja-Latn-x-hepburn
を使ったものもあります。
>>257
[216]
「ローマ字・英語」を en-US
とすると定めている応用もあります
>>215。
[285]
「英語名 (もしくはローマ字表記)」
を
en
とすると定めている応用もあります >>284。
[292]
欄ごとに en
を日本語ローマ字と説明したり、
英語と説明したりするものもあります >>291。
[217]
English だけでなく日本語ローマ字表記まで en
とするのは厳密には誤りに近いですが、
実運用上日本語ローマ字と英語の区別が難しいことも多い
(
[218]
なお、その場合でも en
, en-GB
, en-US
, en-JP
等からどれを選ぶかは検討の余地があります。
[79]
読み仮名やローマ字表記に対する本来表記を表す
(例えば「氏名のよみがな」欄に対して「氏名」欄を表す)
ときには、通常の言語タグ
ja
を使うことが多いです。
[252]
言語タグ
ja-Jpan
>>251, >>259, >>260, >>291, >>305
や言語タグ
ja-Jpan-JP
>>261
が使われることがあります。
[253]
しかしながら、用字系抑制の規則があるので、特に理由がなければただの ja
を使うべきです。
[221]
稀に本来表記に言語タグ
ja-Hani-JP
が使われることがあります。
>>102
[277] OpenID Connect の仕様書に
ja-Hani-JP
と ja-Kana-JP
で漢字名とヨミガナ名を表すとの例示があります >>276。
あくまで例示ではあるものの、仕様書にはっきりと明記されてしまっているので、
一般の解説記事もそれに従って紹介していて >>290, >>288, >>289
何の疑問も挟まれていません。
実装仕様がウェブ公開されているもの >>102
以外にも各所で使われてしまっていると考えるべきでしょう。
[80] Hani
は漢字を表します。漢字名と説明されており >>102, >>276、
その説明を忠実にあらわす符号ではあるのですが、
実際には漢字だけとは限らず仮名やラテン文字が含まれることもあり得ると考えられ、
Jpan
がより適切とも思われます。
[225]
>>224 3. は誤解。漢字統合と Hani
は無関係。
[226]
用途がないというのはその通りで、万葉仮名など特殊な事例以外で
ja-Hani
の出番はなさそう。
[306] >>305 は ja-Jpan
とともに ja-Hani
を例示しています。
意図はよくわかりません。
複数の言語/スクリプトの組み合わせの名前 (たとえば日本語の [漢字 + ひらがな + カタカナ、xml:lang="ja-Jpan"] および漢字 [xml:lang="ja-Hani"]);
[308] >>307 これは機械的に全組み合わせを例示していて、確かに値の説明にはなっていますが、 いつ何のためにこれらを使うべきなのかは何も説明されておらずわかりません。
[296]
平成22年度の日本政府の総務省の事業であるメタデータ情報基盤構築事業のまとめた指針は、
RDF
において特性の値の言語タグを ja-Kanji
(原表記)
と ja-Kana
(読み、実例ではひらがな)
で区別する方法を推奨していました。
>>295
[297]
メタデータ情報基盤構築事業はその他に、
本来表記と読みが区別される場合において、
仮名の読みとローマ字の読みを区別するため
ja-Kana
(実例では片仮名)
と
ja-Latn
を使う方法を示していました。
>>295
[300] ここで ja-Latn
を使っているということは、
4文字の用字系部分タグの標準化を認識した上で書かれているはずですが、
片仮名を表す Kana
で平仮名と片仮名の両方を認めていたり、
4文字の用字系部分タグではない Kanji
で「じゃない方」を表していたり、
微妙に独自路線を行っているのが不思議です。
[294]
RDF
において
ja-Hani
(原表記)
と
ja-Kana
(片仮名)
による区別を例示した解説もあります。 >>293
>>296 とよく似た内容であり深い関係性が窺われます。
[282]
日本の国立国会図書館が運営するジャパンサーチは
ja-Kana
を使っています >>280, >>284 が、
なぜかその意味を
言語タグ
ja-Kana
は、カタカナだけでなくひらがなを含めた読みのために用いる。
と定めています >>281。これは明確な誤用です。しかもこの書き方から、
Kana
が片仮名だとわかっていて敢えて使っているように読めますが、
その意図は説明されておらず不明です。
[283] 不明ではあるのですが、 >>296 から >>294 を経て >>282 に至ったとすれば話が綺麗に繋がります。 話は繋がるものの、「なぜ」はやっぱり不明です。
[304] 図24では本来表記に ja
、
カタカナ表記に ja-Kana
を使っている。
ja-Lath
は明らかに誤りで、利用例は示されていない。
ja-Kanji
の利用例も示されていない。
[74] 平成時代中期頃、正字正仮名文の言語タグの提案がいくつかありました。 実用例は見当たりません。
[69] ねこめしにっき(2001年4月中旬), , http://www.remus.dti.ne.jp/~a-satomi/nikki/2001/04b.html#d11n03
野嵜さんのテキストの引用部分へ
lang="正字正假名-ja"
を指定する事にして事無きを得てもよいですか。(笑)
[37]
正字正假名の日本語を
ja-trad
と表す提案がありました。
>>53
[143] Pleroma/nixeneko, https://nixeneko.info/notice/9iXYptD9JgifHDGuZs
PleromaにJapanese (Traditional)とかいって旧字旧仮名ロケールを追加したらどうだらう
[144] Pleroma/nixeneko, https://nixeneko.info/notice/9iXaJ219kjqqwS7cwK
現状のPleromaの言語、言語タグでいくとja-Hrktといった趣がある。
[145] Pleroma/nixeneko, https://nixeneko.info/notice/9iXeyQQMJYpkKJu6CG
旧字旧仮名日本語の言語タグ、ja-x-tradとかになるのかな。
[23] 元号を使うことを明示するために言語タグ
ja-JP-u-ca-japanese
を使うことがあります。
[56]
また、
日本関係の
u-nu
の値として、
jpan
,
jpanfin
,
jpanyear
があります。
数字表記の方法を明示したいときに言語タグに組み入れて使うことができます。
[165]
>>164
は
ja-JP-u-ca-iso8601-tz-jptyo
という例を示しています。日本国の日本語で ISO 8601 式の東京時間を表します。
[166]
>>164 は「ISO 8601 形式の日付・時刻、日本標準時」と解説していますが、
u-ca
の登録では
iso8601
は
ISO calendar (Gregorian calendar using the ISO 8601 calendar week rules)
と説明されています >>171。 つまりただ ISO 8601暦というだけではなく週暦を表しています。 これを「ISO 8601 形式の日付・時刻」と要約するのは甚だ誤解を招きます。
[167] 人工的な用例の提示とはいえ日本でほとんど利用のない週暦をわざわざ使った意図は謎で、 >>164 の著者も「ISO 8601 calendar week rules」を見落としている可能性があります。
[169] というか >>164 は Unicode Consortium の登録簿か何かから「抜粋」して
iso8601 ISO-8601 Calendar ↑↑↑ ISO-8601
と書いているのですけど、この「抜粋」する前の記述はどこなんですかねえ。 大事なところが省かれてるじゃないですか。
[172] ということで探したらありました。登録簿 >>171 ではなく表示用の文字列データ >>170 では「ISO-8601」「ISO-8601 Calendar」のようになっていて、 >>164 はそれを拾っていたのですね。 変な定義しした Unicode Consortium と不正確なラベルを付ける Unicode Consortium が一番悪く、 定義でないところを参照した >>164 がその次に悪い。
[199] 言語タグの拡張Tを使うとどのような変形を経て得られたものかを記述できます。
[255] >>254 は絵文字のフォント選択の制御のために拡張Uを使う例を示しています。
[256] 説明のための人工的な例で、実用的ではありません。
mul-kambun
(言語タグ)[92]
mul-kambun
は、
(日本の) 漢文用の言語札です。
[94]
漢文は中国語 (ただし現代中国語ではなく、古典中国語)
としての性質と日本語としての性質を併せ持っていますから、
mul
と札付けするのが適当だと考えます。
[95]
白文、訓読文、書き下し文のいずれにもmul-kambun
を使えます。
これらを区別する必要がある場合のlanguage tagも必要かもしれませんが、どういう名前が良いか検討が必要です。
和様漢文を区別する必要があるかも検討が必要です。
ja-2ch
(言語タグ)[97]
ja-2ch
は2ちゃんねる語を表す言語タグです。
[98] 平成時代中期に独立して方々で考案され使われました。
[134]
当時は ja-2ch
は仕様上も正当な言語タグでした。その後 IETF言語タグが一般で使われている言語タグの実情を調査することもなしに非互換変更してしまったので、
現在のIETF言語タグの仕様では規格違反になってしまいます。
[135] 利用者はこの問題を深刻に捉える必要はありません。 非互換変更は完全に IETF のミスです。 2ちゃんねる語は 2ch の衰退でほぼ死語で、 今後この言語タグが今まで以上に普及するとは考えにくいので、 今更理論上だけの仕様適合性にこだわるより、従来の記述方法との連続性の方が重要です。
[49]
ja-JP-mac
や
ja-JPM
は、 Macintosh の用語の指針に基づいた日本語を表すロケール識別子として使われることがありました。
[50] L10N FAQ - 日本語パックについて http://www.mozilla-japan.org/jp/l10n/faq/jlp.html#what_is_ja-JP-mac
[51] 418485 – "ja-jp-mac" is not a valid language code. Please stop using it. ( 版) https://bugzilla.mozilla.org/show_bug.cgi?id=418485
[52] ja-JP-mac (Language tag) - SuikaWiki Data ( 版) https://data.suikawiki.org/lang/ja-JP-mac
[105] 翻訳管理サービス Transifex の対応言語の1つに 「Japanese (Hiragana) (ja-Hira)」 があります。 >>112
[116]
ただしこの
Transifex
の言語リストに示された符号がどのようなものなのかは明記されていません。
構文は
POSIX locale
識別子に近いようですが、
ja-Hira
のように
IETF言語タグにも見えるものが混じっています。
[117] この 「Japanese (Hiragana)」 がどのような利用を想定したものなのかはよくわかりません。
[119] プログラミング言語プラットフォームで子供のプログラミング教育で人気のある Scratch は、これを子供向けの平仮名表記の日本語のために使っているようです。 >>118
[121] また、 >>99 ではやさしい日本語のために使っています。 しかしやさしい日本語は平仮名表記の日本語ではなく、かな漢字混じりなので、 誤用に当たります。
[100]
やさしい日本語には言語タグ
ja-simple
を使えます。
>>99
[101]
日本語を表す言語部分タグ ja
と、
簡易化された言語変種を表す異体部分タグ simple
>>103
を組み合わせたものです。
[263]
ただし、 ja-simple
は単純化された日本語全般を表し、
やさしい日本語だけを表すのではないことには注意が必要です。
例えば、
といったいろいろなものが ja-simple
に当てはまり得ます。
[272] もし他の平易な日本語と異なるやさしい日本語だけを特定したい場面や、 何種類もあるうちの特定のやさしい日本語の指針等に従ったものだけに限定したい場面があるなら、 より限定的な専用の言語タグを決める必要が出てきます。 今のところそのような提案はなされていないようです。
[104]
なおやさしい日本語を使うプログラムで
ja-basic
も使われている >>99 とありますが、
IETF言語タグとして出力される場面があったのかは不明。
さらっとコードを眺めた感じは内部用のみで外には出していない (ja-JP
を使っている)
ように見えます。
[273] もしそうだとすると、 >>99 の投稿者は basic
が登録されたIETF言語タグの部分タグでないことを問題視していますが、
そもそもIETF言語タグではないので何も問題はありません。
>>99 が却下されたのもそれが理由なのでしょう。
[122] このコードは日本国東京都の運営するウェブサイトだったのですが、 本段落執筆時点で既にサーバーが停止されていて閲覧できません。 Internet Archive だと参照しているファイルを読み込めずに、読み込み中の表示から先に進みません。 開発にも運営にも、 行政が公開した情報を次の時代に伝えようという意志がまったく感じられない酷いサイトですね。
[274] おかげで >>104 >>273 が正しいのか検証するのは困難です。
[124] ソースコードが残っているだけまだ良心的ですが、それも GitHub が永続的に保存してくれているからというだけの話なので、 ほんとにたまたま残ったものが少しだけあったということです。
[309]
いわゆる怪しい日本語の主流である、
中華人民共和国の業者等が日本市場向け製品説明等で使う独特の日本語は、
言語タグ
ja-CN
で表すのが適当と考えられます。
[30] 日本語の方言にも星の数ほど種類がありますから、全部 ja-foo にすると大変なことになります。
一つの提案として、日本国内の地域を主要な使用域とする方言は
ja-JP-大地域名-* とし、大地域名としては地域名
(kansai
など), 現行の47都道府県名, 明治時代の旧国名くらいに制限し、それ以上の細かいものは地域的あるいは言語的に近いものの小分類としてはどうでしょう。
[24] ただ、大阪弁を ja-JP-oosaka
にするのか
ja-JP-kansai-oosaka
にするのかみたいな話になりますが。
[154] 「関西弁」と指定したい時と、「大阪弁」「神戸弁」「京都弁」「奈良弁」「エセ関西弁」 と細かく指定したいとき、はそれぞれある。
[158] 一般に使われている区分と学術的な区分と、どちらもそれぞれの使い道がありそうなので、 1つの体系だけで揃えるのではなく方言と認識されている実態があれば全部それぞれ名前を与えるべきだろう。
[159] 変に階層化して長くて使いづらい名前にするより、階層なしでも一般の呼び名に近いものにすれば衝突のおそれもそうそうないだろうし。
[160] ウィキペディアに項目がある方言は一通りあってよさそうだな。
ja-Kana
(片仮名) って嫌な名前だなぁ。 ISO 15924 の馬鹿野郎〜ja-2ch
に札付けするのが(・∀・)イイ!!)ja-desumasu
+Japn-ja-old-kana
にして下さると嬉しう存じます。)ja-JP-TKY-shibuya-slang
渋谷の女子高生の言葉ja-JP-TKY-shibuya-slang-2002
とするとか。ja-trad
: >>37ja-2ch-2001-08
とか表せて(・∀・)イイ![38] 「日本語 平成22年正書法」 「近代日本語」 「日本語候文」 「日本語片仮名漢字混じり文」 「日本語 旧字体現代仮名遣い」 「日本語 お嬢様言葉」 「日本語総ルビ」 のような違いも言語タグで記述したいなあ。
[44] ja (Language tag) - SuikaWiki Data ( 版) https://data.suikawiki.org/lang/ja
[40] ja-JP (Language tag) - SuikaWiki Data ( 版) https://data.suikawiki.org/lang/ja-JP
[152] 文体と表記法の記述 (script (コーパス), style (コーパス) より) : 文語体, 口語体, 文語体と口語体の混在, 漢文, 韻文, 漢字片仮名交じり, 漢字平仮名交じり, 万葉仮名
[153] その他文体関係 : 書き言葉, 話し言葉, 訓読文, 書き下し文, 宣命体, 候文, 漢文調, であります, ですます調, だである調, 翻訳調, 敬語, 男言葉, 女言葉, 業界用語, お嬢様言葉, ギャル語, おじさん構文, 西洋人風, 中国人風, 赤ちゃん言葉, ルー語, ロコ語, エミリー語, 協和語, 横浜ピジン日本語
[155] 語尾や役割語の類は無限に増えているので、無限の記述能力が必要。 (そのすべてを言語タグで記述できる必要があるか、という論点はありそう。)
[156] 表記法関係 (用字系札より、その他) : 漢文 (白文), 訓読文, 書き下し文, かな漢字混じり (全般), 平仮名漢字交じり, 片仮名漢字交じり, 平仮名, 片仮名, 万葉仮名, 教育漢字○年生 (元号○年式), 当用漢字字体表, 元号○年常用漢字, 元号○年人名漢字, 表外漢字字体表 (印刷標準字体 / 簡易慣用字体), 旧字体 / 新字体, 御家流, 初唐標準字体, JIS X 0208, JIS X 0213, 制限付き JIS X 0213, MJ, MJ+, 歴史的仮名遣, 棒引き仮名遣い, 現代仮名遣, 送り仮名規則, 濁音無表記, 撥音無表記, 小書き仮名有無, 長音無表記, 分かち書き有無, ローマ字 (全般), ヘボン式ローマ字 (新旧), 訓令式ローマ字, 日本式ローマ字, ローマ字長音各種, キリル文字表記, ハングル表記, 日本点字, 漢点字, 6点漢字, 速記文字各種, モールス符号, 乎古止点各種, 振り仮名無/有/総, 句読点有無, 句点文字, 読点文字, 左横書き/右横書き/縦書き, 元号○年公用文
[157]
その他ロケール関係:
和暦/西暦/併記,
北朝/南朝/併記,
皇紀,
干支年/十二支年,
12時間制/24時間制,
十二支時刻,
グレゴリオ暦/旧暦/併記,
中央標準時/西部標準時/小笠原の標準時/台湾の標準時/関東州の標準時/南洋群島の標準時,
SI/尺貫法,
単位記号/単位片仮名名/単位漢字名,
欧州数字/漢数字,
画線法,
位取り記数法/漢数字記数法,
3桁区切り/4桁区切り,
桁区切り、
/,
,
小数点.
/・