日本語言語タグ

[16] 日本語を表す言語タグは、 ja です。

[405] 他にもいろいろあります。

主要言語タグまとめ

日本語 (一般): ja
日本語平仮名表記 (よみがな等): ja-Hira
日本語片仮名表記 (ヨミガナ等): ja-Kana
日本語ローマ字表記: ja-Latn
やさしい日本語: ja-simple

[262] 大文字と小文字は区別しません (どちらでもいいです) が、プロトコル等で特別に定めていることもあります。

基本値

`ja` (言語タグ)

[81] ja は日本語を表す ISO 639 言語符号であり、言語タグであります。

[82] 特に細かい指定が必要ないときはこれを使います。

`ja-JP` (言語タグ)

[21] 日本国で使われる日本語と特に明記する必要がある場合は、言語タグ ja-JP を使うことができます。

[22] BCP 47 によれば、必要性がなければ省略できます。言語部分タグと地域部分タグの組合せ

[59] 実際には、日本国以外で日本語が使われる場面は多くなく、しかも国の違いを明示する必要がある場面はその中でもわずかなので、 ja とだけ書くのが一般的です。

[60] 特定のプログラムの仕様等で地域部分タグが必須な場合や、他の言語タグとの統一性のため地域部分タグを明示したいような場合もあって、 ja-JP が使われることもままあります。しかしそうした事情がなければ、短くて必要十分である ja が望ましいと考えられます。

`ja_JP` (POSIX ロケール識別子)

[58] POSIX locale ja_JP は日本国の日本語のロケールを表します。

[61] POSIX では言語符号と国符号を組み合わせて両方明記するのが一般的です。

[62] 稀に誤って言語タグ ja_JP が使われることがあります。 (この誤りは日本語以外の言語タグでもみられます。) 言語タグの構文に違反しており、明確な誤りです。

[63] 言語タグの実装の多くはこれに対応しておらず、未知の言語とみなして処理します。 (_ を - と読み替える実装もあります。言語タグ )

`jp` (言語タグ)

[7] jp は、たまに使われる日本語を表しているらしい言語タグです。

[39] 言語タグ jp は誤りです。正しくは ja です。

[64] 国符号が JP なので、よく日本語も誤って jp と記述されるのです。

[65] 多くの実装は jp に対応しておらず、未知の言語とみなします。

[66] なお、日本語を ja と表し jp と表さないのは ISO 639 言語符号の仕様に過ぎず、人間同士で便宜上用いる略号や、 ISO 639 以外の言語符号で日本語を「jp」「JP」と表すことは必ずしも誤りではありません。

[67] ただ、紛らわしい表現であることは確かです。また、日本語のことを人間同士で「JP」や「JA」と略すのは、英語話者の間でも、日本語話者の間でも、一般的な表現ではないので、伝わりやすいとはいえません。確実に伝わるといえる場面以外では避けるべきです。

[48] 手元の WinIE 1.0〜3 は jp という間違った値を送ります。

[6] 正規表現による置換 (2007-02-27 21:02:32 +09:00 版) http://fstyle.ddo.jp/FT/JavaScrip/replace-match.html

<html lang="jp">

[5] 音声認識文法の作成方法 — OpenHRI Manual (2015-09-26 15:10:32 +09:00) http://openhri.readthedocs.io/en/latest/workingwithgrammar-ja.html

<lexicon version="1.0"
xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
alphabet="x-KANA" xml:lang="jp">

[138] KinKi Kids オフィシャルサイト / Johnny's Entertainment (2016-07-13 19:24:25 +09:00) http://je-kinkikids.com/

<html lang="jp">

[8] TBS NEWS (2019-08-24 17:51:04 +09:00) https://news.tbs.co.jp/

<html class="gs-fontSmall" lang="jp">

[68] また、 Accept-Language: に相当する Webブラウザーの設定に自分で jp を追加している人も稀にいるようです。

[151] >>150

[430] ところで、本来これは ISO 639 や言語タグという特定の世界の話であり、それが適用されない他の符号や符号ではない日常の語彙としては日本語を ja としようが jp としようが正しいも誤りもない、というのが大前提としてはありますが。

[431] 実際には Web 系を中心に日本の情報技術者の間では日本語を省略するなら ja とすることが非常によく普及しています。 (一般の日本人だとそうでもありませんが。)

[432] そのため情報系のサイトやサービスなどで日本語が jp と表現されていると、その提供者は実務経験が少ないのかもしれない、言語と国の区別ができないレベルの理解なのかもしれない、技術部門と広報等の部門の意思疎通に問題があるのかもしれない、といった経験的な判定基準の1つに使うことが出来たりもします。

`jpn`

[87] jpn は日本語の ISO 639 3文字符号です。

[349] 言語タグとしては使うのは誤りですが、極めて稀に使われることがあります。

`japanese` (言語タグ)

[83] 極めて稀に言語タグ japanese が使われることがあります。

[84] 言語タグの構文に違反しており、誤りです。

[85] 対応している実装はみたことがありません。

`日本語` (言語タグ)

[88] 極めて稀に言語タグ 日本語 が使われることがあります。

[89] 言語タグの構文に違反しており、誤りです。

[90] 対応している実装はみたことがありません。

`jpx`

[129] 日本語族を表すISO 639 言語符号 / IETF言語タグ jpx があります。

`JAN` (言語系タグ)

[417] OpenType の言語系タグ JAN は Japanese を表し、 ISO 639 言語符号の jpn と関係すると説明されています。 >>416

[416] Language system tags (OpenType 1.9.1) - Typography | Microsoft Learn, PeterCon, 2024-07-07T00:58:54.000Z, 2024-12-03T07:52:19.817Z https://learn.microsoft.com/en-us/typography/opentype/spec/languagetags

地域言語の識別子

津軽弁の識別子

[125] 遊び心ある任意の言語を追加するには | Drupal Groups, 2024-04-03T14:00:31.000Z, 2024-04-03T14:02:28.565Z https://groups.drupal.org/node/508772

[126] >>125 は津軽弁を追加しようとしたものの、言語タグがわからず、(おそらく)断念しています。

[127] 言語タグ体系が整備されていないことで自分の使いたい言語を自由に使えないという実害の1事例といえ、由々しき事態です。

八丈語の識別子

[163] ISO 639-6 は八丈島弁に4字言語符号 hhjm を割り当てていました。

関西弁の識別子

[380] 関西弁は現代日本語のうち標準語/共通語を除いて最もよく用いられ言及される方言で、これを計算機システムで実装しようとした試み (商用システムで実戦投入されたものを含む。) もかなりあります。

[382] しかしその識別子は既成の標準規格がまったく対応できていないために安定性を欠いているのが実情です。

[381] 適切な標準の欠如が言語的多様性の実現の障害になっているとも考えられ憂慮される状況ですが、打開の見通しも立たないのが現状です。

[433] 標準化された符号の不存在が、関西弁やその他の方言の翻訳テキストの整備がされない要因の1つになっているとの指摘もあります。少数実装例 (≒ 需要の暗示) があるにも関わらず、他ソフトウェアへの波及の見通しがないことがその実証といえます。

[2] ja_KS は、 Facebook が関西弁を表すために使っている >>1 ロケール識別子です。

[3] 他の ja_JP などは POSIXロケールと同じですが、 ja_KS は Facebook 独自のもので、 Facebook 以外のシステムでは使えません。

[11] POSIX では KS の部分は ISO 3166 の国符号を使うことになっています。将来もし KS なる国符号がどこか新しい国に割り当てられ、そこで日本語が使われるようになると、衝突します。

[1] (2015-04-24 22:04:08 +09:00 版) https://www.facebook.com/translations/FacebookLocales.xml

[13] Webブラウザーの Vivaldi は、 ja-KS というロケール識別子を使っています。 >>12

[14] BCP 47 言語タグのような構文ですが、 BCP 47 言語タグとして使われることもあるのかどうか不明。

[15] Android 関連のファイルでは Android のロケール形式により ja-rKS となっています。 >>12

[12] Search · ja-KS · GitHub, 2022-11-10T03:48:40.000Z https://github.com/ric2b/Vivaldi-browser/search?q=ja-KS

[20] 関西弁のネイティブスピーカー・ボランティア翻訳者、大募集(しました)! | Vivaldiブラウザ, 2024-01-22T10:35:01.000Z https://jp.vivaldi.net/announcement/kansai_translator/

[4] BCP 47 言語タグとして、 ja-JP-kansai が使われることがあります。

[9] IANA登録簿には未登録です。言語タグの古い仕様書では正当な言語タグだったのですが (当時は未登録でもOKだった)、その後の仕様の非互換変更のせいで、本稿執筆時点では非妥当な言語タグになってしまっています。

[10] といっても言語タグの妥当性を検証する実装は、適合性検査器以外では、実在するのか怪しいレベルなので、実用には支障がありません。

[249] 大阪弁の言語タグに ja-osaka があります。

[250] 古くから例文でよく使われています。大阪弁の言語タグの事実上の標準といって良いでしょう。実利用がどれだけあるかは不明です。

[106] lang属性 * HTMLリファレンス (KURAGEYA 著, 2012-09-13 22:17:35 +09:00 版) http://kurageya.fc2web.com/web/tag/zlang.html
ja-osaka (日本の大阪弁)
- [17] 消滅確認 2022-12-04T04:33:58.800Z
- [18] lang属性 * HTMLリファレンス, KURAGEYA, 2022-12-04T04:33:39.000Z, 2004-10-20T12:53:52.378Z https://web.archive.org/web/20041020125348/http://kurageya.fc2web.com/web/tag/zlang.html

[107] lang=lang - 言語指定 (2015-01-27 01:19:19 +09:00 版) http://www.tohoho-web.com/html/attr/lang.htm

ja-osaka(大阪弁)
x- で始まるコードはプライベートに使用することが許されています。
x-uchuujin(宇宙人語)

[108] lang=lang - 言語指定ホームページ制作京都|ホームページ作成のリュウム (2013-07-23 19:16:53 +09:00 版) http://www.ryuumu.co.jp/ryuumu/ain/webguide/html/attr/lang.htm

ja-osaka(大阪弁)
x- で始まるコードはプライベートに使用することが許されています。
x-uchuujin(宇宙人語)

[109] lang : 言語指定 | HTML memorandum (2015-04-26 18:46:15 +09:00 版) http://html.zanth.net/attribute/lang
ja-osaka(大阪弁)、en-us(米国英語)
x- で始まるコードはプライベートな言語として使用することが許可されています。
x-orelang(自分が勝手に作った言葉)
- [19] 消滅確認 2022-12-04T04:32:58.600Z

[110] locale/test_tag.rb at master · mutoh/locale (2015-04-26 18:48:16 +09:00 版) https://github.com/mutoh/locale/blob/master/test/test_tag.rb

assert_equal Locale::Tag::Rfc.parse("ja-osaka"), lang.to_rfc

[248] 属性セレクタ(書いて理解する) #CSS - Qiita, 2024-04-05T15:07:39.000Z https://qiita.com/Hamachan4242/items/5903a30bb4aedb583791

<blockquote lang="ja-osaka"><!-- ハイフンの後ろの言語のサブコードを含んでもok! -->

[141] Xユーザーの菱川拓郎さん: 「となると残りはPrivate Use Subtagsを使うしかない。これは自由に使える。ということで結論としては、関西弁の言語タグは ja-JP-x-kansai が適当かな。関西弁という概念が明確にどの地域を指すのか不明で、漠然とした概念的な関西なので、ja-JP-x-kinki でも良いか。」 / X, 午前3:16 · 2022年3月28日, 2024-04-03T13:01:33.000Z https://twitter.com/HissyNC/status/1508145912715292674
- [142] Xユーザーの菱川拓郎さん: 「同様にやさしい日本語の場合どうなるか…これもPrivate Use Subtagしかないのかな。ja-JP-x-easy …か?」 / X, 午前3:23 · 2022年3月28日, 2024-04-03T13:01:33.000Z https://twitter.com/HissyNC/status/1508147768254431235

[326] Xユーザーのharo2さん: 「ぐぐったら ja-JP の派生で ja-OS で関西弁カルチャを定義しようとしてダメだったというブロク見つけたけど、ja-OS だと BCP-47 に準拠してないからダメだったのかも」 / X, 午後6:46 · 2020年11月24日, 2024-05-01T07:29:01.000Z https://twitter.com/haro2beam/status/1331172345063456768

[328] C#のリソースの仕組みを使って多言語対応させようぜ☆(^~^) #C# - Qiita, 2024-05-01T08:07:27.000Z https://qiita.com/muzudho1/items/8e55668b7c0914466fac

# 日本は ja-JP しかない。 大阪弁を追加しようと ja-OS(日本(大阪)) を作ろうとしたら
# 言語コードは OS(コンピューター)への登録制になっていて、管理者権限 が求められたので止めた。

[429] VisiOS - タブ/ブックマークマネージャーOS (Chrome/Edge拡張機能), 2025-08-04T05:36:49.000Z https://beta-japan.com/?l=ja2

        <select id="idSelLang" class="cVisiSelect">
            <option value="0">- Select Language -</option>
            <option value="en">English</option>
            <option value="ja">Japanese - 日本語</option>
            <option value="zh-cn">Simplified Chinese - 简体中文</option>
            <option value="zh-tw">Traditional Chinese - 繁體中文</option>
            <option value="es">Spanish - Español</option>
            <option value="pt">Portuguese - Português</option>
            <option value="fr">French - Français</option>
            <option value="de">German - Deutsch</option>
            <option value="ar">Arabic - عربي</option>
            <option value="ru">Russian - Русский</option>
            <option value="sv">Swedish - Svenska</option>
            <option value="fi">Finnish - Suomi</option>
            <option value="pl">Polish - Polski</option>
            <option value="nl">Dutch - Nederlands</option>
            <option value="cs">Czech - Čeština</option>
            <option value="da">Danish - Dansk</option>
            <option value="no">Norwegian - Norsk</option>
            <option value="hu">Hungarian - Magyar</option>
            <option value="it">Italian - Italiano</option>
            <option value="el">Greek - Ελληνικά</option>
            <option value="ko">Korean - 한국어</option>
            <option value="lt">Lithuanian - Lietuvių</option>
            <option value="lv">Latvian - Latviešu</option>
            <option value="sk">Slovak - Slovenčina</option>
            <option value="sl">Slovenian - Slovenščina</option>
            <option value="hr">Croatian - Hrvatski</option>
            <option value="bg">Bulgarian - Български</option>
            <option value="uk">Ukrainian - Українська</option>
            <option value="et">Estonian - Eesti</option>
            <option value="he">Hebrew - עברית</option>
            <option value="ro">Romanian - Română</option>
            <option value="tr">Turkish - Türkçe</option>
            <option value="hi">Hindi - हिन्दी</option>
            <option value="id">Indonesian - Bahasa Indonesia</option>
            <option value="th">Thai - ไทย</option>
            <option value="vi">Vietnamese - Tiếng Việt</option>
            <option value="ga">Irish - Gaeilge</option>
            <option value="eu">Basque - Euskara</option>
            <option value="ja2">Kansai-ben - 関西弁</option>
        </select>

琉球語の識別子

[86] 言語タグ ja-ryuukyuu が平成時代中期頃に提案されていました。実用例は見当たりません。

[130] ISO 639 言語符号 / IETF言語タグで琉球諸語を表すものがあります。

[434] >>130 のこれらは日本語 (ja) とはまったく別の符号であり、別個の対応が必要となってしまうところ、対応するソフトウェアが少ないために実用に支障があります。 >>86 のような方式なら未対応のソフトウェアでも最低限の日本語扱いがなされるのですが。

[435] これは日琉諸語に限らず類縁関係の諸語全般について言語符号 / 言語タグが抱える構造的な問題です。

[136] Wikipedia で利用しています。

[140] Template:Lang-yox - Wikipedia, 2024-03-20T14:33:32.000Z, 2024-04-03T14:34:28.617Z https://ja.wikipedia.org/wiki/Template:Lang-yox
- 「与論島方言 (与論語)」
[137] Template:Lang-xug - Wikipedia, 2024-03-20T14:30:56.000Z, 2024-04-03T14:33:40.157Z https://ja.wikipedia.org/wiki/Template:Lang-xug
- 「沖縄北部方言 (国頭語)」
[139] Template:Lang-yoi - Wikipedia, 2024-03-20T14:33:31.000Z, 2024-04-03T14:34:14.463Z https://ja.wikipedia.org/wiki/Template:Lang-yoi
- 「与那国語」

[148] >>147 は沖縄語の辞書の XML 移植版ですが、 ryu-Hira, ryu-Jpan, ryu-Latn, jp-Jpan を使っています。最初の3つは沖縄語の見出し語の各種表記、最後は日本語の説明文。

[149] IPA 発音記号列を Latn とするのは誤りではないものの、違和感があります。

[150] jp は ja の誤り。

[147] - 6_s206.pdf, 2024-04-03T15:10:46.000Z, 2024-04-03T15:13:11.342Z https://researchmap.jp/SoMiyagawa/published_papers/40398156/attachment_file.pdf

歴史的言語の識別子

[76] 日本語の古語を表す言語タグ ja-classic, 平安時代の日本語を表す言語タグ ja-classic-heian が平成時代中期頃に提案されていました。実用例は見当たりません。

[128] Old Japanese を表す ISO 693 言語符号 / IETF言語タグ ojp があります。

[132] >>131 の例文は ojp-Hira と ojp-Hani で平仮名表記と万葉仮名表記を区別しています。

[131] HTML5メモ(2) lang属性/日本語に関係する言語タグの覚え書き - 血統の森+はてな, 2024-04-03T14:15:17.000Z https://momdo.hatenadiary.org/entry/20100526/p1

[313] LIISコードがいくつかの日本語表記体系・歴史的日本語に符号を割り当てています。 >>312 言語タグとして使う方法も定められています。 LIISコード

or:japn_trs:現代日本語(伝統仮名遣い・正字体)
or:japn_trn:現代日本語(伝統仮名遣い・新字体)
or:japn_mds:現代日本語(現代仮名遣い・正字体)
or:japn_mdn:現代日本語(現代仮名遣い・新字体)
hs:japn_emd:近世日本語
hs:japn_lmi:中世日本語
hs:japn_emi:中古日本語
hs:japn_old:上代日本語 <{iso3}ojp はこれに正規化する>
or:chan_kun:漢文訓読体

[389] >>388 は題名に「傳統假名翻譯」とあり、言語選択に「漢文訓読体」とある版ですが、 HTML lang="" 属性値がIETF言語タグ x-liisor-chankun となっています。「漢文訓読体」のLIISコードです。「日本語」の原文と比較すると、本文内容はほとんど同じで、一部語尾が違う程度で文体の変更はありませんが、旧仮名遣いであり、旧字体を使ったり仮名を漢字に改めたり、近代風の漢字の遣い方に改めたりしています。

表記法の識別子

[340] 日本語にはいろいろな表記法があります。

[27] ja-Kana (片仮名) って嫌な名前だなぁ。 ISO 15924 の馬鹿野郎〜

[333] Xユーザーの狩野宏樹さん: 「XML 1.0の§2.12→IETF BCP 47 (最新版はRFC 5646。EPUB 3.0はこの版を引用) と辿って、langtagの構成はlanguage-script-regionの順であることを確認。「xml:lang="ja-Hrkt-JP"」としなくてはならない。」 / X, 午後0:42 · 2011年4月1日, 2024-05-01T07:29:01.000Z https://twitter.com/KAN0U/status/53663549649715200

[419] OpenType の用字系タグで日本語と関係が深いもの:

hani CJK Ideographic
kana Hiragana と Katakana
latn Latin
brai Braille
sidd Siddham
math Mathematical text layout

[418] Script tags (OpenType 1.9.1) - Typography | Microsoft Learn, PeterCon, 2024-05-31T17:42:26.000Z, 2024-12-03T07:54:46.469Z https://learn.microsoft.com/en-us/typography/opentype/spec/scripttags

読み仮名の識別子

[212] 平仮名の読み仮名を表すため言語タグ ja-Hira >>211, >>213, >>219 が使われることがあります。

[78] 片仮名の読み仮名を表すため言語タグ ja-Kana >>209, >>213, >>223, >>231, >>287, >>291 が使われることがあります。

[220] 他に言語タグ ja-Hira-JP >>214, >>215 や言語タグ ja-Kana-JP >>102 が使われることがあります。

[210] ja-JP より ja が好ましいのと同じく、 ja-Hira や ja-Kana が一般的には好ましいと考えられます。

[77] 言語タグ ja-Hrkt >>222 が使われることがあります。ひらがなかカタカナかを問わないことを示すためでしょうか (>>222 の例示はすべて平仮名)。

[275] Semantic Web 系のデータベースでよみがなの意味の ja-hrkt が実用されている事例 >>310 をみました。 2024-04-09T05:07:12.400Z

[298] なお ja-Kana については >>282 も参照。

[366] 読み仮名と「じゃない方」を言語タグで区別することについては、 >>232 も参照。

[219] Google 日本語入力 - CGI API デベロッパーガイド, 2024-03-12T06:00:00.000Z, 2024-04-05T14:04:21.819Z https://www.google.co.jp/ime/cgiapi.html

langpair=ja-Hira|ja

[222] GTFS.JP, 2020-03-22T09:16:09.000Z, 2024-04-05T14:09:42.974Z https://www.gtfs.jp/testsite/fix/format-reference_style/developpers-guide/format-reference.html#translations

国内の経路検索事業者においては、よみがなを必須としていることから、よみがな(lang=ja-Hrkt)を設定することを必須としています。

[209] api-spec.pdf, 2023-05-08T02:43:34.000Z, 2024-04-05T13:06:49.826Z https://id.ndl.go.jp/information/wp-content/uploads/2023/05/api-spec.pdf#page=9

言語タグは、Web NDLA では「よみ」にのみ用いています。例えば「図書館」の場合、カナ読みを"トショカン"@ja-Kana、ローマ字読みを"Toshokan"@ja-Latn としており、言語タグによって読みの種類を区別できます。

[223] JPCOARスキーマ項目の説明 | JPCOARスキーマガイドライン, 2024-04-05T14:23:57.000Z https://schema.irdb.nii.ac.jp/ja/schema

xml:lang
基本的にはISO 639-1の2桁の言語コードを使用する。(例:日本語の場合は"ja"、英語の場合は"en") 0 【Version 1.0,1.0.1,1.0.2】ただし、日本語のヨミは"ja-Kana"を使用し、ヨミを記入する場合はヨミとは別にxml:langを"ja"にした情報を必ず記入する。 0 【Version 2.0 Draft以降】ただし、日本語の片仮名ヨミは"ja-Kana"、ローマ字ヨミは"ja-Latn"を使用し、ヨミを記入する場合はヨミとは別にxml:langを"ja"にした情報を必ず記入する。
中国語については、簡体字"zh-cn"と繁体字"zh-tw"で区別して記入することが望ましい。
言語の識別が難しい場合およびISO 639-1の2桁の言語コードが存在しない場合は、言語コードを記入しない。

[287] CiNii ResearchのRDF | 学術コンテンツサービスサポート, 2024-04-16T05:44:22.000Z https://support.nii.ac.jp/ja/cir/r_rdf

[261] RFC 7591 - OAuth 2.0 Dynamic Client Registration Protocol, 2024-04-05T15:44:43.000Z https://datatracker.ietf.org/doc/html/rfc7591#page-14

[215] OpenID ConnectとSCIMのエンタープライズ実装ガイドライン - eiwg_implementation_guideline_1.0.pdf, 2016-03-28T04:41:41.000Z, 2024-04-05T13:54:22.745Z https://www.openid.or.jp/news/eiwg_implementation_guideline_1.0.pdf#page=37

これら 2 つの属性では、locale サブ属性に言語を表す値を設定することで、クラウドサービスが必要とする言語の値を取り出すことに対応する。 locale サブ属性に設定する値には、 [RFC5646] の形式で、IANA Language Subtag Registry に登録された値を用いる。同一言語で異なる表記がある場合は、script subtag の値を含めることで対応する。具体的には、次のような値とする。
No 表記 locale サブ属性に使用する値
1 漢字表記 ja-JP
2 よみがな表記 ja-Hira-JP
3 ローマ字・英語表記 en-US
よみがな表記は「ひらがな」で値を設定するものとする。クラウドサービスが「カタカナ」で値を必要とする場合は、クラウドサービス側で「ひらがな」で受け取った値を「カタカナ」に変換する。

No	表記	locale サブ属性に使用する値
1	漢字表記	ja-JP
2	よみがな表記	ja-Hira-JP
3	ローマ字・英語表記	en-US

[214] ユーザ属性, Internet Initiative Japan Inc., 2023-08-08T03:25:51.000Z, 2024-04-05T13:50:49.622Z https://manual.iij.jp/iid/iidapi/19000993.html

氏名の言語
typeと一致させる必要があります
入力可能な値は以下です
ja-JP
ja-Hira-JP

[310] 公益財団法人横浜市芸術文化振興財団:オープンデータ・API, 2024-04-17T12:10:43.000Z https://p.yafjp.org/opendata_api/

ローマ字表記の識別子

[91] 日本語ローマ字表記を表す言語タグ ja-Latn が使われることがあります。 >>162, >>209, >>211, >>223, >>229, >>231, >>251

[241] ほとんどの用途は読み仮名に相当するローマ字併記を表すものです。これについては >>232 を参照。

[231] RDFモデルについて « Web NDL Authoritiesについて, 2024-04-05T14:39:20.000Z https://id.ndl.go.jp/information/model/#anchor03

読みを付加する優先ラベル(=名称/タイトル)と代替ラベル(=別名/別タイトル、同義語)の表現には、SKOS拡張のskosxl:prefLabelとskosxl:altLabelをそれぞれ使用します。読みの記述には、DC-NDLで定義されるdcndl:transcriptionの語彙を使用します。典拠レコードでは、カタカナ読みとローマ字読みの2つの読みを保持しており、それぞれ言語属性”ja-Kana”と”ja-Latn”を用いて区別します。

[211] Multilingual names - OpenStreetMap Wiki, 2024-04-05T13:32:10.000Z https://wiki.openstreetmap.org/wiki/Multilingual_names#Japan

[162] 地図作成 - 地図作成 - HERE Developer, 2023-10-20T10:32:01.000Z, 2023-11-20T06:59:16.374Z https://jp.developer.here.com/documentation/geojson-map-components-cartography/data_spec_guide/common/globals.html#languagebcp47

、 "ja" 、 "ja-Latn" 、

[229] 言語サポート - Azure AI Content Safety - Azure AI services | Microsoft Learn, PatrickFarley, 2024-04-05T14:37:05.000Z https://learn.microsoft.com/ja-jp/azure/ai-services/content-safety/language-support

[173] 登録ファイル2009-10-05付でIANA登録簿に登録された異体部分タグ hepburn があります。接頭辞は ja-Latn とされます。ヘボン式ローマ字を表します。 >>174

[175] つまり言語タグ ja-Latn-hepburn で日本語のヘボン式ローマ字表記を表せます。

[176] この hepburn の登録には、明治18(1885)年のヘボン式考案から近年のウェブページまでいろいろが参照されています。そしてヘボン式には色々な変種があれども、それらを区別するのは生産的でないと主張しています。 >>174 つまり hepburn は「ヘボン式といわれるいろいろな手法のどれか」を表しています。

[177] だったら ja-Latn でも十分で、ローマ字ではなくヘボン式ローマ字とまで特定したいけどそれ以上詳しくは記述したくない場面って本当にあるんですかね?

[178] hepburn という部分タグの意味は明治19(1886)年の旧ヘボン式であるかのように説明があるのですが >>174、それに続く何が言いたいのかよくわからない文章を読んでいくとどうやら「ヘボン式」全般を包括的に表したいらしい (>>176) ことが判明します。

[188] それを念頭に読み直すと旧ヘボン式の説明の後になぜか

The common characteristic of Hepburn romanization in its many variants, apart from the name, is an emphasis on approximating Japanese _pronunciation_ using English or European spelling conventions. Hepburn romanization does not attempt to parallel or transcribe the Japanese logographic scripts (hiragana or katakana).

と各種ヘボン式の「共通の性格」を説明した段落があります。 >>174 hepburn が意味する「ヘボン式」の範囲はこの記述から推測する以外ありません。

[179] つまり、

[180] ヘボン式という名前で呼ばれていて、
[181] 英語や欧州の綴字法に近似することを重視していて
[182] 仮名との対応性は考えていない

というのが共通の性格だといっています。ただこの「共通の性格」というのも曖昧な表現で、この性質を絶対に満たすものが hepburn だと言っているようにも理解できますし、 hepburn の多くはこの性質を満たすがそうでない例外ケースもあり得るという解釈も一応可能です。

[183] この説明から当然浮かんでくる疑問は

[186] いわゆるパスポート式と呼ばれている方式は hepburn に該当するのか
[187] 内閣告示の第2表を一部または全部採用した方式は hepburn に該当するのか
[184] 誰かがヘボン式から派生した新方式を考案した、と主張したらそれも hepburn に該当するのか
[185] 仏語やポルトガル語も欧州の言語だが、それを意識したローマ字方式は hepburn に該当するのか

といったようなものですが、いずれも hepburn の意味の根幹に関わる疑問です。

[196] なおローマ字以外にヘボン式は存在しないので Latn と明示するのは冗長に思われますが、 ja-Latn にしか対応していない実装でも ja-Latn にフォールバックできるというメリットがあります。

[198] 実利用例もいくらかあります。 >>197

[174] 2021-07-18T23:39:46.000Z, 2024-04-05T11:19:01.909Z https://www.iana.org/assignments/lang-subtags-templates/hepburn.txt

[197] FamilySearch Developer Center — place 10365609, 2024-04-05T12:10:30.000Z https://www.familysearch.org/platform/places/10365609

    <ns5:name xml:lang="uk">Петрівка</ns5:name>
    <ns5:name xml:lang="uk-Latn">petrivka</ns5:name>
    <ns5:name xml:lang="ja-Latn-hepburn">Shōwa-chō</ns5:name>
    <ns5:name xml:lang="ja-Hira">しょうわちょう</ns5:name>
    <ns5:name xml:lang="ru">Петровка</ns5:name>

[192] 2009-10-01付 >>190 (登録ファイルは2009-10-05付) でIANA登録簿に登録された異体部分タグ heploc があります。接頭辞は ja-Latn-hepburn とされます。米国 Library of Congress の方式のヘボン式ローマ字を表します。 >>189

[193] つまり言語タグ ja-Latn-hepburn-heploc で日本語のヘボン式ローマ字 (米国 Library of Congress 式) 表記を表せます。

[194] ところがこれは2010-02-07付 (登録ファイルは2010-02-09付) で非推奨とされました。 alalc97 が好ましい (preferred) とされています。つまり ja-Latn-hepburn-heploc は ja-Latn-alalc97 とするべきとされています。 >>190

[195] わずか数ヶ月での朝令暮改ですが、これは登録ファイル2009-12-14付で日本語に限定しない alalc97 が登録された >>191 ためそちらに寄せるべきと判断されたことによります。

[247] IANA登録簿の登録情報の機械可読部分だけから ja-Latn-hepburn-heploc を ja-Latn-alalc97 に置き換えるべきと実装するのは不可能です。これは当時指摘されていますが >>246、対処されなかったようです。

[320] Xユーザーの白湯さゆぬさん: 「日本語ローマ字表記を表す HTML の lang‐属性値は「ja-Latn」か。平仮名が「ja-Hira」なのはいいけど、片仮名が「ja-Kana」となるのは奇妙だな。なぜ「Kata」に出来なかった? 連濁を知らなかった?」 / X, 午後3:24 · 2018年7月24日, 2024-05-01T07:29:01.000Z https://twitter.com/sayunu/status/1021642150394490880
- [321] Xユーザーの白湯さゆぬさん: 「IETF 言語タグで「日本で用いられる日本語のヘボン式ローマ字表記」を表すには「ja-Latn-JP-hepburn」という順序でないといけないらしい。」 / X, 午後4:58 · 2018年7月24日, 2024-05-01T07:29:01.000Z https://twitter.com/sayunu/status/1021665829874589696

[245] ヘボン式以外の方式、例えば訓令式用で広く通用する言語タグはありません。

[315] XユーザーのRyuseiさん: 「教育ローマ字 dotless i ケーシング問題解決策まとめ 1. 言語設定をトルコ語にする(機能はするが…) 2. ja-Latn-kyoiku(仮) をIETF言語タグに追加した上で Unicode の SpecialCasing.txt に追加してもらう(技術的には正しい方法に見えるが政治的に無理ゲー感ある) 3. 記号を変える」 / X, 午後6:15 · 2021年6月6日, 2024-05-01T07:29:01.000Z https://twitter.com/mandel59/status/1401467824803966976
- [316] XユーザーのRyuseiさん: 「4. ケーシングが壊れていることは諦める。標準的なシステムを使わず自力で処理する。」 / X, 午後6:17 · 2021年6月6日, 2024-05-01T07:29:01.000Z https://twitter.com/mandel59/status/1401468350958428161
- [317] XユーザーのRyuseiさん: 「IETF言語タグ https://t.co/HO92G0yilB ヘボン式ローマ字は ja-Latn-hepburn 訓令式ローマ字は登録されてなさげ…」 / X, 午後5:02 · 2021年6月6日, 2024-05-01T07:29:01.000Z https://twitter.com/mandel59/status/1401449429308116992

[205] 拡張Tによって記述できる転写方式もあります (>>199)。

[206] 関連: 変換操作の識別

[208] >>207 は ja-Latn-s-Hani-t-Hepburn (ヘボン式), ja-Latn-s-Hani-t-Kunrei (訓令式) という例を示しています >>207 が、これらは当時の提案 (後に拡張Tに統合され構文がまったく違うものに変更されたもの。) に沿って >>207 のブログ記事著者が独自に考案した利用法を提案したもので、このまま使うことはできません。

[207] 言語タグを拡張する案に関するメモ - 血統の森+はてな, 2024-04-05T13:01:05.000Z https://momdo.hatenadiary.org/entry/20110623/p1

[258] ja-Latn-x-hepburn を使ったものもあります。 >>257

[257] doc7.pdf, 2014-07-09T01:31:18.000Z, 2024-04-05T15:34:33.061Z http://ccs.tsurumi-u.ac.jp/docu/poster/doc/doc7.pdf#page=7

<seg xml:lang="ja-Jpan"> 鶴見大学 </seg>
<seg xml:lang="ja-Hira"> つるみだいがく </seg>
<seg xml:lang="ja-Latn-x-hepburn">tsurumidaigaku</seg>

[216] 「ローマ字・英語」を en-US とすると定めている応用もあります >>215。

[285] 「英語名 (もしくはローマ字表記)」を en とすると定めている応用もあります >>284。

[292] 欄ごとに en を日本語ローマ字と説明したり、英語と説明したりするものもあります >>291。

[217] English だけでなく日本語ローマ字表記まで en とするのは厳密には誤りに近いですが、実運用上日本語ローマ字と英語の区別が難しいことも多い ( 日本語ローマ字 ) ので、やむを得ないことがあります。

[286] 漢文のケースと同じく、「1つの言語である」という前提自体に無理があるとも言えます。複数表記などで厳密さを向上させることはできますが、取り扱いが難しくなる割に実益はそれほどありません。

[218] なお、その場合でも en, en-GB, en-US, en-JP 等からどれを選ぶかは検討の余地があります。

[329] XユーザーのAruneko @ 06/29 OSC24doさん: 「バス停名称の英訳問題って結構難しくて、一応オリンピックに向けたガイドラインがあるのですがなかなか難しいところ。 https://t.co/nET9rJ8ZSr」 / X, 午後5:48 · 2019年5月2日, 2024-05-01T07:29:01.000Z https://twitter.com/aruneko99/status/1123871906707517441

[324] Xユーザーのhk40mさん: 「GTFSはstop_name等の音声の情報を含める方法/拡張はあるのだろうか? IETF BCP 47にInternational Phonetic Alphabet(fonipa)があるので、translations.txtのlanguageにja-fonipaとかでできる気はする。」 / X, 午後10:56 · 2023年1月8日, 2024-05-01T07:29:01.000Z https://twitter.com/hk40m/status/1612085740346937353

[325] 正規名と読み仮名やローマ字名が書ける GTFS で他に読み上げ用情報も入れたいということか。しかし本当に IPA で書くのか (書けるのか)...?

[350] なお SSML には alphabet="" という読み上げ用情報の表記法を指定する属性があります。

「じゃない方」の識別子

[79] 読み仮名やローマ字表記に対する本来表記を表す (例えば「氏名のよみがな」欄に対して「氏名」欄を表す) ときには、通常の言語タグ ja を使うことが多いです。

[252] 言語タグ ja-Jpan >>251, >>259, >>260, >>291, >>305 や言語タグ ja-Jpan-JP >>261 が使われることがあります。

[253] しかしながら、用字系抑制の規則があるので、特に理由がなければただの ja を使うべきです。

[260] Microsoft PowerPoint - 学術XML-R.ppt - Tokizane-TeX-20121027.pdf, 2013-04-28T00:18:26.000Z, 2024-04-05T15:40:03.972Z https://tokizane.jp/Ref/TokiPDF/Tokizane-TeX-20121027.pdf#page=23

- xml:lang=“en” 英語
- xml:lang=“ja-Jpan” 漢字まじり
- xml:lang=“ja-Kana” カタカナ
- xml:lang=“ja-Hira” ひらかな

[259] Localised metadata for Art Tracks and original release dates - YouTube Help, 2024-04-05T15:37:47.000Z https://support.google.com/youtube/answer/4443834?hl=en-GB

    <Title TitleType="DisplayTitle" LanguageAndScriptCode="ja-Jpan">

[251] デジタル音楽業界を支える仕組みとは #1 | レコチョクのエンジニアブログ, 2024-01-16T07:27:00.000Z, 2024-04-05T15:22:45.763Z https://techblog.recochoku.jp/9225

         <DisplayArtistName ApplicableTerritoryCode="Worldwide" LanguageAndScriptCode="ja-Latn" IsDefault="true">Saeko Shu</DisplayArtistName>
         <DisplayArtistName ApplicableTerritoryCode="Worldwide" LanguageAndScriptCode="ja-Jpan">しゅうさえこ</DisplayArtistName>

[221] 稀に本来表記に言語タグ ja-Hani-JP が使われることがあります。 >>102

[277] OpenID Connect の仕様書に ja-Hani-JP と ja-Kana-JP で漢字名とヨミガナ名を表すとの例示があります >>276。あくまで例示ではあるものの、仕様書にはっきりと明記されてしまっているので、一般の解説記事もそれに従って紹介していて >>290, >>288, >>289 何の疑問も挟まれていません。実装仕様がウェブ公開されているもの >>102 以外にも各所で使われてしまっていると考えるべきでしょう。

[80] Hani は漢字を表します。漢字名と説明されており >>102, >>276、その説明を忠実にあらわす符号ではあるのですが、実際には漢字だけとは限らず仮名やラテン文字が含まれることもあり得ると考えられ、 Jpan がより適切とも思われます。

[227] 仮名やローマ字に対して「漢字の名前」のような言い方をすることはありますが、そのまま符号になおすと不適切なこともある、ということです。

[276] Final: OpenID Connect Core 1.0 incorporating errata set 2, 2023-12-16T05:56:59.000Z, 2024-04-16T05:13:01.230Z https://openid.net/specs/openid-connect-core-1_0.html#rfc.section.5.2

Human-readable Claim Values and Claim Values that reference human-readable values MAY be represented in multiple languages and scripts. To specify the languages and scripts, BCP47 [RFC5646] language tags are added to member names, delimited by a # character. For example, family_name#ja-Kana-JP expresses the Family Name in Katakana in Japanese, which is commonly used to index and represent the phonetics of the Kanji representation of the same name represented as family_name#ja-Hani-JP. As another example, both website and website#de Claim Values might be returned, referencing a Web site in an unspecified language and a Web site in German.

[290] Final: OpenID Connect Core 1.0 incorporating errata set 1, 2023-02-07T09:56:05.000Z, 2024-04-16T06:36:50.244Z https://openid-foundation-japan.github.io/openid-connect-core-1_0.ja.html#rfc.section.5.2

[102] Yahoo! ID連携:属性取得API(UserInfoAPI) - Yahoo!デベロッパーネットワーク (2015-03-05 15:57:31 +09:00 版) http://developer.yahoo.co.jp/yconnect/userinfo.html

given_name#ja-Kana-JP カナ名 profile ユーザーが登録している名のヨミガナを返却します。最大100文字の可変長です。
given_name#ja-Hani-JP 漢字名 profile ユーザーが登録している名の漢字を返却します。最大100文字の可変長です。

[288] ID連携の標準化仕様紹介とセキュアな実装のためのアプローチ ~ 2021 - r-weblife, 2024-04-16T06:32:21.000Z https://ritou.hatenablog.com/entry/2021/09/05/100000
[289] IDトークンが分かれば OpenID Connect が分かる #OAuth - Qiita, 2024-04-16T06:33:04.000Z https://qiita.com/TakahikoKawasaki/items/8f0e422c7edd2d220e06

[224] 用字副タグについて · Issue #54 · hfu/noteworthy · GitHub, 2024-04-05T14:27:38.000Z https://github.com/hfu/noteworthy/issues/54

ja, ja-Latn, ja-Kana, ja-Hira, ja-Hrkt は使うかもしれない
ja-Jpan は RFC 5646 の SHOULD 規定により使わない、ということになる
ja-Hani を使うこともないと思う。いわゆる Han-Unification 的な扱いになるので、かえって混乱を起こす可能性もあるし。また、漢字のみということをわざわざ示す必要があるユースケースはないのではないか。ja-Hani と書きたくなった場合には、ja とすれば OK である場合が多いと想像する
ja-Kana がカタカナだというのがトリッキー

[225] >>224 3. は誤解。漢字統合と Hani は無関係。

[226] 用途がないというのはその通りで、万葉仮名など特殊な事例以外で ja-Hani の出番はなさそう。

[228] 2. がどの SHOULD を指すのかこの記述だけでは不明ながら、用字系抑制の規定を指すと推察されます。

[306] >>305 は ja-Jpan とともに ja-Hani を例示しています。意図はよくわかりません。

複数の言語/スクリプトの組み合わせの名前 (たとえば日本語の [漢字 + ひらがな + カタカナ、xml:lang="ja-Jpan"] および漢字 [xml:lang="ja-Hani"]);

[307] Attribute: Language, 2023-03-15T11:57:35.000Z, 2024-04-16T11:24:48.835Z https://jats.nlm.nih.gov/archiving/tag-library/1.1d1/n-pxx2.html

Thus, for example, the following are among the expected values of @xml:lang for Japanese, incorporating both a language (“ja”) and a script type:
xml:lang="ja-Hira" (Japanese written in Hiragana)
xml:lang="ja-Hrkt" (Japanese written in Hiragana + Katakana)
xml:lang="ja-Jpan" (Japanese written in Han + Hiragana + Katakana)
xml:lang="ja-Hani" (Japanese written in Kanji (Hanzi, Hanja, Han))
xml:lang="ja-Kana" (Japanese written in Katakana)

[308] >>307 これは機械的に全組み合わせを例示していて、確かに値の説明にはなっていますが、いつ何のためにこれらを使うべきなのかは何も説明されておらずわかりません。

[436] Another RDF Encoding Form (aREF), Jakob Voß (voss@gbv.de), 2014-10-16T08:22:47.000Z, 2025-11-06T15:04:23.200Z https://gbv.github.io/aREF/aREF.html

  "skos_prefLabel": [
    "east@en",
    "Osten@de"
    "東@ja",
    "東@ja-Hani",
    "ヒガシ@ja-Kana",
    "higashi@ja-Latn"
  ]

[437] >>436 は RDF の構文の利用例として書かれたもので、いろいろな言語タグを使えるという以上の意図はないと思われますが、日本語のいろいろな表記を言語タグで区別できるという事例の提示であり、興味深いところです。特に「東」を ja と ja-Hani の2回わざわざ含めているのは何かしらの思うところがありそうですが、残念ながら説明はありません。

[296] 平成22年度の日本政府の総務省の事業であるメタデータ情報基盤構築事業のまとめた指針は、 RDF において特性の値の言語タグを ja-Kanji (原表記) と ja-Kana (読み、実例ではひらがな) で区別する方法を推奨していました。 >>295

[297] メタデータ情報基盤構築事業はその他に、本来表記と読みが区別される場合において、仮名の読みとローマ字の読みを区別するため ja-Kana (実例では片仮名) と ja-Latn を使う方法を示していました。 >>295

[299] 2つ方法が示されていますが、この方法「も」推奨されているのかどうか、指針の書き方が曖昧でよくわかりません。しかも実例を重視した書き方のためどこまでが推奨される規定でどこからが例示に過ぎないのかがよくわかりません。特に、具体的な言語タグは例示内にしか出現しないので、それらは例に過ぎず実際には読み手の責任で選べというのかもしれませんが、それだと指針として統一的な構造を要求する意味がないですよね... 平成時代後期の技術仕様書としては品質に難ありで困ったものです...

[300] ここで ja-Latn を使っているということは、 4文字の用字系部分タグの標準化を認識した上で書かれているはずですが、片仮名を表す Kana で平仮名と片仮名の両方を認めていたり、 4文字の用字系部分タグではない Kanji で「じゃない方」を表していたり、微妙に独自路線を行っているのが不思議です。

[301] 用字系部分タグが標準化される前の言語タグの旧仕様なら、そのように好きに使って構わなかったのですけどね。新仕様を認識した上で、旧仕様時代の蓄積があるわけでもなさそうなのに、謎です。

[294] RDF において ja-Hani (原表記) と ja-Kana (片仮名) による区別を例示した解説もあります。 >>293 >>296 とよく似た内容であり深い関係性が窺われます。

[282] 日本の国立国会図書館が運営するジャパンサーチは ja-Kana を使っています >>280, >>284 が、なぜかその意味を

言語タグja-Kanaは、カタカナだけでなくひらがなを含めた読みのために用いる。

と定めています >>281。これは明確な誤用です。しかもこの書き方から、 Kana が片仮名だとわかっていて敢えて使っているように読めますが、その意図は説明されておらず不明です。

[283] 不明ではあるのですが、 >>296 から >>294 を経て >>282 に至ったとすれば話が綺麗に繋がります。話は繋がるものの、「なぜ」はやっぱり不明です。

[302] 日本政府として Kana に片仮名を割り当てた変な符号体系に抗議したいということなら、面白い試みなのですが...

[295] 000132512.pdf, 2022-04-15T17:51:47.000Z, 2024-04-16T07:02:49.236Z https://www.soumu.go.jp/main_content/000132512.pdf#page=43
[293] Web NDL Authoritiesの設計 [8] 読みの表現, 神崎正英, 2012-09-25T11:20:07.000Z, 2024-04-16T06:51:15.047Z https://www.kanzaki.com/works/2012/pub/0118lodj.html#s8
[280] 平成29年度「ジャパンサーチ(仮称)」利活用フォーマット検討成果物 - jps_metadeliverables.pdf, 2018-05-30T04:10:56.000Z, 2024-04-16T05:25:08.843Z https://www.ndl.go.jp/jp/dlib/standards/pdf/jps_metadeliverables.pdf#page=11
[284] - 4_342.pdf, 2024-04-16T05:35:44.000Z https://www.jstage.jst.go.jp/article/jsda/4/4/4_342/_pdf/-char/ja#page=5
[281] 基本記述プロパティ - ジャパンサーチ, 2024-03-26T00:29:46.000Z, 2024-04-16T05:27:59.661Z https://jpsearch.go.jp/static/developer/property_simple/#schema%3Aname

[303] 2024-04-16T10:05:50.000Z https://fit.repo.nii.ac.jp/record/407/files/DC_Ko_k_50.pdf #page=40

立花祭ホームページの URI を主語として記述し,立花祭に関する記述を別の triple の集合として整理している.その URI が“立花祭”であることを rdfs:label により示している. 共通語彙基盤では ic:カナ表記として“タチバナサイ”を記述しているが,図 24 のように @ja,@ja-Kana のように別の表記として記述することが可能である.この他,漢字表記の場合は@ja-Kanji,ローマ字表記の場合は@ja-Lath,英語の場合は@en,中国語の場合は@zh のように言語タグによって別の表記として記述できる.但し,基本的にラベルやタイトルなどのプロパティは1つの主語に対して1回の出現回数とする制限があるため,「"立花祭"@ja, "福岡工業大学立花祭"@ja」のように記述することは誤りである.言語タグが異なるならば, 1 回の出現回数という制限がある場合でも複数のリテラルを定義できる.

[304] 図24では本来表記に ja、カタカナ表記に ja-Kana を使っている。 ja-Lath は明らかに誤りで、利用例は示されていない。 ja-Kanji の利用例も示されていない。

読み仮名やローマ字表記と「じゃない方」を言語タグで区別すること

[232] ja-Hira や ja-Kana のような言語タグは読み仮名用の識別子に使われることが多いですが、「読み仮名」という言葉が持つ「本来の表記は漢字仮名混じりであるところ、発音を明確にするため仮名表記でも併記する」というニュアンスは言語タグ自体には表れていないことには注意が必要です。そのようなニュアンスが必要だとすると、言語タグではなくそれを利用する文脈 (プロトコルやデータ形式やそれらを活用する応用) の側で定める必要があります。

[377] ja-Latn で「読み仮名に相当するローマ字表記」を表すこと、 ja や ja-Jpan で「じゃない方」を表すことも同様です。

[233] 例えば日本語 (ja) と英語と仏語と・・・のデータを併記できる多言語文字列対データがあったとして、そこに ja-Hira のデータを追加したとしても、日本語や英語や仏語と並列の別の言語のデータと解釈されるのが自然で、 ja と ja-Hira が対になっていてセットで使われるデータと解釈されるためには特別の規定と処理が必要になります。

[368] RDFリテラルの言語タグを使って読み仮名やローマ字と「じゃない方」を区別する方法を採るには、RDFデータモデルのレベルでは何の規定もありませんから、語彙の意味なり、処理モデルなりに於いて明示的に定める必要があります。

[369] 例えば

[370] 主語 S, 述語 P, 目的語: RDFリテラル (v, ja)
[371] 主語 S, 述語 P, 目的語: RDFリテラル (w, ja-Kana)

の2つの文があるとき、この2文はRDFデータモデルのレベルではまったく無関係です。

[372] 2つの文はたまたま S, P が一致するだけで本当に無関係
[373] v, w は同じものをまったく別の表現で記述している
[374] v と w は同じ語で、 v と書くこともあれば w と書くこともある
[375] v と w は同じ語で、 v が通常の表記で w はその読み仮名である

など、いろいろな解釈の可能性があります。

[376] そのいずれであるかを確定させたければ、 P の定義においていずれであるかを明確にするなり、いずれであるかを定めるための別の文を付け足すなりしなければなりません。

[234] 読み仮名だけでなく「平仮名のみの文章」や「片仮名のみの文章」も ja-Hira や ja-Kana で表される対象であることにはやはり注意が必要です。具体的には、

[235] 年少者向けの文章 (>>105)
[236] 非日本語母語話者向けの文章
[237] 文学的理由で仮名で書かれた文章 (俳句等の詩も含む)
[238] 仮名専用主義者による文章国語国字問題
[239] 前近代の仮名文書
[240] 電報、初期計算機など技術的制約のもとで仮名のみで書かれた文章

のようなものがあります。設計者はこうしたものと読み仮名の共存が必要かどうか、可能かどうかを考慮しなければなりません。

[367] ja-Latn で「読み仮名に相当するローマ字表記」を表すことにも、同じことが言えます。「読み仮名に相当するローマ字表記」以外の日本語ローマ字文は例えば

[242] 非日本語母語話者向けの文章
[243] ローマ字化主義者による文章国語国字問題
[244] 初期計算機など技術的制約のもとでローマ字表記された文章
[383] 日本語話者による計算機言語のソースコード中の識別子等でローマ字表記のもの
[384] 日本語話者によるファイル名, ドメイン名, メールアドレス, URL, アカウント名等のローマ字表記の部分
[385] 商号, 製品名, 芸名等でローマ字表記されたもの
[386] 視覚デザイン上の理由からローマ字表記された語句や文章
[387] 日本語以外 (主にラテン文字表記の言語) の文章における日本語文章の引用部分

があります。これらにもやはり ja-Latn が使えます。

[359] また、読み仮名として使う場合もそれ以外として使う場合も、 Hira, Kana, Hrkt を指定したからといって、厳密に平仮名や片仮名のみでなければならないわけではないことには注意が必要です。

[360] 例えば、「「住所の読み仮名 (ja-Hira)」欄で欧州数字を仮名に開かずそのまま含めること」「漢数字が混じった仮名文書を ja-Hira で表すこと」「慣習により漢字に置換した仮名異体字を ja-Kana の文章に含めること」「・, -, 、などの記号を含めること」には問題がないと考えられます。

[361] 勿論言語タグを使う応用仕様や実装の個別具体の規定により、こうしたものを認める、認めない、と決めることはできます。しかしそれは言語タグそれ自体から導かれる規定ではなく、応用独自の規定が必要となります。

[362] なお、全角カナと半角カナの違い、濁点の文字合成に関する記述の違い、標準仮名と変体仮名などは、文字コードに関する技術的な差異に過ぎず、言語タグ/用字系符号とは独立した問題です。

[363] 例えば「半角カナで表されるヨミガナ」「全角カナで表されるヨミガナ」「半角カナでも全角カナでもいいのでヨミガナ」のいずれも ja-Kana で表すことができます。

[378] なおこうした言語タグによる区別の方法で表現できるのは、いわゆる読み仮名のうち、欄単位で区別されるべきものだけであることにも、注意が必要です。

[379] 読み仮名には他にも語単位で記述するもの、文字単位で記述するものがあります。読み仮名そうした記述力が必要なら、欄単位の言語タグの記述の仕組みではまかないきれません。 HTML の ruby 要素のような細やかな記述ができる機構が必要となります。ルビ

[278] Property talk:P1814 - Wikidata, 2024-04-15T22:06:44.000Z, 2024-04-16T05:19:00.110Z https://www.wikidata.org/wiki/Property_talk:P1814#h-Use_of_property_and_name_in_native_language_(P1559)_or_native_label_(P1705)-Discussion-2016-11-07T13%3A00%3A00.000Z

[279] >>278 これは言語タグによる区別でいいのではないかとの問いに対し、読み仮名であることを別に表す方が便利との回答。

旧表記日本語の識別子

[354] 昭和時代の国語改革の前後の表記法の違いを表したいという需要があります。

[74] 平成時代中期頃、正字正仮名文の言語タグの提案がいくつかありました。実用例は見当たりません。

[69] ねこめしにっき(2001年4月中旬), 2006-01-05T18:47:42.000Z, 2024-04-03T12:52:06.173Z http://www.remus.dti.ne.jp/~a-satomi/nikki/2001/04b.html#d11n03

野嵜さんのテキストの引用部分へ lang="正字正假名-ja" を指定する事にして事無きを得てもよいですか。(笑)

[70] 未実施

[71] あくせくしているびりてい - カナかな団の躁鬱, 投稿者首領, 投稿日 2001年07月26日 11時32分, 2024-04-03T12:58:41.000Z http://www.aboutworks.com/shokodei/diary/read?200107e03#PrintNo3

そこで、現代かなづかいを"ja"、正字正かなを"valid-ja"、ついでに(謎)かなづかいを"nazo-ja"、ってな感じで追加するというのは……駄目ですか……?

[73] 言語コード - カナかな団の躁鬱, 投稿者首領, 投稿日 2001年07月26日 16時39分, 2024-04-03T13:00:11.000Z http://www.aboutworks.com/shokodei/diary/read?200107e01#PrintNo3

"valid-ja"では駄目ではないですか。
よって正字正かなは"ja-nippon"、(謎)かなづかいは"ja-nazo"にしなくてはいけましぇんね。この方法で行くと各地の方言もカバーできそう……。"ja-ibaraki"とか"ja-ohsaka"とか。

>>71 を引用

[37] 正字正假名の日本語を ja-trad と表す提案がありました。 >>53

[53] http://www1.odn.ne.jp/bungaku-shitsu/appendix/diary/d0107-3.html#d010725-8

[353] 平成時代終わりから令和時代初期にかけても新旧表記法の識別子の提案はちらほらあります。

[322] Xユーザーの鵺(マッチ)さん: 「新字新仮名と旧字旧仮名とを区別するには IETF 言語タグはどう書くべきなのだろう? 新字新仮名は ja-JP-1946 と書けそうな気がするが、旧字旧仮名の上手い表し方がよくわからない。(IANA に登録されていない以上いずれも私用領域で表すべきなのだろうけど)」 / X, 午後10:33 · 2017年11月16日, 2024-05-01T07:29:01.000Z https://twitter.com/nue_of_k/status/931153321712164864

[323] 現行の新字体が最初に制定されたのは昭和24(1949)年の当用漢字字体表。 1946(昭和21)年は当用漢字表の制定年で、誤り。なお、現在通用する新字体はその後の常用漢字表による改正(追加)および人名漢字による事実上の改正も含まれるので、単一の年号で表すとすると平成2年あたりのどこかになるはず。 (特定の法令による表記を指すのではなく「新字」を指したいときに年号で表すという手法がよくない。)

[143] Pleroma/nixeneko, 2024-04-03T15:04:12.000Z https://nixeneko.info/notice/9iXYptD9JgifHDGuZs

PleromaにJapanese (Traditional)とかいって旧字旧仮名ロケールを追加したらどうだらう

[144] Pleroma/nixeneko, 2024-04-03T15:04:42.000Z https://nixeneko.info/notice/9iXaJ219kjqqwS7cwK

現状のPleromaの言語、言語タグでいくとja-Hrktといった趣がある。

[145] Pleroma/nixeneko, 2024-04-03T15:05:00.000Z https://nixeneko.info/notice/9iXeyQQMJYpkKJu6CG

旧字旧仮名日本語の言語タグ、ja-x-tradとかになるのかな。

[146] 令和元年の投稿

[314] LIISコードで仮名遣いと漢字字体の組み合わせで4種類の符号が定義されています。 (>>313)

[352] 言語タグとして使う方法も決められています。しかし ja- から始まらないので、対応していない一般の実装で日本語扱いされないのが実用上の難点です。

[392] Wp/ja-classical - Incubator Plus 2.0, 2024-11-16T17:33:40.000Z, 2024-11-25T01:44:49.129Z https://incubator.miraheze.org/wiki/Wp/ja-classical
- [393] メインページ - Wp/ja-classical - Incubator Plus 2.0, 2024-11-20T01:38:24.000Z, 2024-11-25T01:45:00.967Z https://incubator.miraheze.org/wiki/Wp/ja-classical/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8

[394] >>392 は

ISO 639-3: ja-classical

としていますが、 ja-classical は ISO 639-3 の符号ではありません。

Classical Japanese language

と説明されていて English 版Wikipediaの記事にリンクされています。その記事は classical Japanese language、対応する日本語は文語としていて、旧字体、旧仮名遣い、文語文法が説明されています。

[395] >>393 は

このヰキペヂアは、正字正かな、或いは舊字舊かなと呼ばれる漢󠄁字、假名遣󠄁ひを用ゐるものです。

と説明しています。この文章はですます体ですが、他の記事はだである体で、いずれにせよ文語体ではありません。

日本語点字表記の識別子

[341] 点字は Brai で表されますから、日本語を点字表記したもの全般は ja-Brai で表せます。

[345] 効果的に活用した事例は未見です。

[344] 言語非依存の点字入力用鍵盤定義が ja-Brai を採用した事例があります >>342, >>343 が、これはいろいろな言語を機械的に列挙しただけです。

[346] 日本語の点字表記法は、代表的なものの他にも何種類かあります。日本語点字 ja-Brai は具体的にどの表記法を採用するかを指定せずに点字全般を表しています。区別の必要があるなら、より細かな区分の言語タグを用意することになります。

日時表示

[23] 元号を使うことを明示するために言語タグ ja-JP-u-ca-japanese を使うことがあります。

[57] 明示しないからといって和暦でないことにはなりません。

[56] また、日本関係の u-nu の値として、 jpan, jpanfin, jpanyear があります。数字表記の方法を明示したいときに言語タグに組み入れて使うことができます。

[165] >>164 は ja-JP-u-ca-iso8601-tz-jptyo という例を示しています。日本国の日本語で ISO 8601 式の東京時間を表します。

[166] >>164 は「ISO 8601 形式の日付・時刻、日本標準時」と解説していますが、 u-ca の登録では iso8601 は

ISO calendar (Gregorian calendar using the ISO 8601 calendar week rules)

と説明されています >>171。つまりただ ISO 8601暦というだけではなく週暦を表しています。これを「ISO 8601 形式の日付・時刻」と要約するのは甚だ誤解を招きます。

[167] 人工的な用例の提示とはいえ日本でほとんど利用のない週暦をわざわざ使った意図は謎で、 >>164 の著者も「ISO 8601 calendar week rules」を見落としている可能性があります。

[169] というか >>164 は Unicode Consortium の登録簿か何かから「抜粋」して

iso8601 ISO-8601 Calendar ↑↑↑ ISO-8601

と書いているのですけど、この「抜粋」する前の記述はどこなんですかねえ。大事なところが省かれてるじゃないですか。

[172] ということで探したらありました。登録簿 >>171 ではなく表示用の文字列データ >>170 では「ISO-8601」「ISO-8601 Calendar」のようになっていて、 >>164 はそれを拾っていたのですね。変な定義した Unicode Consortium と不正確なラベルを付ける Unicode Consortium が一番悪く、定義でないところを参照した >>164 がその次に悪い。

[168] 週暦を「ISO 8601」とだけ呼んで表すのはほとんど誤りに近いので、そのような用法は避けるべきですが、たまにそう呼ばれているのもまた事実。

変形

[199] 言語タグの拡張Tを使うとどのような変形を経て得られたものかを記述できます。

[200] 拡張Tの仕様等で次のような利用例が示されています。拡張T

[201] ja-t-de-m0-und-x0-medical : 日本語であって、独語からの機械翻訳で、 (私用タグ利用:) 医学用語辞書を使ったもの。
[202] ja-t-it : 日本語であって、イタリア語から変換したもの
[203] ja-Kana-t-it : 日本語のカタカナ表記であって、イタリア語から変換したもの

[204] 「変換」は広い意味で使うことができるので、外来語やローマ字をはじめいろいろなものの記述に適用できそうです。

[391] Englishから機械的に翻訳された日本語を表すため ja-x-mtfrom-en が使われる事例があります。 -x-mtfrom-

[390] 音声から機械的に生成された文字データを表すため ja-x-autogen が使われる事例があります。 -x-autogen-

絵文字

[255] >>254 は絵文字のフォント選択の制御のために拡張Uを使う例を示しています。

[256] 説明のための人工的な例で、実用的ではありません。

[254] 絵文字を支える技術について|nona, 2024-04-05T15:28:50.000Z https://note.com/ttuusskk/n/n1bff5d8e638c

その他位相言語の識別子

`mul-kambun` (言語タグ)

[92] mul-kambunは、 (日本の) 漢文用の言語札です。

[93] この言語タグは平成時代中期に定義されました。

[94] 漢文は中国語 (ただし現代中国語ではなく、古典中国語) としての性質と日本語としての性質を併せ持っていますから、 mulと札付けするのが適当だと考えます。

[95] 白文、訓読文、書き下し文のいずれにもmul-kambunを使えます。これらを区別する必要がある場合のlanguage tagも必要かもしれませんが、どういう名前が良いか検討が必要です。和様漢文 (変体漢文) を区別する必要があるかも検討が必要です。

[96] 朝鮮語等の、日本語以外における中国語は対象外としています。

[161] 中文言語タグも参照。

[364] でも表示その他の応用を考えると、 ja- から始まる言語タグに改めた方がいいかもしれないですねえ。大陸由来のものも含め、日本で扱われる漢文は日本語表記の1つといっていい ( 中文言語タグ ) ものになっているとも考えられますから。

[440] 現代日本で使われる漢文は、

[441] 学術目的で利用される前近代アジア大陸の漢文や前近代日本の変体漢文
[442] 教育や教養の目的で利用される有名漢文

の2つが需要の大きな分野と思われます。

[443] >>441 は多岐にわたるので一概には言い難いですが、 >>442 は前近代の漢文の慣習に基づき近代日本で教育その他の目的で整備、標準化され、現代日本で調整されつつ引き継がれているものであり、その訓点や書き下し文の表記法は必ずしも前近代のものと同じではありません (違うというわけでもありませんが)。

[3111] >>3108 の提起者の例文は白文を lzh, 書き下し文を ojp-t-lzh, 現代日本語訳文を ja-t-lzh としています。 >>3108 自体は人工的な HTML 例文ですが、実用したい事案があっての例文なのか、問題的のための完全に人工的な作文なのかは不明です。

[438] lzh の利用については実用上の問題があります。 lzh

[439] 書き下し文たる文語文を ojp で表すことには議論の余地もありそうです。

[3108] `:lang(lzh)` elements in non-traditional-Chinese CJK elements should not switch font to Traditional Chinese one · Issue #13050 · w3c/csswg-drafts, 2025-12-02T05:22:31.000Z https://github.com/w3c/csswg-drafts/issues/13050

`x-Nise-Chinese` (言語タグ)

[420] x-Nise-Chinese >>421 は偽中国語を表す例文で用例があります。

[422] 偽中国語は中文の知識に乏しい (せいぜい学校教育レベルの漢文や簡単な挨拶文や中華料理名程度の現代中文しか知らない) 日本語話者が漢字文で中文風味にしたものです。

[425] 変体漢文が日本語の一形態であるのと同じように、これも偽中国語と称してはいますが、日本語の一形態というべきものでしょう。

[423] 日本人同士の娯楽目的の俗な文化として意外と広く薄く継続的に行われています。今のところ言語タグの用例は1例しか見つかっていませんが、言語切り替え用などで案外需要はあるかもしれません。

[421] <img longdesc=...>について (2010-11-17 21:33:48 +09:00 版) http://deztec.jp/x/10/faireal/d11223_2.xml

<p>偽春菜だから、しゃべる言葉も偽中国語。こんなぐあいだ。</p>

<img src="img/niseharuna_nisechinese.png"
xml:lang="x-Nise-Chinese"
alt="可可逝世!" longdesc="../../../image/d-niseharuna.htm"
width="500" height="275" />

[424] >>421 がおもしろいのは、 >>421 は HTML の解説記事なのでこの部分は HTML の例文とそれを実際に利用した例の2箇所あるものの、 xml:lang が指定されているのは実際の利用例の方だけだというところ。 HTML の例文の方にはなぜか言語指定がない。後から xml:lang を付けようと思い立って片方に追加し、もう1つは付け忘れたのだろうか。

`ja-2ch` (言語タグ)

[97] ja-2ch は2ちゃんねる語を表す言語タグです。

[98] 平成時代中期に独立して方々で考案され使われました。

[134] 当時は ja-2ch は仕様上も正当な言語タグでした。その後 IETF言語タグの仕様書が改定され、一般で使われている言語タグの実情を調査することもなしに非互換変更してしまったので、現在のIETF言語タグの仕様では規格違反になってしまいます。

[135] 利用者はこの問題を深刻に捉える必要はありません。非互換変更は完全に IETF のミスです。 2ちゃんねる語は 2ch の衰退でほぼ死語で、今後この言語タグが今まで以上に普及するとは考えにくいので、今更理論上だけの仕様適合性にこだわるより、従来の記述方法との連続性の方が重要です。

[111] <img longdesc=...>について (2010-11-17 21:33:48 +09:00 版) http://deztec.jp/x/10/faireal/d11223_2.xml

同様の遊びとして、
<q cite="http://pc.2ch.net/..." lang="ja-2ch">ハゲ銅!ahooのせいでみかかが株をあげたと思われ。</q>
なんてこともできます。

[113] Strict-HTML スレッド 37 (2015-04-26 22:43:43 +09:00 版) http://pc8.2ch.net/test/read.cgi/hp/1154869185/839-845
xml:lang="ja-2ch"
とすれば2ch語。
- [45] 移転確認 2022-12-04T04:30:49.800Z
- [46] Strict-HTML スレッド 37, 2022-12-04T04:30:20.000Z http://pc8.5ch.net/test/read.cgi/hp/1154869185/839-845
[114] 和泉日記 2クール目 ● ペンフロ (2015-04-26 22:44:33 +09:00 版) http://ma-na.biz/zzz/r.cgi/diary/1113822368/947
この日記スレなら2ch語ベースで書かれているので記述するとしたらja-2chか。
- [47] 消滅確認 2022-12-04T04:30:04.100Z

[115] 一行づつタグを書いてHPを完成させるスレ Web制作@ネット関係(1から200までのページです) (2002-05-18 05:41:00 +09:00 版) http://viva2ch.net/hp/1010056747-0.html

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja-2ch">

[133] >>131 の例文は ja-x-2ch を使っています。

Mac 用日本語の識別子

[49] ja-JP-mac や ja-JPM は、 Macintosh の用語の指針に基づいた日本語を表すロケール識別子として平成時代中期頃の Mozilla プロジェクト関連製品で使われることがありました。

[356] プラットフォームごとにUIの用語の指針があり、 Mac 用とそれ以外を区別する必要があったために、このような識別子が使われたのです。ある種の位相言語を記述したものといえます。

[50] L10N FAQ - 日本語パックについて http://www.mozilla-japan.org/jp/l10n/faq/jlp.html#what_is_ja-JP-mac

[51] 418485 – "ja-jp-mac" is not a valid language code. Please stop using it. (2015-04-25 17:17:22 +09:00 版) https://bugzilla.mozilla.org/show_bug.cgi?id=418485

[355] 時系列は要調査ですが、おそらく最初に使われ始めた時点の仕様では、 ja-JP-mac は正当な言語タグだったはず。 ja-JPM が構文的に適当でないと ja-JP-mac に置き換えられたのです。その後 IETF言語タグの仕様が改定されて非妥当にされてしまいました。

[52] ja-JP-mac (Language tag) - SuikaWiki Data (2016-03-15 16:20:20 +09:00 版) https://data.suikawiki.org/lang/ja-JP-mac

[426] (識別子ではなく) このような言語自体の情報:

[427] macOS における日本語表記ルール - zumuya, 2025-02-11T13:11:17.000Z https://zumuya.com/documents/MacAppsJapanese/

子供向け平仮名表記日本語

[105] 翻訳管理サービス Transifex の対応言語の1つに「Japanese (Hiragana) (ja-Hira)」があります。 >>112

[116] ただしこの Transifex の言語リストに示された符号がどのようなものなのかは明記されていません。構文は POSIX locale 識別子に近いようですが、 ja-Hira のように IETF言語タグにも見えるものが混じっています。

[357] ja-Hira は IETF言語タグだとすると、「平仮名表記の日本語」を意味しています。

[117] この「Japanese (Hiragana)」がどのような利用を想定したものなのかはよくわかりません。

[119] プログラミング言語プラットフォームで子供のプログラミング教育で人気のある Scratch は、これを子供向けの平仮名表記の日本語のために使っているようです。 >>118
[120] 平仮名表記が原則でありつつも、作業が間に合わないときは通常の日本語で埋める場合もあるようです。
[121] >>99 ではやさしい日本語のために使っています。
- [358] しかしやさしい日本語は平仮名表記の日本語ではなく、かな漢字混じりなので、誤用に当たります。

[112] Transifex Languages, 2024-04-03T13:41:14.000Z https://explore.transifex.com/languages/
[118] Japanese translation (日本語の翻訳) - Discuss Scratch, 2024-04-03T13:41:22.000Z https://scratch.mit.edu/discuss/topic/4196/?page=7

[444] feat: add locale ja-Hira by gierschv · Pull Request #2663 · date-fns/date-fns · GitHub, 2025-12-04T10:34:22.000Z https://github.com/date-fns/date-fns/pull/2663/files

[445] >>444 は平仮名表記日本語を locale の1つとして ja-Hira で実装した事例。

やさしい日本語

[100] やさしい日本語には言語タグ ja-simple を使えます。 >>99

[101] 日本語を表す言語部分タグ ja と、簡易化された言語変種を表す異体部分タグ simple >>103 を組み合わせたものです。

[263] ただし、 ja-simple は単純化された日本語全般を表し、やさしい日本語だけを表すのではないことには注意が必要です。例えば、

[264] 「やさしい日本語」を称する言語(指針)各種
[265] 「やさしい日本語」を称さない同様の言語(指針)各種
[267] 年少者向けの平易な表現
[271] 年少者向けに仮名だけで表記したもの
[268] 年少者向けに漢字を仮名に開いたり、振り仮名を加えたりしたもの
[269] 非日本語話者向けの表現
[270] 大東亜戦争期の南方占領地で日本語教育に使われた各種の日本語
[365] ゆっくりと、単語を区切りながら丁寧に読み上げた平易な日本語の音声
[266] その他、やさしい日本語とは違うアプローチで簡易化された日本語系言語各種

といったいろいろなものが ja-simple に当てはまり得ます。

[272] もし他の平易な日本語と異なるやさしい日本語だけを特定したい場面や、何種類もあるうちの特定のやさしい日本語の指針等に従ったものだけに限定したい場面があるなら、より限定的な専用の言語タグを決める必要が出てきます。今のところそのような提案はなされていないようです。

[104] なおやさしい日本語を使うプログラムで ja-basic も使われている >>99 とありますが、 IETF言語タグとして出力される場面があったのかは不明。さらっとコードを眺めた感じは内部用のみで外には出していない (ja-JP を使っている) ように見えます。

[273] もしそうだとすると、 >>99 の投稿者は basic が登録されたIETF言語タグの部分タグでないことを問題視していますが、そもそもIETF言語タグではないので何も問題はありません。 >>99 が却下されたのもそれが理由なのでしょう。

[122] このコードは日本国東京都の運営するウェブサイトだったのですが、本段落執筆時点で既にサーバーが停止されていて閲覧できません。 Internet Archive だと参照しているファイルを読み込めずに、読み込み中の表示から先に進みません。開発にも運営にも、行政が公開した情報を次の時代に伝えようという意志がまったく感じられない酷いサイトですね。

[274] おかげで >>104 >>273 が正しいのか検証するのは困難です。

[124] ソースコードが残っているだけまだ良心的ですが、それも GitHub が永続的に保存してくれているからというだけの話なので、ほんとにたまたま残ったものが少しだけあったということです。

[123] 自治体のウェブサイト運営の失敗事案として語り継いでいくべきですね。

[103] 2021-07-18T23:39:45.000Z, 2024-04-03T13:35:04.951Z https://www.iana.org/assignments/lang-subtags-templates/simple.txt

[99] 「やさしい日本語」の言語コードを "ja-simple" に変更 · Issue #1801 · Tokyo-Metro-Gov/covid19 · GitHub, 2024-04-03T13:31:46.000Z https://github.com/Tokyo-Metro-Gov/covid19/issues/1801

likibp commented on Mar 19, 2020

現状、「やさしい日本語」の言語コードは、コード内では "ja-basic" , transifexでは "ja-Hira" を使用しています。

"basic"というサブタグはLanguage Subtag Registryに登録されておらず、"Hira" はその名のとおり平仮名のみの表記を示すサブタグであるため不適切です。
よって、「やさしい日本語」の言語コードを "ja-simple" に変更することを提案します。

[318] Xユーザーのryo-aさん: 「「やさしいにほんご」の普及率がもう少し高くなっていくといいのかな。 NHKのニュースなどを見ても「英語で書けよ」というツッコミを入れている人が多いので、まだまだ周知活動が必要かも。あとIETF言語タグがほしい(あるっけ?ないよね?)」 / X, 午後7:59 · 2020年4月27日, 2024-05-01T07:29:01.000Z https://twitter.com/geo_vitya/status/1254726750610657283

和語

[402] 「借用語を含まない和語だけの日本語文」が使われることがあります。

[403] 現代日本語ではそうした言語体系の運用は極めて困難で、実験的なものや娯楽的なものを除けば日常で使われることはまずないといえますが、実際に符号を割り振った事例があります。

[404] 近世には国学者が似たような試みをしていました。神道系の宗教的文脈などでもそのような表現がなされることはままあります。そうしたものも含め符号を割り当てる一定の需要はありそうです。

[398] Wp/ja-pure - Incubator Plus 2.0, 2024-11-24T14:52:20.000Z, 2024-11-25T01:53:51.898Z https://incubator.miraheze.org/wiki/Wp/ja-pure
- [397] 入口 - Wp/ja-pure - Incubator Plus 2.0, 2024-11-19T14:07:27.000Z, 2024-11-25T01:53:37.743Z https://incubator.miraheze.org/wiki/Wp/ja-pure/%E5%85%A5%E5%8F%A3
- [396] 入口/通常の日本語への翻訳 - Wp/ja-pure - Incubator Plus 2.0, 2024-11-20T01:36:23.000Z, 2024-11-25T01:53:26.852Z https://incubator.miraheze.org/wiki/Wp/ja-pure/%E5%85%A5%E5%8F%A3/%E9%80%9A%E5%B8%B8%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%B8%E3%81%AE%E7%BF%BB%E8%A8%B3

[399] >>398 は

ISO 639-3: ja-pure

と説明していますが、 ja-pure は ISO 639-3 の符号ではありません。

Pure Japanese language

と説明されていて English 版Wikipediaにリンクしていますが、リンク先に記事はありません。

[400] >>397 には

ここでは、昔の唐(から)の国の言葉を含め、他の国の言葉から借りて来た言葉を全く使わない大和言葉だけで書くことを目指している。

とあります。また、 >>396 には

このサイトは、漢語を含め、日本語以外からの借用語を一切使わずに純粋な和語だけでウィキペディアを書くことを目標としています。

とあります。

[401] >>397 や他の記事はだである調で書かれています。

怪しい日本語

[309] いわゆる怪しい日本語の主流である、中華人民共和国の業者等が日本市場向け製品説明等で使う独特の日本語は、言語タグ ja-CN で表すのが適当と考えられます。

日本語系人工言語

[311] いくつかの日本語系の人工言語に LIISコードが割り当てられています。言語タグとしても使えます。 >>312

日琉諸語の記述体系への要求

[30] 日本語の方言にも星の数ほど種類がありますから、全部 ja-foo にすると大変なことになります。

一つの提案として、日本国内の地域を主要な使用域とする方言は ja-JP-大地域名-* とし、大地域名としては地域名 (kansai など), 現行の47都道府県名, 明治時代の旧国名くらいに制限し、それ以上の細かいものは地域的あるいは言語的に近いものの小分類としてはどうでしょう。

[24] ただ、大阪弁を ja-JP-oosaka にするのか ja-JP-kansai-oosaka にするのかみたいな話になりますが。

[25] >>24 大阪弁は有名だから関西弁とは独立させてもいいかも・・。だけど結局線引き問題は一杯出てきそう。

[154] 「関西弁」と指定したい時と、「大阪弁」「神戸弁」「京都弁」「奈良弁」「エセ関西弁」と細かく指定したいとき、はそれぞれある。

[26] >>24 oosaka より osaka がイイとか言う意見もありそう。

[158] 一般に使われている区分と学術的な区分と、どちらもそれぞれの使い道がありそうなので、 1つの体系だけで揃えるのではなく方言と認識されている実態があれば全部それぞれ名前を与えるべきだろう。

[159] 変に階層化して長くて使いづらい名前にするより、階層なしでも一般の呼び名に近いものにすれば衝突のおそれもそうそうないだろうし。

[160] ウィキペディアに項目がある方言は一通りあってよさそうだな。

[334] 日本語方言にどんな「方言」が扱われているかいろいろ実例あり。

[338] 方言研究は歴史が長い分野のはずなのに、一覧にして識別子を割り振ってく試みは行われてこなかったのかなあ、全然見つからないなあ。

[339] 学者がやると分類をどうするかとかで揉めそうだしなあw

[28] >>27 こういうのもあると、「小学3年生に習う漢字まで」みたいなのも欲しい気がするが・・・。
[29] >>28 そういうのを見ると、やぱーり用字系は別指定にしる! とか言いたい気がするが。。。 (この文は ja-2ch に札付けするのが(・∀・)イイ!!)
[31] >>27-29 といふことで用字系札に分離しませう。 (この文は ja-desumasu+Japn-ja-old-kana にして下さると嬉しう存じます。)
[32] >>23-26 ラテン文字3〜4文字の都道府県名符号を使うのが良い。
[33] ja-JP-TKY-shibuya-slang 渋谷の女子高生の言葉
[34] >>33 特に時代を指定したければ ja-JP-TKY-shibuya-slang-2002 とするとか。
[36] http://pc3.2ch.net/test/read.cgi/hp/1031743538/133-136
[41] ja-trad: >>37
[42] >>41 の使い方は言語と用字系の独立性を欠いてるからお勧めしがたいけど、手軽なのはいいことだ。
[43] >>34 の書き方を使えば、2ch 閉鎖騒動の頃の言葉遣いを ja-2ch-2001-08 とか表せて(・∀・)イイ!

[35] 言語タグの一覧も参照。

[38] 「日本語平成22年正書法」「近代日本語」「日本語候文」「日本語片仮名漢字混じり文」「日本語旧字体現代仮名遣い」「日本語お嬢様言葉」「日本語総ルビ」のような違いも言語タグで記述したいなあ。

[44] ja (Language tag) - SuikaWiki Data (2016-03-15 16:18:53 +09:00 版) https://data.suikawiki.org/lang/ja

[40] ja-JP (Language tag) - SuikaWiki Data (2016-03-15 16:19:55 +09:00 版) https://data.suikawiki.org/lang/ja-JP

[152] 文体と表記法の記述 (script (コーパス), style (コーパス) より) : 文語体, 口語体, 文語体と口語体の混在, 漢文, 韻文, 漢字片仮名交じり, 漢字平仮名交じり, 万葉仮名

[153] その他文体関係 : 書き言葉, 話し言葉, 訓読文, 書き下し文, 宣命体, 候文, 漢文調, であります, ですます調, だである調, 翻訳調, 敬語, 男言葉, 女言葉, 業界用語, お嬢様言葉, ギャル語, おじさん構文, 西洋人風, 中国人風, 赤ちゃん言葉, ルー語, ロコ語, エミリー語, 忍殺語, 協和語, 横浜ピジン日本語, 日本語対応手話

[155] 語尾や役割語の類は無限に増えているので、無限の記述能力が必要。 (そのすべてを言語タグで記述できる必要があるか、という論点はありそう。)

[156] 表記法関係 (用字系札より、その他) : 漢文 (白文), 訓読文, 書き下し文, かな漢字混じり (全般), 平仮名漢字交じり, 片仮名漢字交じり, 平仮名, 片仮名, 万葉仮名, 教育漢字○年生 (元号○年式), 当用漢字字体表, 元号○年常用漢字, 元号○年人名漢字, 表外漢字字体表 (印刷標準字体 / 簡易慣用字体), 旧字体 / 新字体, 御家流, 初唐標準字体, JIS X 0208, JIS X 0213, 制限付き JIS X 0213, MJ, MJ+, 歴史的仮名遣, 棒引き仮名遣い, 現代仮名遣, 送り仮名規則, 濁音無表記, 撥音無表記, 小書き仮名有無, 長音無表記, 分かち書き有無, ローマ字 (全般), ヘボン式ローマ字 (新旧), 訓令式ローマ字, 日本式ローマ字, 令和7年文化審議会式ローマ字, ローマ字長音各種, キリル文字表記, ハングル表記, 日本点字, 漢点字, 6点漢字, 速記文字各種, モールス符号, 乎古止点各種, 振り仮名無/有/総, 句読点有無, 句点文字, 読点文字, 左横書き/右横書き/縦書き, 元号○年公用文, 絵暦文字

[157] その他ロケール関係: 和暦/西暦/併記, 北朝/南朝/併記, 皇紀, 干支年/十二支年, 12時間制/24時間制, 十二支時刻, グレゴリオ暦/旧暦/併記, 中央標準時/西部標準時/小笠原の標準時/台湾の標準時/関東州の標準時/南洋群島の標準時, SI/尺貫法, 単位記号/単位片仮名名/単位漢字名, 欧州数字/漢数字, 画線法, 位取り記数法/漢数字記数法, 3桁区切り/4桁区切り, 桁区切り 、/,, 小数点 ./・

[406] 他にもこういうのを表記したい

[415] 中世の対馬方言
[413] 大日本帝国台湾の日本語
[412] 大日本帝国朝鮮の日本語
[408] 大日本帝国朝鮮におけるハングル漢字混じり文と仮名や日本語の混在朝鮮語言語タグ
[414] 南洋群島の日本語
[407] 満州国の日本語
[409] 大東亜戦争時大日本帝国南方占領地の日本語教育における日本語
[410] 中華民国台湾日本語族の日本語
[411] 日系人の日本語

[335] 10-6-B3-3.pdf, 2011-07-13T08:08:44.000Z, 2024-05-01T09:03:26.021Z https://www.topic.ad.jp/ipsj-tohoku/archive/2010/report/report14/10-6-B3-3.pdf

[336] >>335 年代差を考慮した方言翻訳システム。このような要件を記述したいこともあろうが、生まれ年 (世代) と年齢とどちらだろう?

[337] 言語の記述を目的にするなら生まれ年だろうし、実用を目的にするなら年齢の方が使いやすそうではあるが...

[347] 引用/翻刻ポリシーや包摂規準的なものも記述したいことある。「片仮名を平仮名になおして引用」とか「新字新仮名とした」とか「青空文庫基準」とか。

[348] マーク付け言語の領分のような気もするが、 -t- や -mtfrom- があるのだから言語タグで書くのがいい場面もある。

[351] 教育ローマ字 (>>315) や一般に用いられる仮名のアクセント表記含め、音声寄りの表記法各種 (>>350) も言語タグで記述できると嬉しいですね。

メモ

[428] Wikidotの言語タグに ja-corrections があります。

kzg