[4] [[自然言語]]の[[表記]]に用いられる[[図形文字]] ([[letter]]、[[句読点]]など)
の一式を[DFN[書字体系]]、[DFN[文字体系]]、[DFN[書字]]、[DFN[用字系]]、[DFN[用字]]、[DFN[script]]、[DFN[writing system]]、
[DFN[ecriture]] などと呼びます。

[5] [[書字体系]]は一般には[[言語]]と混同されがちです。たとえば、[[日本]]ではしばしば[[ラテン文字]]のことを指して
「[[英語]]」といいます。しかし[[ラテン文字]]を使って[[日本語]]を表記することもあり ([[ローマ字]])、
厳密には[[書字体系]]は[[言語]]とは区別されるべきものです。

* 用語

[8] この概念を表す用語は >>4 の通りいろいろあり、それぞれのニュアンスは使う人や文脈によって微妙に異なっています。

[6] [[日本語]]の表記には[[平仮名]]、[[片仮名]]、[[漢字]]などの複数の[[文字集合]]を併用します。
[[書字体系]]や[[用字系]]といった用語はこのそれぞれの[[文字集合]]を指して、あるいは全体を指して使われますが、
どちらかというと[[書字体系]]の方が全体を指すニュアンスがあるかもしれません。

[7] [[書字体系]]というと単なる[[文字集合]]にとどまらず、
[[縦書き]]と[[横書き]]の違いであったり、[[句読点]]の用法であったりを含むニュアンスで用いられることもあります。
前者は[[書字方向]]、後者は[[正書法]]などと呼ばれます。

[9] [[書字体系]]という語はある[[言語]]の表記法というニュアンスが、
[[用字系]]という語は[[言語]]に関わらず一セットの[[文字]]の組というニュアンスがあるかもしれません。

[39] 
[[script]] を[[日本語]]では[[用字系]]、[[用字]]などと訳しますが、
[[訳語]]として十分に安定しているとは言えない処もあります。

[37] 
[CITE@en-us[UTS #18: Unicode Regular Expressions]], [TIME[2022-02-08T14:02:12.000Z]], [TIME[2022-11-13T11:26:28.212Z]] <https://unicode.org/reports/tr18/#Character_Blocks>

[38] >>37 ここでは writing system という語が使われています。
Latin、Greek、Korean、Chiense などが挙げられていて、
Korean に[[ハングル]]、[[漢字]]、記号類等が含まれていたり、
Chinese に[[漢字]]、[[注音符号]]等が含まれていたりします。
script より大きな括りのようですが、 writing system 
は例示だけで、網羅的なものではありません。

* 意味

** Unicode における用字系

[32] 
[[Unicode]]
では[[用字系]]は非常に重要な概念
(key organizational principle for the Unicode Standard [SRC[>>31]])
とされています。

[33] 
[DFN[[RUBYB[用字系][script]]]]は、
[[letter]] やその他の written sign の[RUBYB[[[集成]]][collection]]であって通常は次のような属性を有するものです。
[SRC[>>31]]

- [34] [RUBYB[筆記される要素][written elements]]は共通の[RUBYB[筆跡学的 ][graphological]]な様式と歴史を共有している
- [35] 集成は (その全部または一部により)
1つ以上の言語の writing system の textual 情報の表現のために使われる



[REFS[
- [31] [CITE@en-us[[[UAX #24]]: Unicode Script Property]], [TIME[2022-08-25T17:19:20.000Z]], [TIME[2022-11-12T07:49:04.202Z]] <https://www.unicode.org/reports/tr24/#Introduction>
]REFS]

** ISO における用字

[1] 
>
: 用字 (script):
一つ以上の[[言語]]の表記の方法で使用する[[図形文字]]の集合。
([[JIS X 0221]]‐1:2001 4.35)

[11] [[IETF]] も [[ISO/IEC 10646]] の定義を採用しています [SRC[>>10]]。

[2] 
> A script is a set of graphic characters used for the written form of
one or more languages.

;; [10] [CITE@en[RFC 3536 - Terminology Used in Internationalization in the IETF]] ([TIME[2011-01-29 02:14:52 +09:00]] 版) <http://tools.ietf.org/html/rfc3536#section-2>

;; [3] [CITE@en[RFC 4690 - Review and Recommendations for Internationalized Domain Names (IDNs)]]
<http://tools.ietf.org/html/rfc4690#section-1.5.2>

[12] [CITE@en[RFC 6365 - Terminology Used in Internationalization in the IETF]]
([TIME[2011-09-10 19:11:51 +09:00]] 版)
<http://tools.ietf.org/html/rfc6365#section-2>

[13] [CITE@en[RFC 6365 - Terminology Used in Internationalization in the IETF]]
([TIME[2011-09-10 19:11:51 +09:00]] 版)
<http://tools.ietf.org/html/rfc6365#page-6>

** OpenType における用字系

[29] [[用字系 (OpenType)]]

* 用字系と言語

[43] 
[[書字体系]]は一般には[[言語]]と混同されがちです。たとえば、
[[日本]]ではしばしば[[ラテン文字]]のことを指して
「[[英語]]」といいます。
しかしこれは正しくありません。

[44] 
[[ラテン文字]]は[[英語]]の表記に使える他、
[[フランス語]]や[[ドイツ語]]や[[ベトナム語]]の表記にも使えます。
[[日本語]]の表記にも使えます ([[日本語ローマ字]])。
このように[[言語]]と[[用字系]]は独立した、直交した概念だとするのが標準的な理解とされます。

[45] 
もちろん、理屈の上では任意の[[言語]]と任意の[[用字系]]を組み合わせられるという話と、
[[言語]]と[[用字系]]の相性の良し悪しや、
現実の表記に用いられるかどうかは、また別の問題になります。

[EG[

[46] 例えば[[英語]]を[[カタカナ]]で表記しても正しい[[発音]]を表せるのではなく不適切という意見があります。

]EG]

[EG[

[47] [[マケドニア語]]を[[漢字]]表記することは不可能ではないのでしょうが、
[[固有名詞]]を除けばほとんど例がないと思われます。

]EG]

[48] 
また、[[文字]]の性質上の理由や歴史的な理由などで、
[[用字系]]と[[言語]]に密接な関わりがあるケースもよくあります。

[EG[

[49] [[ハングル]]で表記されるのはほとんどの場合[[朝鮮語]]です。

]EG]

[EG[

[50] [[日本語]]の表記のすべてではないにせよ、大部分は[[仮名漢字混じり文]]です。

]EG]

[51] 同じとされる[[用字系]]であっても、表現される[[言語]]によって[[字母]]の違いなどがあったり、
常用される[[書風]]が違っていたりもします。
[[言語]]や[[文字]]は[[国家]]の[[言語政策]]の影響力が大きいので、
[[国]]の違いにも影響されます。

[EG[

[52] [[英語]]の[[ラテン文字]]はほとんど[[ダイアクリティカルマーク]]を使いませんが、
[[越南語]]の[[ラテン文字]]は[[ダイアクリティカルマーク]]を付けまくるので、
見た目の印象がかなり違います。

]EG]

[EG[

[53] [[日本]]と[[中華民国]]はどちらも[[漢字]]を使いますが、
[[日本語]]の[[新字体]]表記と[[台湾華語]]の[[国字標準字体]]表記では利用する[[字体]]の違いも多く、
標準的な[[書体]]の設計の違いも多いので、[[仮名]]の有無を抜きにしても、
見た目の印象は異なります。

]EG]

[EG[

[55] [[英語]]と[[トルコ語]]では [CH[i]] の[[大文字]]と[[小文字]]の扱いが違います。

]EG]

[56] 
[[国家]]の[[文字政策]]の結果、
[[時代]]によって同じ[[言語]]が異なる[[用字系]]で表記されることがしばしばあります。
[[文字改革]]が社会全体に浸透するまで数十年以上の時間を要するのが普通で、
百年後になっても古い[[文字]]がすべて消えてしまうわけではありませんから、
長期間にわたって新旧の[[文字]]表記が共存することになります。




[54] 
[[用字系]]を[[言語]]や[[国]]と混同してはいけませんが、まったく別のものと考えるのも誤りです。



* 用字系の区別

[30] 
[[用字系]]の区別は悩ましい問題で、怪しいケースがいろいろあります。

[SEE[ [[アルファベット]] ]]

[SEE[ [[蒙古文字]], [[満州文字]] ]]

[SEE[ [[漢字]], [[字体]], [[簡体字]] ]]

[SEE[ [[日本語用字系]], [[漢字ハングル混じり]] ]]

[36] 
[[Unicode]] は [[letter]] は他の[[用字系]]からの借用として同字形でも他の[[用字系]]に追加されがちで、
[[句読点]]等は共用とされる傾向にあると自認しています
[SRC[>>31 1.2]]。
実際は事情がかなり複雑で (各項参照)、混乱の温床となっている感があります。
時期によっても方針がぶれがちで、[[20世紀]]には[[句読点]]を強引に統合していたのに
[WEAK[(例えば東洋の「・・・」と[[欧米]]の「...」が[[文字化け]]する問題)]]、
[[21世紀]]になると[[欧米]]用と[[数学記号]]と[[東アジア]]用で謎に分離されていたり。

[41] 
[[アルファベット]]と[[インド系諸文字]]は細かく区別されているのに、
[[蒙古文字]]と[[満州文字]]と[[シベ文字]]と[[トド文字]]は雑に[[統合]]されてるとか。

[42] 
でも[[アルファベット]]でも通常[[ラテン文字]]と[[ドイツ文字]]と [[small capital]]
と[[イタリック]]と[[ローマ数字]]と [[IPA]] は[[統合]]されているのに[[数式]]用[[イタリック]]と[[数式]]用[[ドイツ文字]]とその他[[数式]]用[[アルファベット]]異体と[[CJK]]用[[ローマ数字]]と[[全角ラテン文字]]と [[IPA]] 用 [[small capital]] は分離されているというカオス。



* 用字系の識別

[14] 個々の[[用字系]]を[[識別]]する[DFN[用字系符号]]としては、
次の各種[[符号]]が定義されています。

[FIG(short list)[
- [15] [[用字系符号]]
- [[用字系部分タグ]]
- [16] [[Unicode用字系特性値]]
- [[用字系字句]]
- [[用字系タグ]]
- [CODE[ScriptLangTag]]
- [[用字系識別符号]]
- [[ISO/IEC 10179の用字系]]
]FIG]

[40] [[言語符号]], [[ロケール識別子]]も参照。


* 用字系の分類


[FIG(middle list)[ [27] [[用字系]]の分類

- [[表意文字]]
- [[表語文字]]
- [[表音文字]]
- [[音素文字]]
- [28] [[UAX #31]]
-- [RUBYB[[[推奨用字系]]]@en[Recommended Scripts]]
-- [DEL[[RUBYB[[[野心的利用用字系]]]@en[Aspirational Use Scripts]]]]
-- [RUBYB[[[限定利用用字系]]]@en[Limited Use Scripts]]
- [[complex script]]
- [[書字方向]]

]FIG]


[18] [[UAX #31]] では、現代における利用度によって[[用字系]]が3種類に分類されています。
[SRC[>>17]]

[REFS[
- [17] [CITE@en-us[UAX #31: Unicode Identifier and Pattern Syntax]] ([TIME[2013-09-30 19:53:19 +09:00]] 版) <https://www.unicode.org/reports/tr31/#Table_Recommended_Scripts>
]REFS]


* 色々な書字体系

[19] 
[FIG(short list)[
- [[漢字]]
- [[仮名]]
-- [[平仮名]]
-- [[片仮名]]
- [[日本語文字]]
-- [CODE[Hrkt]]
- [[アルファベット]]
-- [[ラテン文字]]
-- [[ギリシャ文字]]
-- [[キリル文字]]
- [[ブラーフミー系文字]]
- [[数字]]
- [[数学記号]]
- [[点字]]
- [[指文字]]
- [[絵文字]]
- [[注音字母]]
- [[ハングル]]
- [[地図記号]]
- [CODE[Zyyy]]
- [CODE[Zzzz]]
- [[人工文字]]
- [[架空文字]]
- [[バーコード]]
]FIG]

[23] 
[[Unicode]] は[[符号位置]]をいずれかの[[用字系]]に割り振っていますが、
複数の[[用字系]]で使われるものを [CODE[Zyyy]]、
いずれの[[用字系]]にも属さないものを [CODE[Zzzz]] としています。

[24] 
かつての [[Unicode]] は[[平仮名]]、[[片仮名]]、いくつかの[[仮名]]を
[CODE[Hrkt]] に属するとしていましたが、現在 [CODE[Hrkt]] 
は[[空集合]]となっています。
[[Unicode]] で使われる[[用字系]]の値で[[空集合]]となっているのは
[CODE[Hrkt]] のみです。


* 書字方向

[SEE[ [[書字方向]] ]]

* 関連

[SEE[ [[文字クラス]] ]]

* メモ

[FIG(quote)[
[FIGCAPTION[
[20] [CITE@en[RFC 5139 - Revised Civic Location Format for Presence Information Data Format Location Object (PIDF-LO)]]
([TIME[2018-02-11 18:30:45 +09:00]])
<https://tools.ietf.org/html/rfc5139#section-3.5>
]FIGCAPTION]

>   The "script" field defined in '''['''RFC4776''']''' is omitted in favor of using
>    the "xml:lang" attribute with a script subtag '''['''RFC4646''']'''.

]FIG]


[FIG(quote)[
[FIGCAPTION[
[21] [CITE@en[RFC 4676 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information]]
([TIME[2018-02-11 18:28:10 +09:00]])
<https://tools.ietf.org/html/rfc4676#section-3.4>
]FIGCAPTION]

>    Script:  The "script" item (CAtype 128) optionally identifies the
>       script used for presenting the address information, drawing from
>       the tags for identifying scripts described in '''['''12''']''' and elaborated
>       on in Section 2.2.3 of '''['''13''']'''.  If omitted, the default value for
>       this tag is "Latn".

]FIG]


[FIG(quote)[
[FIGCAPTION[
[22] [CITE@en[RFC 4776 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information]]
([TIME[2018-02-11 17:19:02 +09:00]])
<https://tools.ietf.org/html/rfc4776#page-11>
]FIGCAPTION]

>    Script:  The "script" item (CAtype 128) optionally identifies the
>       script used for presenting the address information, drawing from
>       the tags for identifying scripts described in '''['''12''']''' and elaborated
>       on in Section 2.2.3 of '''['''13''']'''.  If omitted, the default value for
>       this tag is "Latn".

]FIG]

[25] [CITE@en-us[UAX #44: Unicode Character Database]], [TIME[2020-03-06T22:23:11.000Z]], [TIME[2020-10-21T06:24:49.510Z]] <https://www.unicode.org/reports/tr44/#Default_Values_Table>


[26] [CITE[Alphabets and writing systems]]
([TIME[2020-12-21T03:59:34.000Z]])
<https://www.omniglot.com/writing/index.htm>