用字系、書字体系

[4] 自然言語の表記に用いられる図形文字 (letter、句読点など) の一式を書字体系、文字体系、書字、用字系、用字、script、writing system、 ecriture などと呼びます。

[5] 書字体系は一般には言語と混同されがちです。たとえば、日本ではしばしばラテン文字のことを指して「英語」といいます。しかしラテン文字を使って日本語を表記することもあり (ローマ字)、厳密には書字体系は言語とは区別されるべきものです。

用語

[8] この概念を表す用語は >>4 の通りいろいろあり、それぞれのニュアンスは使う人や文脈によって微妙に異なっています。

[6] 日本語の表記には平仮名、片仮名、漢字などの複数の文字集合を併用します。書字体系や用字系といった用語はこのそれぞれの文字集合を指して、あるいは全体を指して使われますが、どちらかというと書字体系の方が全体を指すニュアンスがあるかもしれません。

[7] 書字体系というと単なる文字集合にとどまらず、縦書きと横書きの違いであったり、句読点の用法であったりを含むニュアンスで用いられることもあります。前者は書字方向、後者は正書法などと呼ばれます。

[9] 書字体系という語はある言語の表記法というニュアンスが、用字系という語は言語に関わらず一セットの文字の組というニュアンスがあるかもしれません。

[39] script を日本語では用字系、用字などと訳しますが、訳語として十分に安定しているとは言えない処もあります。

[37] UTS #18: Unicode Regular Expressions, 2022-02-08T14:02:12.000Z, 2022-11-13T11:26:28.212Z https://unicode.org/reports/tr18/#Character_Blocks

[38] >>37 ここでは writing system という語が使われています。 Latin、Greek、Korean、Chiense などが挙げられていて、 Korean にハングル、漢字、記号類等が含まれていたり、 Chinese に漢字、注音符号等が含まれていたりします。 script より大きな括りのようですが、 writing system は例示だけで、網羅的なものではありません。

意味

Unicode における用字系

[32] Unicode では用字系は非常に重要な概念 (key organizational principle for the Unicode Standard >>31) とされています。

[33] 用字系 (script) は、 letter やその他の written sign の集成 (collection) であって通常は次のような属性を有するものです。 >>31

[34] 筆記される要素 (written elements) は共通の筆跡学的 (graphological) な様式と歴史を共有している
[35] 集成は (その全部または一部により) 1つ以上の言語の writing system の textual 情報の表現のために使われる

[31] UAX #24: Unicode Script Property, 2022-08-25T17:19:20.000Z, 2022-11-12T07:49:04.202Z https://www.unicode.org/reports/tr24/#Introduction

ISO における用字

[1]

用字 (script)
一つ以上の言語の表記の方法で使用する図形文字の集合。 (JIS X 0221‐1:2001 4.35)

[11] IETF も ISO/IEC 10646 の定義を採用しています >>10。

[2]

A script is a set of graphic characters used for the written form of one or more languages.

[10] RFC 3536 - Terminology Used in Internationalization in the IETF (2011-01-29 02:14:52 +09:00 版) http://tools.ietf.org/html/rfc3536#section-2

[3] RFC 4690 - Review and Recommendations for Internationalized Domain Names (IDNs) http://tools.ietf.org/html/rfc4690#section-1.5.2

[12] RFC 6365 - Terminology Used in Internationalization in the IETF (2011-09-10 19:11:51 +09:00 版) http://tools.ietf.org/html/rfc6365#section-2

[13] RFC 6365 - Terminology Used in Internationalization in the IETF (2011-09-10 19:11:51 +09:00 版) http://tools.ietf.org/html/rfc6365#page-6

OpenType における用字系

[29] 用字系 (OpenType)

用字系と言語

[43] 書字体系は一般には言語と混同されがちです。たとえば、日本ではしばしばラテン文字のことを指して「英語」といいます。しかしこれは正しくありません。

[44] ラテン文字は英語の表記に使える他、フランス語やドイツ語やベトナム語の表記にも使えます。日本語の表記にも使えます (日本語ローマ字)。このように言語と用字系は独立した、直交した概念だとするのが標準的な理解とされます。

[45] もちろん、理屈の上では任意の言語と任意の用字系を組み合わせられるという話と、言語と用字系の相性の良し悪しや、現実の表記に用いられるかどうかは、また別の問題になります。

[46] 例えば英語をカタカナで表記しても正しい発音を表せるのではなく不適切という意見があります。

[47] マケドニア語を漢字表記することは不可能ではないのでしょうが、固有名詞を除けばほとんど例がないと思われます。

[48] また、文字の性質上の理由や歴史的な理由などで、用字系と言語に密接な関わりがあるケースもよくあります。

[49] ハングルで表記されるのはほとんどの場合朝鮮語です。

[50] 日本語の表記のすべてではないにせよ、大部分は仮名漢字混じり文です。

[51] 同じとされる用字系であっても、表現される言語によって字母の違いなどがあったり、常用される書風が違っていたりもします。言語や文字は国家の言語政策の影響力が大きいので、国の違いにも影響されます。

[52] 英語のラテン文字はほとんどダイアクリティカルマークを使いませんが、越南語のラテン文字はダイアクリティカルマークを付けまくるので、見た目の印象がかなり違います。

[53] 日本と中華民国はどちらも漢字を使いますが、日本語の新字体表記と台湾華語の国字標準字体表記では利用する字体の違いも多く、標準的な書体の設計の違いも多いので、仮名の有無を抜きにしても、見た目の印象は異なります。

[55] 英語とトルコ語では i の大文字と小文字の扱いが違います。

[56] 国家の文字政策の結果、時代によって同じ言語が異なる用字系で表記されることがしばしばあります。文字改革が社会全体に浸透するまで数十年以上の時間を要するのが普通で、百年後になっても古い文字がすべて消えてしまうわけではありませんから、長期間にわたって新旧の文字表記が共存することになります。

[54] 用字系を言語や国と混同してはいけませんが、まったく別のものと考えるのも誤りです。

用字系の区別

[30] 用字系の区別は悩ましい問題で、怪しいケースがいろいろあります。

[36] Unicode は letter は他の用字系からの借用として同字形でも他の用字系に追加されがちで、句読点等は共用とされる傾向にあると自認しています >>31 1.2。実際は事情がかなり複雑で (各項参照)、混乱の温床となっている感があります。時期によっても方針がぶれがちで、20世紀には句読点を強引に統合していたのに (例えば東洋の「・・・」と欧米の「...」が文字化けする問題)、 21世紀になると欧米用と数学記号と東アジア用で謎に分離されていたり。

[41] アルファベットとインド系諸文字は細かく区別されているのに、蒙古文字と満州文字とシベ文字とトド文字は雑に統合されてるとか。

[42] でもアルファベットでも通常ラテン文字とドイツ文字と small capital とイタリックとローマ数字と IPA は統合されているのに数式用イタリックと数式用ドイツ文字とその他数式用アルファベット異体とCJK用ローマ数字と全角ラテン文字と IPA 用 small capital は分離されているというカオス。

用字系の識別

[14] 個々の用字系を識別する用字系符号としては、次の各種符号が定義されています。

[40] 言語符号, ロケール識別子も参照。

用字系の分類

[27] 用字系の分類

表意文字
表語文字
表音文字
音素文字
[28] UAX #31
- 推奨用字系 (Recommended Scripts)
- ~~野心的利用用字系 (Aspirational Use Scripts)~~
- 限定利用用字系 (Limited Use Scripts)
complex script
書字方向

[18] UAX #31 では、現代における利用度によって用字系が3種類に分類されています。 >>17

[17] UAX #31: Unicode Identifier and Pattern Syntax (2013-09-30 19:53:19 +09:00 版) https://www.unicode.org/reports/tr31/#Table_Recommended_Scripts

色々な書字体系

[19]

[23] Unicode は符号位置をいずれかの用字系に割り振っていますが、複数の用字系で使われるものを Zyyy、いずれの用字系にも属さないものを Zzzz としています。

[24] かつての Unicode は平仮名、片仮名、いくつかの仮名を Hrkt に属するとしていましたが、現在 Hrkt は空集合となっています。 Unicode で使われる用字系の値で空集合となっているのは Hrkt のみです。

書字方向

メモ

[20] RFC 5139 - Revised Civic Location Format for Presence Information Data Format Location Object (PIDF-LO) (2018-02-11 18:30:45 +09:00) https://tools.ietf.org/html/rfc5139#section-3.5

The "script" field defined in [RFC4776] is omitted in favor of using
the "xml:lang" attribute with a script subtag [RFC4646].

[21] RFC 4676 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information (2018-02-11 18:28:10 +09:00) https://tools.ietf.org/html/rfc4676#section-3.4

Script: The "script" item (CAtype 128) optionally identifies the
script used for presenting the address information, drawing from
the tags for identifying scripts described in [12] and elaborated
on in Section 2.2.3 of [13]. If omitted, the default value for
this tag is "Latn".

[22] RFC 4776 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information (2018-02-11 17:19:02 +09:00) https://tools.ietf.org/html/rfc4776#page-11