用字系

用字系、書字体系

[4] 自然言語表記に用いられる図形文字 (letter句読点など) の一式を書字体系文字体系書字用字系用字scriptwriting systemecriture などと呼びます。

[5] 書字体系は一般には言語と混同されがちです。たとえば、日本ではしばしばラテン文字のことを指して 「英語」といいます。しかしラテン文字を使って日本語を表記することもあり (ローマ字)、 厳密には書字体系言語とは区別されるべきものです。

用語

[8] この概念を表す用語は >>4 の通りいろいろあり、それぞれのニュアンスは使う人や文脈によって微妙に異なっています。

[6] 日本語の表記には平仮名片仮名漢字などの複数の文字集合を併用します。 書字体系用字系といった用語はこのそれぞれの文字集合を指して、あるいは全体を指して使われますが、 どちらかというと書字体系の方が全体を指すニュアンスがあるかもしれません。

[7] 書字体系というと単なる文字集合にとどまらず、 縦書き横書きの違いであったり、句読点の用法であったりを含むニュアンスで用いられることもあります。 前者は書字方向、後者は正書法などと呼ばれます。

[9] 書字体系という語はある言語の表記法というニュアンスが、 用字系という語は言語に関わらず一セットの文字の組というニュアンスがあるかもしれません。

[39] script日本語では用字系用字などと訳しますが、 訳語として十分に安定しているとは言えない処もあります。

[37] UTS #18: Unicode Regular Expressions, , https://unicode.org/reports/tr18/#Character_Blocks

[38] >>37 ここでは writing system という語が使われています。 Latin、Greek、Korean、Chiense などが挙げられていて、 Korean にハングル漢字、記号類等が含まれていたり、 Chinese に漢字注音符号等が含まれていたりします。 script より大きな括りのようですが、 writing system は例示だけで、網羅的なものではありません。

意味

Unicode における用字系

[32] Unicode では用字系は非常に重要な概念 (key organizational principle for the Unicode Standard >>31) とされています。

[33] 用字系 (script) は、 letter やその他の written sign の集成 (collection) であって通常は次のような属性を有するものです。 >>31

  • [34] 筆記される要素 (written elements) は共通の筆跡学的 (graphological) な様式と歴史を共有している
  • [35] 集成は (その全部または一部により) 1つ以上の言語の writing system の textual 情報の表現のために使われる

ISO における用字

[1]

用字 (script)
一つ以上の言語の表記の方法で使用する図形文字の集合。 (JIS X 0221‐1:2001 4.35)

[11] IETFISO/IEC 10646 の定義を採用しています >>10

[2]

A script is a set of graphic characters used for the written form of one or more languages.

[12] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#section-2

[13] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#page-6

OpenType における用字系

[29] 用字系 (OpenType)

用字系の識別

[14] 個々の用字系識別する用字系符号としては、 次の各種符号が定義されています。

[40] 言語符号, ロケール識別子も参照。

用字系の分類

[27] 用字系の分類

[18] UAX #31 では、現代における利用度によって用字系が3種類に分類されています。 >>17

色々な書字体系

[19]

[23] Unicode符号位置をいずれかの用字系に割り振っていますが、 複数の用字系で使われるものを Zyyy、 いずれの用字系にも属さないものを Zzzz としています。

[24] かつての Unicode平仮名片仮名、いくつかの仮名Hrkt に属するとしていましたが、現在 Hrkt空集合となっています。 Unicode で使われる用字系の値で空集合となっているのは Hrkt のみです。

用字系の区別

[30] 用字系の区別は悩ましい問題で、怪しいケースがいろいろあります。

アルファベット

蒙古文字, 満州文字

漢字, 字体, 簡体字

日本語用字系, 漢字ハングル混じり

[36] Unicodeletter は他の用字系からの借用として同字形でも他の用字系に追加されがちで、 句読点等は共用とされる傾向にあると自認しています >>31 1.2。 実際は事情がかなり複雑で (各項参照)、混乱の温床となっている感があります。 時期によっても方針がぶれがちで、20世紀には句読点を強引に統合していたのに (例えば東洋の「・・・」と欧米の「...」が文字化けする問題)21世紀になると欧米用と数学記号東アジア用で謎に分離されていたり。

[41] アルファベットインド系諸文字は細かく区別されているのに、 蒙古文字満州文字シベ文字トド文字は雑に統合されてるとか。

[42] でもアルファベットでも通常ラテン文字ドイツ文字small capitalイタリックローマ数字IPA統合されているのに数式イタリック数式ドイツ文字とその他数式アルファベット異体とCJKローマ数字全角ラテン文字IPAsmall capital は分離されているというカオス。

書字方向

書字方向

関連

文字クラス

メモ

[20] RFC 5139 - Revised Civic Location Format for Presence Information Data Format Location Object (PIDF-LO) () https://tools.ietf.org/html/rfc5139#section-3.5

The "script" field defined in [RFC4776] is omitted in favor of using

the "xml:lang" attribute with a script subtag [RFC4646].

[21] RFC 4676 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information () https://tools.ietf.org/html/rfc4676#section-3.4

Script: The "script" item (CAtype 128) optionally identifies the

script used for presenting the address information, drawing from

the tags for identifying scripts described in [12] and elaborated

on in Section 2.2.3 of [13]. If omitted, the default value for

this tag is "Latn".

[22] RFC 4776 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information () https://tools.ietf.org/html/rfc4776#page-11

Script: The "script" item (CAtype 128) optionally identifies the

script used for presenting the address information, drawing from

the tags for identifying scripts described in [12] and elaborated

on in Section 2.2.3 of [13]. If omitted, the default value for

this tag is "Latn".

[25] UAX #44: Unicode Character Database, , https://www.unicode.org/reports/tr44/#Default_Values_Table

[26] Alphabets and writing systems () https://www.omniglot.com/writing/index.htm