文字体系

用字系、書字体系

[4] 自然言語表記に用いられる図形文字 (letter句読点など) の一式を書字体系文字体系書字用字系用字scriptwriting systemecriture などと呼びます。

[5] 書字体系は一般には言語と混同されがちです。たとえば、日本ではしばしばラテン文字のことを指して 「英語」といいます。しかしラテン文字を使って日本語を表記することもあり (ローマ字)、 厳密には書字体系言語とは区別されるべきものです。

用語

[8] この概念を表す用語は >>4 の通りいろいろあり、それぞれのニュアンスは使う人や文脈によって微妙に異なっています。

[6] 日本語の表記には平仮名片仮名漢字などの複数の文字集合を併用します。 書字体系用字系といった用語はこのそれぞれの文字集合を指して、あるいは全体を指して使われますが、 どちらかというと書字体系の方が全体を指すニュアンスがあるかもしれません。

[7] 書字体系というと単なる文字集合にとどまらず、 縦書き横書きの違いであったり、句読点の用法であったりを含むニュアンスで用いられることもあります。 前者は書字方向、後者は正書法などと呼ばれます。

[9] 書字体系という語はある言語の表記法というニュアンスが、 用字系という語は言語に関わらず一セットの文字の組というニュアンスがあるかもしれません。

[39] script日本語では用字系用字などと訳しますが、 訳語として十分に安定しているとは言えない処もあります。

[37] UTS #18: Unicode Regular Expressions, , https://unicode.org/reports/tr18/#Character_Blocks

[38] >>37 ここでは writing system という語が使われています。 Latin、Greek、Korean、Chiense などが挙げられていて、 Korean にハングル漢字、記号類等が含まれていたり、 Chinese に漢字注音符号等が含まれていたりします。 script より大きな括りのようですが、 writing system は例示だけで、網羅的なものではありません。

意味

Unicode における用字系

[32] Unicode では用字系は非常に重要な概念 (key organizational principle for the Unicode Standard >>31) とされています。

[33] 用字系 (script) は、 letter やその他の written sign の集成 (collection) であって通常は次のような属性を有するものです。 >>31

  • [34] 筆記される要素 (written elements) は共通の筆跡学的 (graphological) な様式と歴史を共有している
  • [35] 集成は (その全部または一部により) 1つ以上の言語の writing system の textual 情報の表現のために使われる

ISO における用字

[1]

用字 (script)
一つ以上の言語の表記の方法で使用する図形文字の集合。 (JIS X 0221‐1:2001 4.35)

[11] IETFISO/IEC 10646 の定義を採用しています >>10

[2]

A script is a set of graphic characters used for the written form of one or more languages.

[12] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#section-2

[13] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#page-6

OpenType における用字系

[29] 用字系 (OpenType)

用字系と言語

[43] 書字体系は一般には言語と混同されがちです。たとえば、 日本ではしばしばラテン文字のことを指して 「英語」といいます。 しかしこれは正しくありません。

[44] ラテン文字英語の表記に使える他、 フランス語ドイツ語ベトナム語の表記にも使えます。 日本語の表記にも使えます (日本語ローマ字)。 このように言語用字系は独立した、直交した概念だとするのが標準的な理解とされます。

[45] もちろん、理屈の上では任意の言語と任意の用字系を組み合わせられるという話と、 言語用字系の相性の良し悪しや、 現実の表記に用いられるかどうかは、また別の問題になります。

[46] 例えば英語カタカナで表記しても正しい発音を表せるのではなく不適切という意見があります。

[47] マケドニア語漢字表記することは不可能ではないのでしょうが、 固有名詞を除けばほとんど例がないと思われます。

[48] また、文字の性質上の理由や歴史的な理由などで、 用字系言語に密接な関わりがあるケースもよくあります。

[49] ハングルで表記されるのはほとんどの場合朝鮮語です。

[50] 日本語の表記のすべてではないにせよ、大部分は仮名漢字混じり文です。

[51] 同じとされる用字系であっても、表現される言語によって字母の違いなどがあったり、 常用される書風が違っていたりもします。 言語文字国家言語政策の影響力が大きいので、 の違いにも影響されます。

[52] 英語ラテン文字はほとんどダイアクリティカルマークを使いませんが、 越南語ラテン文字ダイアクリティカルマークを付けまくるので、 見た目の印象がかなり違います。

[53] 日本中華民国はどちらも漢字を使いますが、 日本語新字体表記と台湾華語国字標準字体表記では利用する字体の違いも多く、 標準的な書体の設計の違いも多いので、仮名の有無を抜きにしても、 見た目の印象は異なります。

[55] 英語トルコ語では i大文字小文字の扱いが違います。

[56] 国家文字政策の結果、 時代によって同じ言語が異なる用字系で表記されることがしばしばあります。 文字改革が社会全体に浸透するまで数十年以上の時間を要するのが普通で、 百年後になっても古い文字がすべて消えてしまうわけではありませんから、 長期間にわたって新旧の文字表記が共存することになります。

[54] 用字系言語と混同してはいけませんが、まったく別のものと考えるのも誤りです。

用字系の区別

[30] 用字系の区別は悩ましい問題で、怪しいケースがいろいろあります。

アルファベット

蒙古文字, 満州文字

漢字, 字体, 簡体字

日本語用字系, 漢字ハングル混じり

[36] Unicodeletter は他の用字系からの借用として同字形でも他の用字系に追加されがちで、 句読点等は共用とされる傾向にあると自認しています >>31 1.2。 実際は事情がかなり複雑で (各項参照)、混乱の温床となっている感があります。 時期によっても方針がぶれがちで、20世紀には句読点を強引に統合していたのに (例えば東洋の「・・・」と欧米の「...」が文字化けする問題)21世紀になると欧米用と数学記号東アジア用で謎に分離されていたり。

[41] アルファベットインド系諸文字は細かく区別されているのに、 蒙古文字満州文字シベ文字トド文字は雑に統合されてるとか。

[42] でもアルファベットでも通常ラテン文字ドイツ文字small capitalイタリックローマ数字IPA統合されているのに数式イタリック数式ドイツ文字とその他数式アルファベット異体とCJKローマ数字全角ラテン文字IPAsmall capital は分離されているというカオス。

用字系の識別

[14] 個々の用字系識別する用字系符号としては、 次の各種符号が定義されています。

[40] 言語符号, ロケール識別子も参照。

用字系の分類

[27] 用字系の分類

[18] UAX #31 では、現代における利用度によって用字系が3種類に分類されています。 >>17

色々な書字体系

[19]

[23] Unicode符号位置をいずれかの用字系に割り振っていますが、 複数の用字系で使われるものを Zyyy、 いずれの用字系にも属さないものを Zzzz としています。

[24] かつての Unicode平仮名片仮名、いくつかの仮名Hrkt に属するとしていましたが、現在 Hrkt空集合となっています。 Unicode で使われる用字系の値で空集合となっているのは Hrkt のみです。

書字方向

書字方向

関連

文字クラス

メモ

[20] RFC 5139 - Revised Civic Location Format for Presence Information Data Format Location Object (PIDF-LO) () https://tools.ietf.org/html/rfc5139#section-3.5

The "script" field defined in [RFC4776] is omitted in favor of using

the "xml:lang" attribute with a script subtag [RFC4646].

[21] RFC 4676 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information () https://tools.ietf.org/html/rfc4676#section-3.4

Script: The "script" item (CAtype 128) optionally identifies the

script used for presenting the address information, drawing from

the tags for identifying scripts described in [12] and elaborated

on in Section 2.2.3 of [13]. If omitted, the default value for

this tag is "Latn".

[22] RFC 4776 - Dynamic Host Configuration Protocol (DHCPv4 and DHCPv6) Option for Civic Addresses Configuration Information () https://tools.ietf.org/html/rfc4776#page-11

Script: The "script" item (CAtype 128) optionally identifies the

script used for presenting the address information, drawing from

the tags for identifying scripts described in [12] and elaborated

on in Section 2.2.3 of [13]. If omitted, the default value for

this tag is "Latn".

[25] UAX #44: Unicode Character Database, , https://www.unicode.org/reports/tr44/#Default_Values_Table

[26] Alphabets and writing systems () https://www.omniglot.com/writing/index.htm