[4] 自然言語の表記に用いられる図形文字 (letter、句読点など) の一式を書字体系、文字体系、書字、用字系、用字、script、writing system、 ecriture などと呼びます。
[5] 書字体系は一般には言語と混同されがちです。たとえば、日本ではしばしばラテン文字のことを指して 「英語」といいます。しかしラテン文字を使って日本語を表記することもあり (ローマ字)、 厳密には書字体系は言語とは区別されるべきものです。
[8] この概念を表す用語は >>4 の通りいろいろあり、それぞれのニュアンスは使う人や文脈によって微妙に異なっています。
[6] 日本語の表記には平仮名、片仮名、漢字などの複数の文字集合を併用します。 書字体系や用字系といった用語はこのそれぞれの文字集合を指して、あるいは全体を指して使われますが、 どちらかというと書字体系の方が全体を指すニュアンスがあるかもしれません。
[7] 書字体系というと単なる文字集合にとどまらず、 縦書きと横書きの違いであったり、句読点の用法であったりを含むニュアンスで用いられることもあります。 前者は書字方向、後者は正書法などと呼ばれます。
[9] 書字体系という語はある言語の表記法というニュアンスが、 用字系という語は言語に関わらず一セットの文字の組というニュアンスがあるかもしれません。
[39] script を日本語では用字系、用字などと訳しますが、 訳語として十分に安定しているとは言えない処もあります。
[37] UTS #18: Unicode Regular Expressions, , https://unicode.org/reports/tr18/#Character_Blocks
[38] >>37 ここでは writing system という語が使われています。 Latin、Greek、Korean、Chiense などが挙げられていて、 Korean にハングル、漢字、記号類等が含まれていたり、 Chinese に漢字、注音符号等が含まれていたりします。 script より大きな括りのようですが、 writing system は例示だけで、網羅的なものではありません。
[32] Unicode では用字系は非常に重要な概念 (key organizational principle for the Unicode Standard >>31) とされています。
[33] 用字系は、 letter やその他の written sign の集成であって通常は次のような属性を有するものです。 >>31
- 用字 (script)
- 一つ以上の言語の表記の方法で使用する図形文字の集合。 (JIS X 0221‐1:2001 4.35)
[11] IETF も ISO/IEC 10646 の定義を採用しています >>10。
A script is a set of graphic characters used for the written form of one or more languages.
[12] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#section-2
[13] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) http://tools.ietf.org/html/rfc6365#page-6
[43] 書字体系は一般には言語と混同されがちです。たとえば、 日本ではしばしばラテン文字のことを指して 「英語」といいます。 しかしこれは正しくありません。
[44] ラテン文字は英語の表記に使える他、 フランス語やドイツ語やベトナム語の表記にも使えます。 日本語の表記にも使えます (日本語ローマ字)。 このように言語と用字系は独立した、直交した概念だとするのが標準的な理解とされます。
[45] もちろん、理屈の上では任意の言語と任意の用字系を組み合わせられるという話と、 言語と用字系の相性の良し悪しや、 現実の表記に用いられるかどうかは、また別の問題になります。
[48] また、文字の性質上の理由や歴史的な理由などで、 用字系と言語に密接な関わりがあるケースもよくあります。
[51] 同じとされる用字系であっても、表現される言語によって字母の違いなどがあったり、 常用される書風が違っていたりもします。 言語や文字は国家の言語政策の影響力が大きいので、 国の違いにも影響されます。
[52] 英語のラテン文字はほとんどダイアクリティカルマークを使いませんが、 越南語のラテン文字はダイアクリティカルマークを付けまくるので、 見た目の印象がかなり違います。
[53] 日本と中華民国はどちらも漢字を使いますが、 日本語の新字体表記と台湾華語の国字標準字体表記では利用する字体の違いも多く、 標準的な書体の設計の違いも多いので、仮名の有無を抜きにしても、 見た目の印象は異なります。
[56] 国家の文字政策の結果、 時代によって同じ言語が異なる用字系で表記されることがしばしばあります。 文字改革が社会全体に浸透するまで数十年以上の時間を要するのが普通で、 百年後になっても古い文字がすべて消えてしまうわけではありませんから、 長期間にわたって新旧の文字表記が共存することになります。
[30] 用字系の区別は悩ましい問題で、怪しいケースがいろいろあります。
[36] Unicode は letter は他の用字系からの借用として同字形でも他の用字系に追加されがちで、 句読点等は共用とされる傾向にあると自認しています >>31 1.2。 実際は事情がかなり複雑で (各項参照)、混乱の温床となっている感があります。 時期によっても方針がぶれがちで、20世紀には句読点を強引に統合していたのに (例えば東洋の「・・・」と欧米の「...」が文字化けする問題)、 21世紀になると欧米用と数学記号と東アジア用で謎に分離されていたり。
[41] アルファベットとインド系諸文字は細かく区別されているのに、 蒙古文字と満州文字とシベ文字とトド文字は雑に統合されてるとか。
[42] でもアルファベットでも通常ラテン文字とドイツ文字と small capital とイタリックとローマ数字と IPA は統合されているのに数式用イタリックと数式用ドイツ文字とその他数式用アルファベット異体とCJK用ローマ数字と全角ラテン文字と IPA 用 small capital は分離されているというカオス。
[23]
Unicode は符号位置をいずれかの用字系に割り振っていますが、
複数の用字系で使われるものを Zyyy
、
いずれの用字系にも属さないものを Zzzz
としています。
[24]
かつての Unicode は平仮名、片仮名、いくつかの仮名を
Hrkt
に属するとしていましたが、現在 Hrkt
は空集合となっています。
Unicode で使われる用字系の値で空集合となっているのは
Hrkt
のみです。
[25] UAX #44: Unicode Character Database, , https://www.unicode.org/reports/tr44/#Default_Values_Table
[26] Alphabets and writing systems () https://www.omniglot.com/writing/index.htm