* 仕様書

[REFS[
- [1] [CITE[The Unicode Standard, Version 13.0 - ch03.pdf]], [TIME[2020-03-09T17:53:34.000Z]], [TIME[2020-12-20T02:08:18.239Z]] <https://www.unicode.org/versions/latest/ch03.pdf#G2212>
]REFS]

* 抽象文字

[2] 
[DFN[[RUBYB[抽象文字][abstract character]]]]は、
[RUBYB[テキスト的データ][textual data]]の[RUBYB[組織][organization]]、
[RUBYB[制御][control]]、
[RUBYB[表現][representation]]に使う情報の単位です。
[SRC[>>1 D7]]

[3] 
データを表現する際、
そのデータの性質は、
一般に[RUBYB[記号的][symbolic]]であり、
その他の種類のデータ (例えば[RUBYB[音声的][aural]]なものや[RUBYB[視覚的][visual]]なもの)
ではありません。
そうした記号的なデータは、例えば [[letter]]、[[ideograph]]、
[[数字]]、
[[句読点]]、
[[技術的記号]]、
[[dingbat]]
のようなものです。
[SRC[>>1 D7]]

[4] 
[[抽象文字]]には、
[RUBYB[具象形][concrete form]]はありません。
[[グリフ]]と混同する[RUBYB[べきではありません][should not]]。
[SRC[>>1 D7]]

[5] 
[[抽象文字]]は、
必ずしも[[利用者]]が
「[[文字]]」
と考えるものと対応しません。
[[書記素]]と混同する[RUBYB[べきではありません][should not]]。
[SRC[>>1 D7]]

* Unicode 抽象文字

[6] 
[CITE[The Unicode Standard]]
に[[符号化]]された[[抽象文字]]を、
[DFN[Unicode[RUBYB[抽象文字][abstract character]]]]といいます。
[SRC[>>1 D7]]

[7] 
[CITE[The Unicode Standard]]
で直接[[符号化]]されていない[[抽象文字]]であっても、
[[結合文字列]]を使って表現できることがあります。
[SRC[>>1 D7]]

[12] [[抽象文字]]に[[符号点]]を関連付けたものを[[符号化済文字]]といいます。

[13] 1つの[[抽象文字]]が、複数種類の[[符号点]]または[[符号点]]の列で表現し得ることがあります。
[SEE[ [[重複符号化]] ]]

[15] 
[[サロゲート符号点]]と[[非文字]]は、[[未割当済符号点]]ではなく[[割当済符号点]]ですが、
[[抽象文字]]は割当済ではなく、
[[抽象文字]]と解釈してはならないとされています。

* 抽象文字列

[10] 
[DFN[[RUBYB[抽象文字列][abstract character sequence]]]]は、
1つ[[以上]]の[[抽象文字]]の[[順序付き列]]です。
[SRC[>>1 D8]]

[FIG(railroad)[ [11] [[抽象文字列]]
= +
== [[抽象文字]]
]FIG]

[14] [[符号化済文字列]]、[[Unicode文字列]]とは構成要素が違います。
[[抽象文字]]は、それ自体は直接
[[Unicode]]
で記述できません。

* 関連

[8] 
[[抽象文字]]に近い概念は他の[[文字コード]]規格も定めていたことがありますが、
必ずしも
[CITE[The Unicode Standard]]
の定義と等しくありません。

[9] 
[CITE[The Unicode Standard]]
自身が言及している通り、
一般的な意味の「[[文字]]」とは必ずしも等しくありません
(むしろ等しくないこともかなり多い)。
[[文字]]の研究者が言う「[[文字]]」の意味とも必ずしも近くありません。

* メモ