符号点

符号位置 (Unicode)

仕様書

符号位置

[36] 符号点 (ふごうてん) (code point) (コードポイント), 符号位置 (ふごういち) (code position) は、 符号空間中の整数 >>44Unicode の場合は Unicode符号空間上の任意の値です >>35 D10。 すなわち範囲 [ 0, 0x10FFFF ] の整数です。

[37] The Unicode Standard は 「code point」 を規定し、 「code position」 は別名としています。 >>35 D10

[41] 符号点抽象文字に関連付けたものを符号化済文字といいます。

[42] 符号点の列を符号化済文字列といいます。 The Unicode Standard文字とは符号化済文字 (≠ 符号点)、 文字列とは符号化済文字列 = 符号点の列としていて、 意味がねじれています。

[43] Unicode符号点からサロゲート符号点を除外したものが、 Unicodeスカラー値です。

古い HTML 仕様における定義

[11] 古い HTML 仕様は独自に「符号位置」という語を定義していました。現在の HTML 仕様 (HTMLWeb Applications 1.0) は独自の定義を含んでいません。

[2]

符号位置 (code position)
符号化文字集合変域中の整数。 符号化文字集合は符号位置を文字に写像する。

IDN2003 における定義

[1]

符号位置 (ふごういち) (code point) は、 符号化文字集合中の文字に関連付けられた整数値です。

IDN2008 における定義

[9]

符号位置 (code point) は、符号化文字集合符号空間 (codespace) 中の整数値です。

XDM における定義

[12]

This document uses the term "code point", sometimes spelt "codepoint" (also known as "character number" or "code position") to mean a non-negative integer that represents a character in some encoding.

[5] XQuery 1.0 and XPath 2.0 Functions and Operators (Second Edition) http://www.w3.org/TR/2010/REC-xpath-functions-20101214/#string-types

表記法

[17] Unicode / UCS符号位置は、 U+U- によって符号位置を表します。

[45] U+符号点の表記と文字の名前を並べて、 「U+0061 LATIN SMALL LETTER A」 のようにも表記します。 >>44

[19] 7ビット符号8ビット符号ビット組合せは、 / によって4ビットずつの十進数を組み合わせて表記して表します。

[18] JIS X 0218短縮識別名称を規定していました。

[4] エスケープも参照。

符号点型

[38] 符号点型 (ふごうてんがた) (code point type) (基本型 (きほんがた) (basic type) >>46) は、 符号点の7つの基礎的なクラスのいずれかです。 >>35 D10a

[39] 符号点型
t
符号点型 (基本型)
gc
General Category
ac
抽象文字割当
cp
符号点割当状態
t
図形
gc
L, M, N, P, S, Zs
ac
割当済
cp
割当済
t
書式
gc
Cf, Zl, Zp
ac
割当済
cp
割当済
t
制御
gc
Cc
ac
割当済
cp
割当済
t
私用
gc
Co
ac
割当済
cp
割当済
t
サロゲート
gc
Cs
ac
割当不可
cp
割当済
t
非文字
gc
Cn
ac
未割当済
cp
割当済
t
予約済
gc
Cn
ac
未割当済
cp
未割当済

[40] すべての符号点は、いずれか1つの符号点型に属します。

関連

[3]文字」、「符号位置」 (「code point」、「code position」)、「符号単位」 などはしばしば混用されます。

[13] Unicodeスカラー値Unicode における符号位置を表す語です。

[14] XPath and XQuery Functions and Operators 3.0 ( ( 版)) http://www.w3.org/TR/xpath-functions-3/#codepoint

[15] Character Model for the World Wide Web 1.0: Fundamentals ( ( 版)) http://www.w3.org/TR/charmod/#def-CCS

[16] RFC 6797 - HTTP Strict Transport Security (HSTS) ( 版) http://tools.ietf.org/html/rfc6797#section-4

codepoint
is a colloquial contraction of Code Point, which is any value in the Unicode codespace; that is, the range of integers from 0 to 10FFFF(hex) [Unicode].
[20] perldelta - search.cpan.org ( ()) http://search.cpan.org/~rjbs/perl-5.24.0/pod/perldelta.pod

Using code points above the platform's IV_MAX is now deprecated

Unicode defines code points in the range 0..0x10FFFF. Some standards at one time defined them up to 2**31 - 1, but Perl has allowed them to be as high as anything that will fit in a word on the platform being used. However, use of those above the platform's IV_MAX is broken in some constructs, notably tr///, regular expression patterns involving quantifiers, and in some arithmetic and comparison operations, such as being the upper limit of a loop. Now the use of such code points raises a deprecation warning, unless that warning category is turned off. IV_MAX is typically 2**31 -1 on 32-bit platforms, and 2**63-1 on 64-bit ones.

[21] Editorial: start using the Infra Standard (annevk著, ) https://github.com/whatwg/encoding/commit/a26f76889bf393999e9caad84a3647ab09c39e09

[22] Change Unicode \u -> U+ (Fix #127) (garykac著, ) https://github.com/w3c/uievents/commit/2cfeb1f351f18e9eb3318563267b87b3e2e8f3f3

[23] Convert 'codepoint' to 'code point' to match the Unicode Standard (vkatsikaros著, ) https://github.com/w3c/webdriver/commit/a230a6144089c8a3558ea7101d2b4adb51531aa5

[24] XQuery and XPath Data Model 3.1 () https://www.w3.org/TR/2017/REC-xpath-datamodel-31-20170321/#dt-codepoint

[25] XPath and XQuery Functions and Operators 3.1 () https://www.w3.org/TR/2017/REC-xpath-functions-31-20170321/#codepoint

[26] Improve representation guidelines for bytes and code points (annevk著, ) https://github.com/whatwg/infra/commit/543b2c48b6e1babb50d77e5a3ba5b86be8b56eb9

[27] Define character as alias for code point (annevk著, ) https://github.com/whatwg/infra/commit/034569bc45594f30a903cb348f9fde35c2a27609

[28] Define character as alias for code point by annevk · Pull Request #104 · whatwg/infra () https://github.com/whatwg/infra/pull/104

[29] Editorial: format bytes and code points per Infra (annevk著, ) https://github.com/whatwg/url/commit/91cb2aa532bc2b217e6237d23649aed0d2c566bb

[30] Editorial: let code point and friends be defined by Infra (annevk著, ) https://github.com/whatwg/html/commit/59595d9c2ccadb9332c15048be5d30174532ee70

[31] Deal with the parentheses exception for code point/byte display (annevk著, ) https://github.com/whatwg/infra/commit/a743dbd7f1c9d6200d8eaae127aeeb85a701fb02

[32] [css-syntax] Remove 'code point' and 'surrogate code point' in favor … (tabatkins著, ) https://github.com/w3c/csswg-drafts/commit/320a990184a331057a56a17cdf627fee81bdc5d3

[33] XSL Transformations (XSLT) Version 3.0 () https://www.w3.org/TR/2017/REC-xslt-30-20170608/#analyze-string

The term character, here as elsewhere in this specification, means a Unicode codepoint.

[34] Allow decimals with no leading 0 as the time in refresh <meta> (domenic著, ) https://github.com/whatwg/html/commit/b8a34e302cdf0289f5403a02905629bb358519a6

[47] UTS #18: Unicode Regular Expressions, , https://unicode.org/reports/tr18/#character_ranges

For the purpose of regular expressions, in this document the terms “character” and “code point” are used interchangeably.

[48] Web Applications 1.0 r6650 Define 'Unicode code point'. ( ( 版)) http://html5.org/tools/web-apps-tracker?from=6649&to=6650