Unicode符号位置

符号位置 (Unicode)

仕様書

符号位置

[36] 符号点 (ふごうてん) (code point) , 符号位置 (ふごういち) (code position) は、 符号空間中の整数 >>44Unicode の場合は Unicode符号空間上の任意の値です >>35 D10。 すなわち範囲 [ 0, 0x10FFFF ] の整数です。

[37] The Unicode Standard は 「code point」 を規定し、 「code position」 は別名としています。 >>35 D10

[52] code pointUnicode 系の、 code positionISO/IEC 10646 系の用語です。どちらも同じ意味で、原文の引用以外で使い分ける意味はありません。 code point の方が広く用いられています。

[53] codepoint と一語にすることもありますが、一般的とまではいえません。

[49] 日本語では code point, code position のどちらも符号位置と訳すのが一般的です。

[51] 両者の区別を保存して翻訳するなら符号点符号位置と書き分けることになります。

[54] English で一般的なのは code point日本語で一般的なのは符号位置と逆転しているのが困りどころ。

[50] コードポイント音訳することもままありますが、 日本語の文脈ではやはり日本語に訳された用語を使うべきです。


[41] 符号点抽象文字に関連付けたものを符号化済文字といいます。

[42] 符号点の列を符号化済文字列といいます。 The Unicode Standard文字とは符号化済文字 (≠ 符号点)、 文字列とは符号化済文字列 = 符号点の列としていて、 意味がねじれています。

[43] Unicode符号点からサロゲート符号点を除外したものが、 Unicodeスカラー値です。

古い HTML 仕様における定義

[11] 古い HTML 仕様は独自に「符号位置」という語を定義していました。現在の HTML 仕様 (HTMLWeb Applications 1.0) は独自の定義を含んでいません。

[2]

符号位置 (code position)
符号化文字集合変域中の整数。 符号化文字集合は符号位置を文字に写像する。

IDN2003 における定義

[1]

符号位置 (ふごういち) (code point) は、 符号化文字集合中の文字に関連付けられた整数値です。

IDN2008 における定義

[9]

符号位置 (code point) は、符号化文字集合符号空間 (codespace) 中の整数値です。

XDM における定義

[12]

This document uses the term "code point", sometimes spelt "codepoint" (also known as "character number" or "code position") to mean a non-negative integer that represents a character in some encoding.

[5] XQuery 1.0 and XPath 2.0 Functions and Operators (Second Edition) http://www.w3.org/TR/2010/REC-xpath-functions-20101214/#string-types

表記法

[17] Unicode / UCS符号位置は、 U+U- によって符号位置を表します。

[45] U+符号点の表記と文字の名前を並べて、 「U+0061 LATIN SMALL LETTER A」 のようにも表記します。 >>44

[19] 7ビット符号8ビット符号ビット組合せは、 / によって4ビットずつの十進数を組み合わせて表記して表します。

[18] JIS X 0218短縮識別名称を規定していました。

[4] エスケープも参照。

符号点型

[38] 符号点型 (ふごうてんがた) (code point type) (基本型 (きほんがた) (basic type) >>46) は、 符号点の7つの基礎的なクラスのいずれかです。 >>35 D10a

[39] 符号点型
t
符号点型 (基本型)
gc
General Category
ac
抽象文字割当
cp
符号点割当状態
t
図形
gc
L, M, N, P, S, Zs
ac
割当済
cp
割当済
t
書式
gc
Cf, Zl, Zp
ac
割当済
cp
割当済
t
制御
gc
Cc
ac
割当済
cp
割当済
t
私用
gc
Co
ac
割当済
cp
割当済
t
サロゲート
gc
Cs
ac
割当不可
cp
割当済
t
非文字
gc
Cn
ac
未割当済
cp
割当済
t
予約済
gc
Cn
ac
未割当済
cp
未割当済

[40] すべての符号点は、いずれか1つの符号点型に属します。

関連

[3]文字」、「符号位置」 (「code point」、「code position」)、「符号単位」 などはしばしば混用されます。

[13] Unicodeスカラー値Unicode における符号位置を表す語です。

[14] XPath and XQuery Functions and Operators 3.0 ( ( 版)) http://www.w3.org/TR/xpath-functions-3/#codepoint

[15] Character Model for the World Wide Web 1.0: Fundamentals ( ( 版)) http://www.w3.org/TR/charmod/#def-CCS

[16] RFC 6797 - HTTP Strict Transport Security (HSTS) ( 版) http://tools.ietf.org/html/rfc6797#section-4

codepoint
is a colloquial contraction of Code Point, which is any value in the Unicode codespace; that is, the range of integers from 0 to 10FFFF(hex) [Unicode].
[20] perldelta - search.cpan.org ( ()) http://search.cpan.org/~rjbs/perl-5.24.0/pod/perldelta.pod

Using code points above the platform's IV_MAX is now deprecated

Unicode defines code points in the range 0..0x10FFFF. Some standards at one time defined them up to 2**31 - 1, but Perl has allowed them to be as high as anything that will fit in a word on the platform being used. However, use of those above the platform's IV_MAX is broken in some constructs, notably tr///, regular expression patterns involving quantifiers, and in some arithmetic and comparison operations, such as being the upper limit of a loop. Now the use of such code points raises a deprecation warning, unless that warning category is turned off. IV_MAX is typically 2**31 -1 on 32-bit platforms, and 2**63-1 on 64-bit ones.

[21] Editorial: start using the Infra Standard (annevk著, ) https://github.com/whatwg/encoding/commit/a26f76889bf393999e9caad84a3647ab09c39e09

[22] Change Unicode \u -> U+ (Fix #127) (garykac著, ) https://github.com/w3c/uievents/commit/2cfeb1f351f18e9eb3318563267b87b3e2e8f3f3

[23] Convert 'codepoint' to 'code point' to match the Unicode Standard (vkatsikaros著, ) https://github.com/w3c/webdriver/commit/a230a6144089c8a3558ea7101d2b4adb51531aa5

[24] XQuery and XPath Data Model 3.1 () https://www.w3.org/TR/2017/REC-xpath-datamodel-31-20170321/#dt-codepoint

[25] XPath and XQuery Functions and Operators 3.1 () https://www.w3.org/TR/2017/REC-xpath-functions-31-20170321/#codepoint

[26] Improve representation guidelines for bytes and code points (annevk著, ) https://github.com/whatwg/infra/commit/543b2c48b6e1babb50d77e5a3ba5b86be8b56eb9

[27] Define character as alias for code point (annevk著, ) https://github.com/whatwg/infra/commit/034569bc45594f30a903cb348f9fde35c2a27609

[28] Define character as alias for code point by annevk · Pull Request #104 · whatwg/infra () https://github.com/whatwg/infra/pull/104

[29] Editorial: format bytes and code points per Infra (annevk著, ) https://github.com/whatwg/url/commit/91cb2aa532bc2b217e6237d23649aed0d2c566bb

[30] Editorial: let code point and friends be defined by Infra (annevk著, ) https://github.com/whatwg/html/commit/59595d9c2ccadb9332c15048be5d30174532ee70

[31] Deal with the parentheses exception for code point/byte display (annevk著, ) https://github.com/whatwg/infra/commit/a743dbd7f1c9d6200d8eaae127aeeb85a701fb02

[32] [css-syntax] Remove 'code point' and 'surrogate code point' in favor … (tabatkins著, ) https://github.com/w3c/csswg-drafts/commit/320a990184a331057a56a17cdf627fee81bdc5d3

[33] XSL Transformations (XSLT) Version 3.0 () https://www.w3.org/TR/2017/REC-xslt-30-20170608/#analyze-string

The term character, here as elsewhere in this specification, means a Unicode codepoint.

[34] Allow decimals with no leading 0 as the time in refresh <meta> (domenic著, ) https://github.com/whatwg/html/commit/b8a34e302cdf0289f5403a02905629bb358519a6

[47] UTS #18: Unicode Regular Expressions, , https://unicode.org/reports/tr18/#character_ranges

For the purpose of regular expressions, in this document the terms “character” and “code point” are used interchangeably.

[48] Web Applications 1.0 r6650 Define 'Unicode code point'. ( ( 版)) http://html5.org/tools/web-apps-tracker?from=6649&to=6650