文字参照 (HTML、XML、SGML)

[91] SGML 派生マーク付け言語における文字参照 (character reference) は、文字の番号や短い名前によって表す文字の代替表現です。マーク付けの一部を表す文字をデータとして含めるために使ったり、通常の方法で入力しがたい文字を表すために使ったりします。

仕様書

呼称と定義・分類

[90] HTML では、名前付き文字参照、十進数文字参照、十六進数文字参照の総称を文字参照と呼んでいます >>89。

文脈

[92] HTML では文字参照は、通常要素、外来要素、エスケープ可能生テキスト要素の内容の一部として >>93、あるいは属性値の一部として >>94 用いることができます。

[95] >>92 のいずれも文字参照の他にテキストを用いることができる文脈ですが、曖昧アンドが禁止されています >>93, >>94。文字参照にも曖昧アンドにも一致しない & はテキストとして解釈され、著者はこれを用いても構いません。曖昧アンドである & は著者が用いてはなりません。

[96] 曖昧アンド (ambiguous ampersand) は、 & の後に1文字以上のASCII英数字が続き、その後に ; が続くもののうち、名前付き文字参照でないものです >>89。

[102] ; で終わらない (不適合の) 文字参照を禁止しないといけない気がしますが、 >>99 で禁止がなくなってしまっています。また、正しい文字参照が曖昧アンドに含まれないので、文字参照はテキストとしても解釈し得る状態になっていて、厳密には不適切な状態になっています。。。

文字コード

[81] 現在の HTML では文字参照は Unicode の符号位置として解釈されます。

[82] ただし 0x80 - 0x9F の範囲は例外的に Windows-1252 の符号位置として解釈されます。 21世紀初頭頃にそのように利用、実装されていたことによります。

[85] 参照処理モデル実装前の20世紀の Webブラウザーでは、そのままのバイトを表すものとして実装されていました。数値文字参照のみならず文字実体参照もそのようになっていました。

[87] 例えば日本語 (シフトJIS) 環境のWebブラウザーでは © が © ではなく ゥ (半角カナ) で表示されていました。

[108] 意図的な仕様というよりは、あまり深く考えずに実装されていた + 技術的制約によるものでしょう。

[109] 参照処理モデル実装後でも、フォント依存符号化のフォントとの併用等により、 U+0000 - U+00FF の文字参照が本来の文字とは異なる HTML文書が作られています。

[110] 実例: Latin3, ジョージアの8ビット符号

[112] iモードではシフトJIS文字参照が使われていました。

HTML 文字参照 XML DTD

[18] XML においてはいくつかの公開識別子を持つ外部実体は HTML の名前付き文字参照を宣言するものと解釈されることになっています。

XHTML名前付き文字参照DTDを参照。

スクリプトマクロ

PukiWiki

[20] PukiWikiのテキスト整形のルール >>47 では、 HTML の文字参照の一部と、独自の文字参照が使えるとされます。

[21] &heart;, &smile;, &t; など独自の文字参照があります。 >>47

[23] &date;, &page; など保存時にメタ情報に置換される構文があります。 >>47

[24] &counter; など動的に決まる値に置き換えられる構文があります。 >>47

[25] &ruby(ルビ){インライン要素}; など引数を取る構文があります。 >>47

[26] このように SGML の文字参照から大きく離れて一般の記述構文にまで拡張されています。

[47] FormattingRules - PukiWiki-official (2005-10-12T11:40:00.000Z, 2021-01-02T05:56:03.066Z) https://pukiwiki.osdn.jp/?FormattingRules#ibd49862

16進数は半角小文字で指定する必要があります(XHTML 1.0 第2版から小文字に限定されました)。

LeXML

通信用語の基礎知識V6フォーマット

[129] 通信用語の基礎知識V6フォーマットは、明らかに HTML から派生したと思われる文字実体参照機能を持ちますが、

[264] かなり多くの文字が独自に追加されています。
[265] 末尾は ; で同じですが、先頭は \ です。
[266] 末尾に {...} や :... で引数を指定できる場合があります。

と違いも多いです。

[267] 日本で作られた辞書形式として特徴的なものとして、漢文用の返り点が定義されています。

歴史

SGML

[116] Unicode Consortium は一連のSGML文字実体と Unicode文字との対応表を公表しています。 >>115

[117] (平成9(1997)年当時の) Unicode の文字に対応しないとされるものが21個含まれています。

[115] 25 July 1997, 2002-04-08T21:00:09.000Z, 2025-11-02T06:07:05.345Z https://unicode.org/Public/MAPPINGS/VENDORS/MISC/SGML.TXT

HTML の誕生と文字参照

[53] WorldWideWeb/NextStep/Implementation/ParseHTML.h at master · cynthia/WorldWideWeb · GitHub, 2024-08-30T15:24:01.000Z https://github.com/cynthia/WorldWideWeb/blob/master/NextStep/Implementation/ParseHTML.h

文字エスケープ拡大の諸提案

[48] SGML の文字実体参照の体系が多数提案されました。また、 SGML 以外の対象でも利用されました。

[54] Cello, HTML3, STIX, SI 1680, XML Entity Definitions for Characters, ERCS, KanjiBase, &M, BUCS, EKBS, テキスト形式TRONコード, CHISE文字参照, シフトJIS文字参照, MUFI, IDS (別構文あり), SAT外字, 代用表記 (新・新しい日本語を作る会), The Menota handbook

[61] Stream-based style sheets, 2024-09-28T05:04:04.000Z, 1999-02-19T19:29:58.109Z https://web.archive.org/web/19990219192957/http://odur.let.rug.nl/%7Ebert/style.html

[14] IPAmj明朝フォントの研究 ― 実装編 ― - FIELD NOTES: 書を持って街へ出よう, 2023-09-05T14:51:34.000Z https://field-notes.hatenablog.jp/entry/20111223/1324634005

前回の調査結果を元に Field Reports 1.4 に以下の機能を盛り込みました。

ただし,プログラミング言語によっては2バイトを超えるUnicode文字をエスケープシーケンスなどで表現できないので,数値参照文字も使えるようにしました。
&#dddd; または &#xhhhh; (ddddは10進数,hhhhは16進数)
ついでに,CIDまたはGIDで直接グリフを指定できるよう「グリフ参照文字」も使えるようにしました。
&@#dddd; または &@#xhhhh;l

文字参照を独自拡張した「グリフ名参照」により,グリフ名を指定できるようにしました。以下のような書式になります。
&@<グリフ名>;

[19] Field Reports 1.4 の新機能 (3) ― グリフ直接指定 ― - 合同会社フィールドワークス, 2023-09-05T14:58:02.000Z https://www.field-works.co.jp/2011/12/16/field-reports-1-4-%E3%81%AE%E6%96%B0%E6%A9%9F%E8%83%BD-3-%E3%82%B0%E3%83%AA%E3%83%95%E7%9B%B4%E6%8E%A5%E6%8C%87%E5%AE%9A/

[28] HTML TADS deviations from standard HTML specifications, 2007-06-23T19:42:00.000Z, 2024-08-17T11:45:11.200Z https://www.tads.org/t3doc/doc/htmltads/deviate.htm#TABLEadditions

[29] Word Wrapping and Line Breaking in HTML TADS, 2002-12-13T06:25:50.000Z, 2024-08-17T11:53:47.792Z https://www.tads.org/t3doc/doc/htmltads/linebrk.htm

[51] HTML TADS Latin-2 Character Entities, 1999-05-09T21:32:36.000Z, 2024-08-17T11:54:42.619Z https://www.tads.org/t3doc/doc/htmltads/latin2.htm

[52] Guide to the W3C XML Specification (XMLspec) DTD, Version 2.1, 2014-02-24T23:47:01.000Z, 2024-08-24T02:52:52.349Z https://www.w3.org/XML/1998/06/xmlspec-report.htm#AEN3352

[65] HTML+ predefined icon-like symbols, 2024-10-09T13:52:58.000Z, 2001-04-22T14:08:59.122Z https://web.archive.org/web/20010422140733/http://odur.let.rug.nl/~bert/WWWicn/Sample.html

[68] Ethiopic Entity Names, 2024-09-21T14:48:47.000Z, 2024-10-14T08:59:31.728Z http://www.geez.org/Entities/
- [76] ftp://ftp.geez.org/pub/xml/ethiopic.dtd

Mosaic の文字参照

[211] 西暦2010(平成22)年付で GitHub で公開されている、西暦1993(平成5)年の著作権表記がある NCSA Mosaic のソースコードには、

[212] lt, LT
[213] gt, GT
[214] amp, AMP
[215] quot, QUOT
[216] Latin1
- [217] macr がなく hibar がある

があります。 >>210

[218] なお、これはその後西暦2022(令和4)年になって最新の HTML Standard 由来の表に置換されてしまっています。その際に HTML Standard の規定を十分に理解していない人が作業したらしく、 HTML Standard の ; 付きと ; なしの文字参照の違いを適切に扱えていません。

[219] hibar のみ現行仕様と異なります。 Mosaic が何らかの理由で独自仕様としてしまったものか、先行する何らかの仕様か実装を模倣したものかは不明です。

[220] 手元にある歴代 HTML 仕様等の DTD の中で hibar を採用したものは1つも見当たりません。

[86] ncsa-mosaic/CHANGES at master · alandipert/ncsa-mosaic ( (2014-04-07 05:42:16 +09:00 版)) https://github.com/alandipert/ncsa-mosaic/blob/master/CHANGES#L1310
- [210] ncsa-mosaic/libhtmlw/HTMLamp.h at 29c82be0c24dcf08125d3fe289b61ea9f1832bbf · alandipert/ncsa-mosaic · GitHub, 2025-11-02T12:19:07.000Z https://github.com/alandipert/ncsa-mosaic/blob/29c82be0c24dcf08125d3fe289b61ea9f1832bbf/libhtmlw/HTMLamp.h

HTF の文字参照

[136] 西暦1990年代前半 (平成時代初期) 頃に使われた SGML応用である HTF は Latin1 の多くの文字に対する文字参照を定めています。 >>137

[138] 現在の HTML のものに近いですが、微妙に違います。

[139] brkbar と hibar があり、それらの文字に他の名前はありません。

[221] Mosaic の実装との前後関係は微妙な時期であり不明です。 hibar が共通しているのは、共通の原典がありそうです。 brkbar は異なっており、一方が他方を模倣したという直接の関係ではなさそうです。

[222] 手元にある歴代 HTML 仕様等の DTD の中で hibar, brkbar を採用したものは1つも見当たりません。

[137] Hyper-G Text Format (HTF) Version 2.13, Frank Kappe, January 22, 1996 #page=33
- HTF

Martin Ramsch の文字参照の表

[140] Martin Ramsch が西暦1994(平成6)年頃作成した ISO/IEC 8859-1 用の文字参照の一覧表があります。 >>143

[148] この表は現在もあちこちに複製や派生版が残ります。また、いろいろなところからリンクされています。現存しないものも含めれば相当の人の目に触れていたと思われます。

[149] Lynx には遅くても 2.5 (平成8年) 時点でテスト用ファイルとして取り込まれていたようで >>131、現在も公式サイトに残っています >>146。他の文字コードの同様の表も作られています >>147。

[168] 本人サイトの版 >>143, >>162 より、過去に次の版があったことは確実と思われます。

[176] 過去の Lynx のテストファイルには1994-02-16と共に1994-10-11の日付があります。 >>131 1994-02-16の最初の版からの派生であることは間違いないと思われますが、 1994-10-11の日付を残したのが本人なのか、 Lynx に取り込んだ別人なのかは不明です。後者の場合他にも別人による改変が加わっている可能性がありますが、不明です。

[188] 現在の Lynx のテストファイルには2000-05-15の日付があります。 >>146 内容は本家の2000-05-15版 >>162 と似ていますが、微妙に違いがあり、 Lynx 側で本家の最新版を取り込んだ後に独自に修正したものと思われます。

[177] >>142 は2004-04-28の日付だけがありますが、本人によるものか別人による改変なのか不明です。本体も大幅に改められています。日付の形式が >>163 で西暦1998年以後改められていますが、 >>142 は旧形式を踏襲していますから、古い版からの派生の可能性があります。後述の brkbar, hibar の箇所を見ると、かなり古い版から派生している可能性があります。

[164] 本人公開と思われるもの
- [143] Martin Ramsch - iso8859-1 table, 2025-11-02T09:02:38.000Z, 1997-01-19T16:06:56.376Z https://web.archive.org/web/19970119160651/http://www.uni-passau.de/~ramsch/iso8859-1.html
  - [144] 「Martin Ramsch, 16.02.1994, 07.01.1996, 01.07.1996」
- [174] Martin Ramsch - iso8859-1 table, 2025-11-02T09:52:42.000Z, 1999-11-28T17:30:22.189Z https://web.archive.org/web/19991128173017/http://www.fmi.uni-passau.de/~ramsch/iso8859-1.html
  - [175] 「Martin Ramsch, 16.02.1994, 07.01.1996, 01.07.1996, 1998-10-09」
- [141] Martin Ramsch - iso8859-1 table, 2025-11-02T09:01:58.000Z, 2009-12-16T04:13:06.349Z https://web.archive.org/web/20091216041035/http://www.ramsch.org/martin/uni/fmi-hp/iso8859-1.html
- [162] Martin Ramsch - iso8859-1 table, 2025-11-02T09:44:09.000Z, 2011-05-14T08:44:35.073Z https://web.archive.org/web/20110514084413/http://www.ramsch.org/martin/uni/fmi-hp/iso8859-1.html
  - [163] 「Martin Ramsch, 16.02.1994, 07.01.1996, 01.07.1996, 1998-10-09, 2000-05-15」
[147] Directory tree of /lynx_doc/test, showing all files at or below this level, 2024-04-15T23:42:24.000Z, 2025-11-02T09:04:16.541Z https://lynx.invisible-island.net/lynx_doc/test/
- [131] Martin Ramsch - iso8859-1 table, 2025-11-02T07:01:15.000Z, 1997-08-03T22:06:08.004Z https://web.archive.org/web/19970803220531/http://www.slcc.edu/lynx2-5/test/iso8859-1.html
  - [166] 「Martin Ramsch, 16.02.1994, 11.10.1994」
- [146] Martin Ramsch - iso8859-1 table, 2019-04-03T08:25:24.000Z, 2025-11-02T09:03:36.071Z https://lynx.invisible-island.net/lynx_doc/test/iso-8859-1.html
  - [167] 「Martin Ramsch, 16.02.1994, 07.01.1996, 01.07.1996, 1998-10-09, 2000-05-15」
- [145] Martin Ramsch - iso8859-1 table, 2019-04-03T08:25:24.000Z, 2025-11-02T09:02:57.067Z https://lynx.invisible-island.net/lynx_doc/test/iso-8859-1a.html
[135] null, 1995-06-12T00:23:04.000Z, 2025-11-02T07:24:33.492Z https://www.mit.edu/people/mtbear/iso8859-1.html
[142] Martin Ramsch - iso8859-1 table, 2005-04-28T13:52:02.000Z, 2025-11-02T09:02:09.519Z https://www.hzdr.de/FWR/VB/HELP/HELP_HTML/entity-list.html
- [165] 「Martin Ramsch, 28.04.2004」

[153] ¦ について、

[182] SGML には brvbar のみがあります。 >>115
[179] HTF には brkbar のみがあります。 >>137
[178] 古形を残している可能性がある2004-04-28版には brkbar のみがあります。 >>142
[180] Lynx 版には brvbar と共に brkbar があります。 brkbar は HTF 固有と説明があります。 >>131
[181] 平成8年版には brvbar と共に brkbar があります。 brkbar は HTF 固有と説明があります。 >>143
[189] 平成12年版には brvbar と共に brkbar があります。 brkbar は HTF 固有と説明があります。 >>162
[190] Lynx 現行版には brvbar と共に brkbar があります。 brkbar は HTF 固有と説明があります。 brkbar は非標準と書かれています。 >>146
[154] 現在の Webブラウザーは brkbar に対応していません。

[155] ¨ について、

[183] SGML には uml と die があります。 >>115
[184] HTF には uml があります。 >>137
[185] 古形を残している可能性がある2004-04-28版には uml があります。 >>142
[186] Lynx 版には uml があります。 >>131
[187] 平成8年版には uml と共に die があります。重複であることが説明されていますが、理由などは記載がありません。 >>143
[191] 平成12年版には uml と共に die があります。重複であることが説明されていますが、理由などは記載がありません。 >>162
[192] Lynx 現行版には uml と共に die があります。重複であることが説明されています。 die は非標準と書かれています。 >>146
[156] 現在の Webブラウザーはどちらも対応しています。

[157] ¯ について、

[194] SGML には macr があります。 >>115
[193] HTF には hibar があります。 >>137
[195] 古形を残している可能性がある2004-04-28版には hibar があります。 >>142
[196] Lynx 版には hibar があります。 >>131
[197] 平成8年版には macr と共に hibar があります。 hibar は X Mosaic が対応しているが macr に置き換えるべきと記載があります。 >>143
[198] 平成12年版には macr と共に hibar があります。 hibar は X Mosaic が対応しているが macr に置き換えるべきと記載があります。 >>162
[199] Lynx 現行版には macr と共に hibar があります。 hibar は X Mosaic が対応しているが macr に置き換えるべきと記載があります。 hibar は非標準と書かれています。 >>146
[158] 現在の Webブラウザーは hibar に対応していません。

[159] Ð について、

[200] SGML には ETH と Dstrok があります。 >>115
- [201] Unicode は別の文字と対応付けています。 >>115
[202] HTF には Dstrok があります。 >>137
[203] 古形を残している可能性がある2004-04-28版には ETH があります。 >>142
[204] 平成8年版には ETH と共に Dstrok があります。 Dstrok は HTF 固有と説明があります。 >>143
[205] 平成12年版には ETH と共に Dstrok があります。 Dstrok は HTF 固有と説明があります。 >>162
[206] Lynx 現行版には ETH と共に Dstrok があります。 Dstrok は HTF 固有と説明があります。 Dstrok は非標準と書かれています。 >>146
[160] 現在の Webブラウザーは ETH = Ð, Dstrok = Đ で区別しています。前者が Latin1 です。

[223] 手元にある歴代 HTML 仕様等の DTD の中で hibar, brkbar, die を採用したものは1つも見当たりません。 Dstrok を採用したものも ISO 8879-1986//ENTITIES Added Latin 2//EN (ISOlat2) そのものだけです。 die は ISOdia 由来であり、 MathML 以前に SGML 系 HTML で採用した事例が無かったということでしょう。平成8年版はどこから拾ってきたのでしょう。

[207] これら4字の各版の記載の変遷を見ると、この表は元々 HTF の文字参照の一覧に基づいていたものが、 HTML に合わせて訂正されてきたことがわかります。

[208] 4字中3字について2004-04-28版 >>142 は HTF と一致するもののみを記載しています。日付が新しいとはいえ、 HTML と一致するものを削除する動機に乏しいため、古形を伝えるものではないかと推測しています。ただ、 Ð について HTF と一致していないのは解せません。

[161] Lynx 版 >>131 には

This table grew out of an ISO Latin-1 Character Set overview related to the Hyper-G Text Format (HTF). The entity names &brkbar; and &Dstrok; seem to be unique to HTF.

とあります。 HTF に由来する表であることが明言されています。

[150] といいつつこの表自体は HTML文書であり、文字参照の文字列と文字参照として記述された文字とを対比する形の例文となっています。利用しているWebブラウザーの動作確認と HTML文書の著者のための手引きを兼ねたものと推測されます。 >>161 の部分の続きの説明でも HTML の仕様を参照しています。

[151] HTML の説明なのに HTF に由来するというのも不思議な話ですが、この時代は HTML の仕様が未確定で流動的である一方で、 SGML の世界で全体として緩やかにSGML文字実体が共有されているような状況でしたから、当初はその違いをあまり深く考えることなく流用していたのでしょうか。

[152] ともかくこの表はいろいろな人に参照されて使われました。いろいろな人、には Lynx の開発者も含まれました。

[258] その他、伝播の過程は不明であるものの、類似した特徴を持つ文字参照の表があちこちにあります。

[231] HTML Character table, 2005-10-31T07:25:53.000Z, 2025-11-02T13:53:06.807Z https://www.usewisdom.com/computer/internet/html/charsdesc.html
- [232] brvbar, brkbar, um, die, macr, hibar, ETH
[233] Special Characters in HTML, 2025-11-02T13:54:28.000Z https://www.degraeve.com/reference/specialcharacters.php
- [234] brvbar, brkbar, uml, die, macr, hibar, ETH
[238] ISO Latin-1 character set (HTML Object Control)-line feed in flex tooltip, 2025-11-02T13:59:48.000Z https://topic.alibabacloud.com/a/font-classtopic-s-color00c1deisofont-latin-font-classtopic-s-color00c1de1font-character-set-html-object-control-line-feed-in-flex-tooltip_8_8_31959332.html
- [239] 全体的に大文字の使い方がおかしい
- [240] Brvbar, Brkbar, UML, die, Macr, hibar, ETH
[243] HTML转义字符大全-CSDN博客, 2025-11-02T14:07:52.000Z https://blog.csdn.net/qq_43641833/article/details/122566555
- [244] brvbar, brkbar, uml, die, macr, hinar, ETH, ndash, mdash
[248] Regular Expression Library, 2025-11-02T14:14:38.000Z https://www.regexlib.com/(X(1)A(7s0KjrHxBlLRq3GSQRBU4tmaOuTV6fZ3PZbrGehBeiNOasOEbCZu08YLXh4TGZCFTGZqrlj96cnXWO2CGTl9WKAF04xihQq46WvbWaN46n6swEEOHT7xxhXG8rVYQehrn1F80J7ZNg9PTjQgl1gwc4wZYiXUapV7a-rhQF-XC0I5m84KfuR3NpPffIGcNXUR0))/REDetails.aspx?regexp_id=2084
- [249] ndash, mdash, brvbar, brvbar (重出), uml, die, macr, hibar, ETH
[247] null, 2005-08-07T22:22:08.000Z, 2025-11-02T14:10:51.122Z https://ftp.gwdg.de/pub/linux/misc//gazette//117/misc/tag/htmlconv-utf.pl.txt
- [250] brvbar, uml, macr, ETH, eth を実装。
- [251] mdash, ndash を実装し「HTML 2.0」と注釈。
- [252] emdash, endash, brkbar, die, hibar, Dstrok, dstrok を実装し「Lynx」と注釈。
[253] null, 2007-02-04T11:32:08.000Z, 2025-11-02T14:17:42.750Z https://ftp.dei.uc.pt/pub/CPAN/authors/id/T/TE/TERJE/webster-2.19_2007.0205
- [254] lowbar も horbar も _ (どちらも現行 HTML Standard にあるが後者は U+2015)
- [255] hyphen, minus, shy が - (現行 HTML Standard ではどれも違う文字)
- [256] sp と nbsp が (現行 HTML Standard に sp なし)
- [257] brkbar, brvbar, uml, die, macr, hibar, ETH
[259] Patience, 2025-11-02T14:24:52.000Z https://www.forbes.com/1997/09/28/feat.html
- [260] macr, hibar, ETH

[241] Process Hacker: ProcessHacker/mxml/mxml-entity.c Source File, 2015-06-29T21:16:54.000Z, 2025-11-02T14:01:40.474Z https://processhacker.sourceforge.io/doc/mxml-entity_8c_source.html

    4  * Character entity support code for Mini-XML, a small XML-like
    5  * file parsing library.

  151  * '_mxml_entity_cb()' - Lookup standard (X)HTML entities.

  167     { "AElig",          198 },
  168     { "Aacute",         193 },
  169     { "Acirc",          194 },
  170     { "Agrave",         192 },
  171     { "Alpha",          913 },
  172     { "Aring",          197 },
  173     { "Atilde",         195 },
  174     { "Auml",           196 },
  175     { "Beta",           914 },
  176     { "Ccedil",         199 },
  177     { "Chi",            935 },
  178     { "Dagger",         8225 },
  179     { "Delta",          916 },
  180     { "Dstrok",         208 },
  181     { "ETH",            208 },
  182     { "Eacute",         201 },
  183     { "Ecirc",          202 },
  184     { "Egrave",         200 },
  185     { "Epsilon",        917 },
  186     { "Eta",            919 },
  187     { "Euml",           203 },
  188     { "Gamma",          915 },
  189     { "Iacute",         205 },
  190     { "Icirc",          206 },
  191     { "Igrave",         204 },
  192     { "Iota",           921 },
  193     { "Iuml",           207 },
  194     { "Kappa",          922 },
  195     { "Lambda",         923 },
  196     { "Mu",             924 },
  197     { "Ntilde",         209 },
  198     { "Nu",             925 },
  199     { "OElig",          338 },
  200     { "Oacute",         211 },
  201     { "Ocirc",          212 },
  202     { "Ograve",         210 },
  203     { "Omega",          937 },
  204     { "Omicron",        927 },
  205     { "Oslash",         216 },
  206     { "Otilde",         213 },
  207     { "Ouml",           214 },
  208     { "Phi",            934 },
  209     { "Pi",             928 },
  210     { "Prime",          8243 },
  211     { "Psi",            936 },
  212     { "Rho",            929 },
  213     { "Scaron",         352 },
  214     { "Sigma",          931 },
  215     { "THORN",          222 },
  216     { "Tau",            932 },
  217     { "Theta",          920 },
  218     { "Uacute",         218 },
  219     { "Ucirc",          219 },
  220     { "Ugrave",         217 },
  221     { "Upsilon",        933 },
  222     { "Uuml",           220 },
  223     { "Xi",             926 },
  224     { "Yacute",         221 },
  225     { "Yuml",           376 },
  226     { "Zeta",           918 },
  227     { "aacute",         225 },
  228     { "acirc",          226 },
  229     { "acute",          180 },
  230     { "aelig",          230 },
  231     { "agrave",         224 },
  232     { "alefsym",        8501 },
  233     { "alpha",          945 },
  234     { "amp",            '&' },
  235     { "and",            8743 },
  236     { "ang",            8736 },
  237     { "apos",           '\'' },
  238     { "aring",          229 },
  239     { "asymp",          8776 },
  240     { "atilde",         227 },
  241     { "auml",           228 },
  242     { "bdquo",          8222 },
  243     { "beta",           946 },
  244     { "brkbar",         166 },
  245     { "brvbar",         166 },
  246     { "bull",           8226 },
  247     { "cap",            8745 },
  248     { "ccedil",         231 },
  249     { "cedil",          184 },
  250     { "cent",           162 },
  251     { "chi",            967 },
  252     { "circ",           710 },
  253     { "clubs",          9827 },
  254     { "cong",           8773 },
  255     { "copy",           169 },
  256     { "crarr",          8629 },
  257     { "cup",            8746 },
  258     { "curren",         164 },
  259     { "dArr",           8659 },
  260     { "dagger",         8224 },
  261     { "darr",           8595 },
  262     { "deg",            176 },
  263     { "delta",          948 },
  264     { "diams",          9830 },
  265     { "die",            168 },
  266     { "divide",         247 },
  267     { "eacute",         233 },
  268     { "ecirc",          234 },
  269     { "egrave",         232 },
  270     { "empty",          8709 },
  271     { "emsp",           8195 },
  272     { "ensp",           8194 },
  273     { "epsilon",        949 },
  274     { "equiv",          8801 },
  275     { "eta",            951 },
  276     { "eth",            240 },
  277     { "euml",           235 },
  278     { "euro",           8364 },
  279     { "exist",          8707 },
  280     { "fnof",           402 },
  281     { "forall",         8704 },
  282     { "frac12",         189 },
  283     { "frac14",         188 },
  284     { "frac34",         190 },
  285     { "frasl",          8260 },
  286     { "gamma",          947 },
  287     { "ge",             8805 },
  288     { "gt",             '>' },
  289     { "hArr",           8660 },
  290     { "harr",           8596 },
  291     { "hearts",         9829 },
  292     { "hellip",         8230 },
  293     { "hibar",          175 },
  294     { "iacute",         237 },
  295     { "icirc",          238 },
  296     { "iexcl",          161 },
  297     { "igrave",         236 },
  298     { "image",          8465 },
  299     { "infin",          8734 },
  300     { "int",            8747 },
  301     { "iota",           953 },
  302     { "iquest",         191 },
  303     { "isin",           8712 },
  304     { "iuml",           239 },
  305     { "kappa",          954 },
  306     { "lArr",           8656 },
  307     { "lambda",         955 },
  308     { "lang",           9001 },
  309     { "laquo",          171 },
  310     { "larr",           8592 },
  311     { "lceil",          8968 },
  312     { "ldquo",          8220 },
  313     { "le",             8804 },
  314     { "lfloor",         8970 },
  315     { "lowast",         8727 },
  316     { "loz",            9674 },
  317     { "lrm",            8206 },
  318     { "lsaquo",         8249 },
  319     { "lsquo",          8216 },
  320     { "lt",             '<' },
  321     { "macr",           175 },
  322     { "mdash",          8212 },
  323     { "micro",          181 },
  324     { "middot",         183 },
  325     { "minus",          8722 },
  326     { "mu",             956 },
  327     { "nabla",          8711 },
  328     { "nbsp",           160 },
  329     { "ndash",          8211 },
  330     { "ne",             8800 },
  331     { "ni",             8715 },
  332     { "not",            172 },
  333     { "notin",          8713 },
  334     { "nsub",           8836 },
  335     { "ntilde",         241 },
  336     { "nu",             957 },
  337     { "oacute",         243 },
  338     { "ocirc",          244 },
  339     { "oelig",          339 },
  340     { "ograve",         242 },
  341     { "oline",          8254 },
  342     { "omega",          969 },
  343     { "omicron",        959 },
  344     { "oplus",          8853 },
  345     { "or",             8744 },
  346     { "ordf",           170 },
  347     { "ordm",           186 },
  348     { "oslash",         248 },
  349     { "otilde",         245 },
  350     { "otimes",         8855 },
  351     { "ouml",           246 },
  352     { "para",           182 },
  353     { "part",           8706 },
  354     { "permil",         8240 },
  355     { "perp",           8869 },
  356     { "phi",            966 },
  357     { "pi",             960 },
  358     { "piv",            982 },
  359     { "plusmn",         177 },
  360     { "pound",          163 },
  361     { "prime",          8242 },
  362     { "prod",           8719 },
  363     { "prop",           8733 },
  364     { "psi",            968 },
  365     { "quot",           '\"' },
  366     { "rArr",           8658 },
  367     { "radic",          8730 },
  368     { "rang",           9002 },
  369     { "raquo",          187 },
  370     { "rarr",           8594 },
  371     { "rceil",          8969 },
  372     { "rdquo",          8221 },
  373     { "real",           8476 },
  374     { "reg",            174 },
  375     { "rfloor",         8971 },
  376     { "rho",            961 },
  377     { "rlm",            8207 },
  378     { "rsaquo",         8250 },
  379     { "rsquo",          8217 },
  380     { "sbquo",          8218 },
  381     { "scaron",         353 },
  382     { "sdot",           8901 },
  383     { "sect",           167 },
  384     { "shy",            173 },
  385     { "sigma",          963 },
  386     { "sigmaf",         962 },
  387     { "sim",            8764 },
  388     { "spades",         9824 },
  389     { "sub",            8834 },
  390     { "sube",           8838 },
  391     { "sum",            8721 },
  392     { "sup",            8835 },
  393     { "sup1",           185 },
  394     { "sup2",           178 },
  395     { "sup3",           179 },
  396     { "supe",           8839 },
  397     { "szlig",          223 },
  398     { "tau",            964 },
  399     { "there4",         8756 },
  400     { "theta",          952 },
  401     { "thetasym",       977 },
  402     { "thinsp",         8201 },
  403     { "thorn",          254 },
  404     { "tilde",          732 },
  405     { "times",          215 },
  406     { "trade",          8482 },
  407     { "uArr",           8657 },
  408     { "uacute",         250 },
  409     { "uarr",           8593 },
  410     { "ucirc",          251 },
  411     { "ugrave",         249 },
  412     { "uml",            168 },
  413     { "upsih",          978 },
  414     { "upsilon",        965 },
  415     { "uuml",           252 },
  416     { "weierp",         8472 },
  417     { "xi",             958 },
  418     { "yacute",         253 },
  419     { "yen",            165 },
  420     { "yuml",           255 },
  421     { "zeta",           950 },
  422     { "zwj",            8205 },
  423     { "zwnj",           8204 }

[242] X(HTML) と書いてはありますが、どの仕様とも一致していなそうです。 brkbar, brvbar, uml, die, macr, hibar, ETH, Dstrok が含まれています。

[236] >>235 >>237 hibar を実際に利用した事例。他に brvbar, uml を利用。また、 REG を利用。

Lynx の文字参照

[114] 現在の Lynx のソースコードには4種類の文字参照の集合が含まれています。

[120] 1つは「HTML5」とあり、ある時点の HTML5 の文字参照の一覧に由来すると思われます。 >>119

[123] 詳しく見ていませんが、現行 HTML Standard のものとはいくらか違いのある古い版のようです。

[121] 1つは「Nov 1997 HTML 4.0 draft」 http://www.w3.org/TR/PR-html40/sgml/entities.html に由来するものです。 >>119

[122] 1つは ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MISC/SGML.TXT (>>115 の旧所在) に由来し、 HTML4 に合わせた修正を加えたものです。 >>119

[209] 現在の HTML にないものも多いです。

[124] >>115 が Unicode と対応付けていない21個はこちらでもコメントとなっています。

[125] 少なくても4個、独自の追加があります。次のような注釈があります >>119。

   * Add few (obsolete) synonyms for compatibility with Lynx/2.5 and up:
          "brkbar"  for "brvbar" 0x00A6
          "emdash"  for "mdash" 0x2014
          "endash"  for "ndash" 0x2013
          "hibar"  for "macr" 0x00AF

[126] 1つは Latin1 に相当する96個です。 >>118 このうち95個は HTML2 と同じと思われます (brvbar があります)。 hibar があり、 macr がありません。

[130] Lynx 2.5 は1996-05-01に公開されたようです。

[133] Lynx 2.5 当時のテスト用 HTML ファイルで「ISO LATIN1」と題したものに、

  <li>"&emsp;",		/* emsp, em space - not collapsed */
  <li>"&ensp;",		/* ensp, en space - not collapsed */

があります。マクロンや broken bar はありません。 >>132 このファイルは Lynx 2.5 の配布ファイル中では1996-05-03付となっています。 >>261

[134] Lynx 2.5 当時のテスト用 HTML ファイルで「iso8859-1 (Latin-1)」と題したものに、 >>149 があります。 brvbar の他に brkbar があり、マクロンは hibar だけがあります。 uml はあって die はありません。 ETH と Dstrok があります。 >>131 このファイルは Lynx 2.5 の配布ファイル中では1995-11-03付となっています。 >>261

[262] Lynx 2.5 の配布ファイル中、 1996-04-15付の LYCharSets.c に、 >>126 相当の一覧があります。

	"brvbar",	/* 166,	broken vertical bar, (brkbar) */

	"uml",		/* 168,	spacing diaresis */

	"hibar",	/* 175,	spacing macron */

	"ETH",		/* 208,	capital Eth, Icelandic (Dstrok) */

となっていて、 >>134 の記述と整合しています。

[263] Lynx 2.5 の配布ファイル中、 1996-04-28付の HTMLDTD.c に、111個の一覧があります。こちらが HTMLの構文解析で使われる定義です。 >>261

  "Dstrok",	/* capital Eth, Icelandic */ 
  "ETH",	/* capital Eth, Icelandic */

  "brkbar",	/* broken vertical bar */
  "brvbar",	/* broken vertical bar */

  "die",	/* spacing diaresis */

  "emdash",	/* dash the width of emsp */

  "endash",	/* dash the width of ensp */

  "hibar",	/* spacing macron */

  "uml",	/* spacing diaresis */

となっています。 Latin1 のものに加えてそれ以外も多数あり、どれが何由来かは書かれていません。

[128] 現在公式サイトから入手可能な最古である1998-10-27付の lynx2.8.1rel.2 >>127 はこれら2箇所の一覧表と同等のものがあり、大きな変更はありませんが、後者の一覧に thinsp が加わっています。

[229] Wayback Machine, 2025-11-02T13:28:26.000Z https://web.archive.org/web/19980529214527/http://www.flora.org/lynx-dev/mailbox/log98-02

[230] >>229 1997-04-05付で SGML文字実体を Unicode Consortium の表に基づき実装した旨の記載

[245] null, 2001-03-14T14:03:03.000Z, 2025-11-02T14:10:02.819Z https://bisqwit.iki.fi/src/entities.h

[246] >>245 は「From Lynx」と注釈があります。 SGML文字実体を採用したものの複製です。

曖昧アンドの縮小

[101] HTML の曖昧アンドの定義は徐々に縮小していき、最終的には名前付き文字参照と同じ構文のものになっています。言い換えると、エスケープしなくても良い & が徐々に増えていき、現在又は将来の名前付き文字参照と構文上区別可能ならすべて認められることになっています。

[27] Welcome to Netscape Navigator 3.0, 2024-08-16T11:59:50.000Z, 2002-06-30T20:23:19.417Z https://web.archive.org/web/20020630200918/http://wp.netscape.com/eng/mozilla/3.0/relnotes/windows-3.0.html#JavaScriptBugs

メモ

[9]

(275) 文字参照 (character reference)
1文字に置換される参照。 JIS X 4151-1992 3.
備考名前指定文字参照及び数値指定文字参照の2種類がある。

[1] 【SGML】 SGML の文字参照には、数値指定文字参照と名前指定文字参照があります。前者は文書文字集合における文字番号を使って文字を参照します。例えば &#33 は、文字番号 33 の文字 (ISO/IEC 646:1991 IRV では !。) を表します。後者は機能文字又は SGML宣言の具象構文の追加機能に指定してある文字を、その名前を使って参照します。たとえば、 &#RE は機能文字 RE (記録終了) を表します。

Web SGML では、更に16進文字参照が追加されました。

[2] これに類したものとして、文字実体参照があります。これは、文字1文字 (と判断されるもの。) だけの一般実体を参照するものです。例えば、 &Aacute はアキュート・アクセントつきの文字 A に置換されるかもしれません。

(ちなみに、「文字実体」・「文字実体集合」という言葉は SGML には出てきますが、「文字実体参照」という言葉は HTML4 で出てきます。 (という話は言葉遊びみたいなものですが。))

[3] 文字参照は、その文字が他の手段で簡便に書けない場合に限って使うことが望ましいとされています。 (JISX4151‐1992 8.5 参照。)

[7]

文字参照 := 名前指定文字参照 / 数値文字参照 / 16進文字参照 ;; Web SGML [62]

[4] 文字参照の文字番号の上限ってあるのかなあ?と思って読み返してみたけどわかんなかった。ないのかなあ。もっとも、文書文字集合の最後の数より大きいのを指定してもどうせエラーになるんだろうから意味はないんだけどさあ。
[5] どうして >>4 みたいなことを考えたかというと、規格参照具象構文の文書文字集合は 0〜127 までしか定義してないのに、回避文字に 128〜255 が載ってるの。だから 128〜255 は回避文字になって、非SGML文字にもなる。非 SGML 文字を数値指定文字参照できるんだから、以下略。って。じゃあそれなら、一切言及のない 256 以上の値だったらどうなんだ、って疑問がわいてくる。もっとも、 SGML 考えた連中はせいぜい 255 までしか頭になかったんだろう。

[6] 文字参照を使うと良い場面 (JIS 参考3 7.2 参照。) :

入力装置の鍵盤に対応するものがない文字
表示できない文字
非SGML文字
機能文字になっているがデータとして使いたい文字

など。

[8] HTML4 の文字参照についてイの規定 IW:HTML4:charset.html#spec-char-encoding によれば、 HTML では、文字参照は (1) 数値文字参照 : 10進または16進 (2) 文字実体参照の2つの形で現れるとされています。一見 SGML の定義とは異なるように思えますが、 (規定中でわざわざ「SGML 文字参照」と言っていることを見ても) そうではなく、文字実体参照は文字参照を値に持つ実体であることを考えれば矛盾はないことが分かります。

[10] Firefox 2.0 で U+10FFFF より大きな16進数を指定すると、値によって:

U-7FFFFFFF までならサロゲート・ペアへの変換の計算を拡張したらしき2文字の列になります。

http://software.hixie.ch/utilities/js/live-dom-viewer/?%3Cbody%3E%0A%3Cp%3E%26%23x110000%3B%3C%2Fp%3E%0A%3Cscript%3E%0A%20%20var%20pv%20%3D%20document.getElementsByTagName%20('p')%5B0%5D.firstChild.data%3B%0A%20%20if%20(pv%20%3D%3D%20%22%5CuFFFD%22)%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DPASS%3EPASS%3C%2Fp%3E')%3B%0A%20%20%7D%20else%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DFAIL%3EFAIL%20(')%3B%0A%20%20%20%20for%20(var%20i%20%3D%200%3B%20i%20%3C%20pv.length%3B%20i%2B%2B)%20%7B%0A%20%20%20%20%20%20document.write%20(pv.charCodeAt%20(i).toString%20(16)%20%2B%20'%2C')%3B%0A%20%20%20%20%7D%0A%20%20%20%20document.write%20(')%3C%2Fp%3E')%3B%0A%20%20%7D%0A%3C%2Fscript%3E%3Cnoscript%3E%3Cp%20id%3Dtest%20class%3DFAIL%3EFAIL%20(noscript)%3C%2Fp%3E%3C%2Fnoscript%3E%0A, http://software.hixie.ch/utilities/js/live-dom-viewer/?%3Cbody%3E%0A%3Cp%3E%26%23x7fffffff%3B%3C%2Fp%3E%0A%3Cscript%3E%0A%20%20var%20pv%20%3D%20document.getElementsByTagName%20('p')%5B0%5D.firstChild.data%3B%0A%20%20if%20(pv%20%3D%3D%20%22%5CuFFFD%22)%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DPASS%3EPASS%3C%2Fp%3E')%3B%0A%20%20%7D%20else%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DFAIL%3EFAIL%20(')%3B%0A%20%20%20%20for%20(var%20i%20%3D%200%3B%20i%20%3C%20pv.length%3B%20i%2B%2B)%20%7B%0A%20%20%20%20%20%20document.write%20(pv.charCodeAt%20(i).toString%20(16)%20%2B%20'%2C')%3B%0A%20%20%20%20%7D%0A%20%20%20%20document.write%20(')%3C%2Fp%3E')%3B%0A%20%20%7D%0A%3C%2Fscript%3E%3Cnoscript%3E%3Cp%20id%3Dtest%20class%3DFAIL%3EFAIL%20(noscript)%3C%2Fp%3E%3C%2Fnoscript%3E%0A

0x80000000〜0xFFFFFFFF だと、 & を除く文字列がそのまま文字データとして解釈されます。

http://software.hixie.ch/utilities/js/live-dom-viewer/?%3Cbody%3E%0A%3Cp%3E%26%23x80000000%3B%3C%2Fp%3E%0A%3Cscript%3E%0A%20%20var%20pv%20%3D%20document.getElementsByTagName%20('p')%5B0%5D.firstChild.data%3B%0A%20%20if%20(pv%20%3D%3D%20%22%5CuFFFD%22)%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DPASS%3EPASS%3C%2Fp%3E')%3B%0A%20%20%7D%20else%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DFAIL%3EFAIL%20(')%3B%0A%20%20%20%20for%20(var%20i%20%3D%200%3B%20i%20%3C%20pv.length%3B%20i%2B%2B)%20%7B%0A%20%20%20%20%20%20document.write%20(pv.charCodeAt%20(i).toString%20(16)%20%2B%20'%2C')%3B%0A%20%20%20%20%7D%0A%20%20%20%20document.write%20(')%3C%2Fp%3E')%3B%0A%20%20%7D%0A%3C%2Fscript%3E%3Cnoscript%3E%3Cp%20id%3Dtest%20class%3DFAIL%3EFAIL%20(noscript)%3C%2Fp%3E%3C%2Fnoscript%3E%0A

0x100000000 以上だと、下位8桁 (32ビット) 以外は無視されます。

http://software.hixie.ch/utilities/js/live-dom-viewer/?%3Cbody%3E%0A%3Cp%3E%26%23x100000000%3B%3C%2Fp%3E%0A%3Cscript%3E%0A%20%20var%20pv%20%3D%20document.getElementsByTagName%20('p')%5B0%5D.firstChild.data%3B%0A%20%20if%20(pv%20%3D%3D%20%22%5CuFFFD%22)%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DPASS%3EPASS%3C%2Fp%3E')%3B%0A%20%20%7D%20else%20%7B%0A%20%20%20%20document.write%20('%3Cp%20id%3Dresult%20class%3DFAIL%3EFAIL%20(')%3B%0A%20%20%20%20for%20(var%20i%20%3D%200%3B%20i%20%3C%20pv.length%3B%20i%2B%2B)%20%7B%0A%20%20%20%20%20%20document.write%20(pv.charCodeAt%20(i).toString%20(16)%20%2B%20'%2C')%3B%0A%20%20%20%20%7D%0A%20%20%20%20document.write%20(')%3C%2Fp%3E')%3B%0A%20%20%7D%0A%3C%2Fscript%3E%3Cnoscript%3E%3Cp%20id%3Dtest%20class%3DFAIL%3EFAIL%20(noscript)%3C%2Fp%3E%3C%2Fnoscript%3E%0A

[11] >>10 WinIE 6 ではすべて U+003F になるようです。

[12] >>10 Opera 9 は:

U-00110000〜0xFFFFFFFF はサロゲート・ペア風のなにか (Firefox とは違います。) になります。

0xFFFFFFFF 以上は 0xFFFFFFFF と同じ結果になります。 (名無しさん)

[13] >>10-12 いずれも文字長の制限はないように見えます。 (名無しさん)

[15] Bug 4948 - Incorrect HTML entity error recovery doesn't match other browsers (2008-07-31 09:44:14 +09:00 版) https://bugs.webkit.org/show_bug.cgi?id=4948

[63] MAMA: Character entities - Opera Developer Community (2008-11-25 20:22:30 +09:00 版) http://dev.opera.com/articles/view/mama-character-entities/

[64] Business::PayPal::API - PayPal API - search.cpan.org (2009-07-29 15:59:31 +09:00 版) http://search.cpan.org/~scottw/Business-PayPal-API-0.62/lib/Business/PayPal/API.pm#PayPal_Munging_URLs

[66] Bug 9207 – Anything else: This part of the spec is problematic, for example, a query string variable &lang_id=1 in as part of an attribute of say an img tag, will get converted into an character token when it shouldn't be. Why is the set of characters a-z, A-Z, 0- (2010-04-03 12:54:02 +09:00 版) http://www.w3.org/Bugs/Public/show_bug.cgi

[67] HTML5 Revision Tracker (2010-04-03 12:53:38 +09:00 版) http://html5.org/tools/web-apps-tracker?from=4958&to=4959

[69] IRC logs: freenode / #whatwg / 20100403 (2010-04-18 19:51:34 +09:00 版) http://krijnhoetmer.nl/irc-logs/whatwg/20100403#l-73

[70] Bug 10067 – this only lists entities whose replacement text is a single character, for example many of the negated operators, for example ( (2010-10-09 19:15:18 +09:00 版)) http://www.w3.org/Bugs/Public/show_bug.cgi?id=10067

[71] IRC logs: freenode / #whatwg / 20100927 ( (2010-10-10 13:19:34 +09:00 版)) http://krijnhoetmer.nl/irc-logs/whatwg/20100927

[72] XQuery 1.0: An XML Query Language (Second Edition) ( (2011-01-05 01:29:08 +09:00 版)) http://www.w3.org/TR/2010/REC-xquery-20101214/#dt-predefined-entity-reference

[73] XQuery 1.0: An XML Query Language (Second Edition) ( (2011-01-05 01:29:08 +09:00 版)) http://www.w3.org/TR/2010/REC-xquery-20101214/#dt-character-reference

[74] IRC logs: freenode / #whatwg / 20120525 ( (2012-06-03 11:15:18 +09:00 版)) http://krijnhoetmer.nl/irc-logs/whatwg/20120525#l-480

[75] Web Applications 1.0 r7133 Add a JSON file for entities for convenience. ( (2012-06-15 04:11:00 +09:00 版)) http://html5.org/tools/web-apps-tracker?from=7132&to=7133

[78] Additional named entities for HTML ( (2000-03-13 23:37:21 +09:00 版)) http://www.w3.org/TR/WD-entities-961125

[79] Web Applications 1.0 r7679 Make <a href='?guitar=2&amp=1&pedal=6'> a parse error since IE9 misparses it '?guitar=2&=1&pedal=6' apparently. ( (2013-01-31 09:36:00 +09:00 版)) http://html5.org/tools/web-apps-tracker?from=7678&to=7679

[83] Help:Formatting - MediaWiki ( (2014-01-22 11:53:48 +09:00 版)) http://www.mediawiki.org/wiki/Help:Formatting#Inserting_symbols

[88] XQuery 3.0: An XML Query Language ( (2014-04-08 08:26:21 +09:00 版)) http://www.w3.org/TR/xquery-30/#dt-character-reference

[84] XML Entity Definitions for Characters (2nd Edition) ( (2014-02-10 23:03:18 +09:00 版)) http://www.w3.org/TR/2014/PER-xml-entity-names-20140211/

[104] Bug 13108 – Add &zwsp; as named character reference for zero width space (U+200B) ( (2014-07-23 03:14:12 +09:00 版)) https://www.w3.org/Bugs/Public/show_bug.cgi?id=13108

[105] Re: [whatwg] several messages about the HTML syntax ( (fantasai 著, 2014-07-23 00:47:47 +09:00 版)) http://lists.w3.org/Archives/Public/public-whatwg-archive/2014Jul/0132.html

[106] [whatwg] Markup-related feedback ( (Ian Hickson 著, 2014-10-28 05:41:30 +09:00 版)) http://lists.w3.org/Archives/Public/public-whatwg-archive/2014Oct/0239.html

[107] abc:standard:v2.1 [abc wiki] ( (2015-01-16 18:37:29 +09:00 版)) http://abcnotation.com/wiki/abc:standard:v2.1#supported_accents_ligatures

[16] XHTMLBasic変換仕様 | Durianマニュアル (2015-02-09 13:39:46 +09:00 版) http://durian.symmetric.jp/dev/doc/technical/xhtmlbasic_conversion.html

書式 *****で指定可能な記述説明
&i-mode_*****; 63647から63919 DoCoMo基本絵文字のShift_JISコード
&i-mode-ex_*****; 63921から63996 DoCoMo拡張絵文字のShift_JISコード
&i-mode_U*****; Unicode DoCoMo用絵文字のUnicode
&YahooKeitai-C_*****; [ページ番号1文字]-[ページ内のコード2文字] SoftBankC型端末用絵文字
&YahooKeitai-P_*****; [ページ番号1文字]-[ページ内のコード2文字] SoftBankP型端末用絵文字
&YahooKeitai_U*****; Unicode SoftBank用絵文字のUnicode
&ezweb-1_*****; アイコン番号またはアイコン名 au cdmaOne300シリーズ、Tu-Ka0Xシリーズ、白黒端末用絵文字
&ezweb-2_*****; アイコン番号またはアイコン名 au cdmaOne400シリーズ、Tu-Ka1Xシリーズ用絵文字
&ezweb-3_*****; アイコン番号またはアイコン名 au cdmaOne1000/3000シリーズ、Tu-Ka2Xシリーズ、Tu-Ka3Xシリーズ用絵文字
&ezweb-4_*****; アイコン番号またはアイコン名 au cdmaOne5000シリーズ、WINシリーズ、Tu-Ka4Xシリーズ、Tu-Ka5Xシリーズ用絵文字
&ezweb_U*****; Unicode au用絵文字のUnicode

[17] XHTMLBasic変換仕様 | Durianマニュアル (2015-02-09 13:40:17 +09:00 版) http://durian.symmetric.jp/dev/doc/technical/xhtmlbasic_conversion.html

XHTMLBasicの仕様では規定されていない絵文字および入力モードについては、Durianにより拡張された構文を使用します。構文の詳細については、開発リファレンスを参照してください。
機能表記方法
絵文字 &i-mode_63647; や &YahooKeitai-C1-21; のようなエンティティ参照
入力モード inputまたはtextarea要素のtext:type属性で、text:type="hiragana"のように指定

[22] 俗に、文字参照のことをエスケープシーケンスと呼ぶことがあります。

[30] RFC 7749 - The "xml2rfc" Version 2 Vocabulary (2016-02-04 22:54:51 +09:00 版) https://tools.ietf.org/html/rfc7749#section-4

<!ENTITY nbsp " ">
<!ENTITY nbhy "‑">
<!ENTITY wj "⁠">

[31] entries for 1EEF0 and 1EEF1 to match unicode-math · w3c/xml-entities@891fe64 (2016-02-09 16:22:46 +09:00 版) https://github.com/w3c/xml-entities/commit/891fe64c7591a75c8f2ad42f9ff0fb93b5b8ef74

[32] Formalize character reference states ( (RReverser著, 2016-05-16 19:59:17 +09:00)) https://github.com/whatwg/html/commit/6c629ac9e5736cdb824293999673de6a0f5ea06d

[34] Fix wording mistake in parsing a character reference ( (zcorpan著, 2016-06-01 22:08:31 +09:00)) https://github.com/whatwg/html/commit/918a56e5d1e9e86695770bf10c1893dd7bae6946

[35] JIS X 0218 は文字参照のために制定されたのでしょうか。

[36] XQuery 3.1: An XML Query Language (2017-03-20 09:23:33 +09:00) https://www.w3.org/TR/2017/REC-xquery-31-20170321/#dt-character-reference

[37] Regression fix: deal with ASCII digits before ASCII hex digits (annevk著, 2017-04-04 20:48:46 +09:00) https://github.com/whatwg/html/commit/f8e75a974ed9185e5b462bc5b2dfb32034bd1145

[38] 文字の制限 (2016-08-30 12:33:40 +09:00) http://www.pcinfo.jpo.go.jp/guide/Content/Rules/MojiSeigen.htm

[39] Editorial: Introduce named character reference state (inikulin著, 2017-04-26 21:34:45 +09:00) https://github.com/whatwg/html/commit/7d3201282d31c30cdba2583445d3727a94390286

[40] Clarify that 0x0D CR is not allowed in entities (Alcaro著, 2017-08-05 09:06:42 +09:00) https://github.com/whatwg/html/commit/efcf0af907c13343d898bf47b5ab004ed59724dd

[41] Clarify that 0x0D CR is not allowed in entities by Alcaro · Pull Request #2893 · whatwg/html (2017-08-07 15:08:59 +09:00) https://github.com/whatwg/html/pull/2893

[42] Handle ambiguous ampersands of arbitrary length (inikulin著, 2017-06-24 04:00:15 +09:00) https://github.com/whatwg/html/commit/ee198945e388bd3298b73fb842fa0175d5b6a0f9

[43] [Parser] Handle ambiguous ampersands of arbitrary length (closes #1257) by inikulin · Pull Request #2731 · whatwg/html (2017-08-25 22:38:02 +09:00) https://github.com/whatwg/html/pull/2731

[44] Regression fix: Lost ampersands in Character Reference State's Anythi… (JonathanO著, 2017-08-16 15:06:21 +09:00) https://github.com/whatwg/html/commit/8d2875784cd4684fd85f4421a1d173902d0e1760

[45] Fix lost ampersands in Character Reference State's Anything Else case. by JonathanO · Pull Request #2913 · whatwg/html (2017-08-25 23:52:01 +09:00) https://github.com/whatwg/html/pull/2913

[46] XML Character Entities (2018-02-12 14:36:03 +09:00) http://www.oasis-open.org/docbook/specs/wd-docbook-xmlcharent-0.3.html

[49] 2023-08-10T08:36:46.500Z https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=100462&item_no=1&attribute_id=1&file_no=1

[50] >>49 外字をXML 実体参照で記述して、マーク付き区間によりPUAか代替表記か切り替えられる。

[111] HTML要素概説

要素名: &xxx;
日付: 1995
説明: 文字参照は、低品質な解説類でしばしば要素やタグとして紹介された。マーク付け宣言をタグとみなすのはまだ理解できるが、 <, > で囲まれない文字参照をタグと強弁するのは無理があろうかと思われる。

[58] HTML要素概説

要素名

&xxx;

日付

1999

説明

Compact HTML の tag list にも element として &xxx; が掲載され、 comments として文字実体参照や十進数文字参照が示されていた。 >>59 また、 iモード対応HTML, iモード対応XHTML の一覧には要素として &XXX; が掲載されていた。 >>60

出典

注釈

文字参照 (character reference) マーク付けの一種。 & から始まり、何らかの文字を表す。

[55] Takesoft/HTML tag help appendex 1 (2013-08-17T15:44:00.000Z, 2024-09-10T13:04:15.323Z) https://www2a.biglobe.ne.jp/~takesoft/help/help_a1.html

”&copy”は、番号指定で書くと”&#169”である。日本語では、文字コード表では、 169番目(16進数で0xA9)の位置に小さい半角のカタカナの”ゥ”を割り当てているためこのようになる。従って、この”&copy”は、用いない方がよい。

[56] Takesoft/HTML tag help appendex 1 (2013-08-17T15:44:00.000Z, 2024-09-10T13:04:24.074Z) https://www2a.biglobe.ne.jp/~takesoft/help/help_a1.html

”®”は、”®”とおなじである。日本語では、0xAE(10進で174)には、小さい半角カタカナの”ョ”が割り当てられている。

[57] Takesoft/HTML tag help appendex 1 (2013-08-17T15:44:00.000Z, 2024-09-10T13:04:24.074Z) https://www2a.biglobe.ne.jp/~takesoft/help/help_a1.html