[1] KS C 5601 は大韓民国の符号化文字集合規格です。 1974年に初版が制定されました。1997年には規格番号が KS X 1001 に変更されています。
[32] 歴代 KS X 1001 は多数の符号化文字集合を規定しています。 KS X 1001:2004 解説によれば各版に次の内容が含まれていました。
[2] 完成型: 1987年版以後の規格本体で規定されています。 ハングルの結合済み音節 (現代ハングルの主要なもののみ。) が含まれる 942 の符号化図形文字集合 (JIS X 0208 型文字集合) です。
[3] 符号化文字集合:
全角文字
(1987年版〜1997年版は同じ符号化文字集合)
1998年版で2文字追加されました。
2002年版で1文字追加されました。
[4] 1987年版規格票 (英語) によれば、 文字集合は次のように分類されているそうです 出典不詳。
(合計 8224文字)
[5] 漢字集合: 漢字は発音順 (当然韓国語のハングルの順序) で整列されています。 発音が複数ある文字は重複符号化されています。同じ字が 4つもあったりするのが藁えます (藁えばいいというものでもありませんが)。
[25]
KS X 1004:2004 本体4によると次のダイアクリティカルマークは前置型
[38] KS X 1001 は非漢字非ハングルに名前を与えています。 ISO/IEC 10646 の文字の名前とは違う韓国語の名前です。
[41] 00000001.PDF - 149.pdf, , https://itscj.ipsj.or.jp/ir/149.pdf
[13] KS X 1001:2002 でまた文字が追加されたそうです。2区72点に新しく出来た韓国の郵便マーク (○の中に〒の一番上の一が○になった文字 (ハングル))
[14] >>13 の情報源は JTC1/SC2/WG2 N 2565 で、韓国 JTC1/SC2 の人の文章。
[15] misc/55341: Adding ko_KR.CP949 locale http://lists.freebsd.org/pipermail/freebsd-bugs/2003-August/002657.html : CP949 の実装だけど、 GR 部分が KS X 1001:2002 と書いてあって、実際 SPECIAL
に新しい 0xA2E8
も含まれている。でもまだ Windoze では使えない (Unicode に入ってないから) のでは。で、いずれ Unicode に入ったとして、 M$ は ANSI codepage にもこの文字追加するかな? どうかな?
(ISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1)
[23] KS X 1001:2004 附属書2によると、 41区が外字領域A、 94区が外字領域Bです. (本体4にも言及あり)
[24] KS X 1001:2004 本体4によると、 含まれないハングル音節は、 “채움”、 初声、 中声、 終声の順に記述します。
[42] ISO-IR でも41区と94区は外字とされています。 ただし局所的に使うことは認められても、 情報交換で使うことは禁止されていました。 >>41
[6] 符号拡張法:
1987年版は ISO-IR の149番で登録されています。
終端バイトには 4/3
(C)
が割当てられています。
すなわち、 ISO/IEC 2022 符号拡張法の環境下で使う指示シーケンスは、
1/11
(ESC
) 2/4
($) 2/8
(() 4/3
(C)1/11
(ESC
) 2/4
($) 2/9
()) 4/3
(C)1/11
(ESC
) 2/4
($) 2/10
(*) 4/3
(C)1/11
(ESC
) 2/4
($) 2/11
(+) 4/3
(C)[33]
ISO-IR に登録される前の版規格は私用終端バイト
3/1
(1)
を使うとしていました。
次の版規格で正式に登録された 4/3
に改められました。
KS X 1001:2004 解説2
[35] 版規格で2文字、 版規格で1文字追加されたにも関わらず、 終端バイトは変更されていません (本来は仕様違反)。 KS X 1001:2004 解説5によると規格改正時に課題となったものの、 現在までそのまま放置されています。
[19] KS X 1001:2004 は ISO/IEC 2022 に基づく利用方法を定義しています。
[45] ノート:u827c-k - GlyphWiki, https://glyphwiki.org/wiki/Talk:u827c-k
[7] KS X 1001 の附属書3は組合型の符号化文字集合を規定しています。
この符号化文字集合は組合型
, johab
, Hangul johab
,
組合せ型コード
, two‐byte johab
, tbj
などと呼ばれています。
この符号化文字集合では、ハングル音節1文字が通常ハングル字母 3文字分の組合せで構成されることを利用し、 機械的に現代ハングルの全組合せを16ビット空間内に割当ています。
[8] ハングルは最上位ビットが常に 1
で、
以後5ビットずつ初声, 中声, 終声と符号化します。
# | 初声 | 終声 | 中声 |
1 | (零) | ||
2 | k | k | |
3 | kk | kk | a |
4 | n | ks | ae |
5 | t | n | ya |
6 | tt | nc | yae |
7 | r | nh | eo |
8 | m | t | |
9 | p | l | |
10 | pp | lk | e |
11 | s | lm | yeo |
12 | ss | lp | ye |
13 | (零) | ls | o |
14 | c | lth | wa |
15 | cc | lph | wae |
16 | ch | lh | |
17 | kh | m | |
18 | th | oe | |
19 | ph | p | yo |
20 | h | ps | u |
21 | s | weo | |
22 | ss | we | |
23 | ng | wi | |
24 | c | ||
25 | ch | ||
26 | kh | yu | |
27 | th | eu | |
28 | ph | yi | |
29 | h | i |
(空欄はなし)
8ビットの2バイト符号化文字集合としてみると、次のようになります。
0x84
〜0xD3
0x41
〜0x7E
,
0x81
〜0xFE
(正確には、 0x41
〜0x51
,
0x53
〜9x5D
,
0x61
〜0x71
,
0x73
〜0x7D
,
0x81
〜0x91
,
0x93
〜0x9D
,
0xA1
〜0xB1
,
0xB3
〜0xBD
,
0xC1
〜0xD1
,
0xD3
〜0xDD
,
0xE1
〜0xF1
,
0xF3
〜0xFD
)[9] ハングル以外:
[12] 2009年10月には ASCII バイト列の解釈が組合型と ASCII では異なることがあるとして、 HTML5 で利用するべきではないと規定されました。
[10] KS X 1001 の附属書4は N‐Byte ハングルと呼ばれる符号化文字集合を規定しています。 1982年版ではこの符号化文字集合だけが規格本体で規定されていました。
[11] 7ビット及び8ビットの符号化文字集合であり、 51文字の基本的なハングル字母が含まれています CJK.INF。
[27] KS X 1001:2004 附属書4は7ビット符号であるとしています。
[29]
ラテン文字と併用するときは、
KS X 1003 SI
の後にラテン文字集合、
KS X 1003 SO
の後にハングル集合。
[30] (併用するときは、とあるのでしないで単体での利用も想定されているらしい。)
[31]
ラテン文字用の集合が何か明記されていないが、
KS X 1003 か。
C0制御文字も明記されていないが、
SI
, SO
が
KS X 1003
と明記されているので、C0制御文字も
KS X 1003 のもの (≒ ISO 646) か。
明記されていないが SP
,
DEL
もあるのか。
[34] この94集合は ISO-IR に登録されていません。 KS X 1001:2004 解説3によれば以前の改正時にこれが課題となりましたが、 未解決のまま現在に至っています。
[17] Bug 16947 – Consider adding U+327E to the Korean index ( 版) https://www.w3.org/Bugs/Public/show_bug.cgi?id=16947