[1] KS C 5601 は大韓民国の符号化文字集合規格です。 1974年に初版が制定されました。1997年には規格番号が KS X 1001 に変更されています。
[32] 歴代 KS X 1001 は多数の符号化文字集合を規定しています。 KS X 1001:2004 解説によれば各版に次の内容が含まれていました。
[2] 完成型: 1987年版以後の規格本体で規定されています。 ハングルの結合済み音節 (現代ハングルの主要なもののみ。) が含まれる 942 の符号化図形文字集合 (JIS X 0208 型文字集合) です。
[3] 符号化文字集合:
全角文字
(1987年版〜1997年版は同じ符号化文字集合)
1998年版で2文字追加されました。
2002年版で1文字追加されました。
[4] 1987年版規格票 (英語) によれば、 文字集合は次のように分類されているそうです 出典不詳。
(合計 8224文字)
[5] 漢字集合: 漢字は発音順 (当然韓国語のハングルの順序) で整列されています。 発音が複数ある文字は重複符号化されています。同じ字が 4つもあったりするのが藁えます (藁えばいいというものでもありませんが)。
[25]
KS X 1004:2004 本体4によると次のダイアクリティカルマークは前置型
[38] KS X 1001 は非漢字非ハングルに名前を与えています。 ISO/IEC 10646 の文字の名前とは違う韓国語の名前です。
[41] 00000001.PDF - 149.pdf, , https://itscj.ipsj.or.jp/ir/149.pdf
[13] KS X 1001:2002 でまた文字が追加されたそうです。2区72点に新しく出来た韓国の郵便マーク (○の中に〒の一番上の一が○になった文字 (ハングル))
[14] >>13 の情報源は JTC1/SC2/WG2 N 2565 で、韓国 JTC1/SC2 の人の文章。
[15] misc/55341: Adding ko_KR.CP949 locale http://lists.freebsd.org/pipermail/freebsd-bugs/2003-August/002657.html : CP949 の実装だけど、 GR 部分が KS X 1001:2002 と書いてあって、実際 SPECIAL に新しい 0xA2E8 も含まれている。でもまだ Windoze では使えない (Unicode に入ってないから) のでは。で、いずれ Unicode に入ったとして、 M$ は ANSI codepage にもこの文字追加するかな? どうかな?
(ISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1)
[23] KS X 1001:2004 附属書2によると、 41区が外字領域A、 94区が外字領域Bです. (本体4にも言及あり)
[24] KS X 1001:2004 本体4によると、 含まれないハングル音節は、 “채움”、 初声、 中声、 終声の順に記述します。
[42] ISO-IR でも41区と94区は外字とされています。 ただし局所的に使うことは認められても、 情報交換で使うことは禁止されていました。 >>41
[6] 符号拡張法:
1987年版は ISO-IR の149番で登録されています。
終端バイトには 4/3 (C)
が割当てられています。
すなわち、 ISO/IEC 2022 符号拡張法の環境下で使う指示シーケンスは、
1/11 (ESC) 2/4 ($) 2/8 (() 4/3 (C)1/11 (ESC) 2/4 ($) 2/9 ()) 4/3 (C)1/11 (ESC) 2/4 ($) 2/10 (*) 4/3 (C)1/11 (ESC) 2/4 ($) 2/11 (+) 4/3 (C)[33]
ISO-IR に登録される前の版規格は私用終端バイト
3/1 (1)
を使うとしていました。
次の版規格で正式に登録された 4/3
に改められました。
KS X 1001:2004 解説2
[35] 版規格で2文字、 版規格で1文字追加されたにも関わらず、 終端バイトは変更されていません (本来は仕様違反)。 KS X 1001:2004 解説5によると規格改正時に課題となったものの、 現在までそのまま放置されています。
[19] KS X 1001:2004 は ISO/IEC 2022 に基づく利用方法を定義しています。
[45] ノート:u827c-k - GlyphWiki, https://glyphwiki.org/wiki/Talk:u827c-k
[7] KS X 1001 の附属書3は組合型の符号化文字集合を規定しています。
この符号化文字集合は組合型
, johab
, Hangul johab
,
組合せ型コード
, two‐byte johab
, tbj
などと呼ばれています。
この符号化文字集合では、ハングル音節1文字が通常ハングル字母 3文字分の組合せで構成されることを利用し、 機械的に現代ハングルの全組合せを16ビット空間内に割当ています。
[8] ハングルは最上位ビットが常に 1 で、
以後5ビットずつ初声, 中声, 終声と符号化します。
| # | 初声 | 終声 | 中声 |
| 1 | (零) | ||
| 2 | k | k | |
| 3 | kk | kk | a |
| 4 | n | ks | ae |
| 5 | t | n | ya |
| 6 | tt | nc | yae |
| 7 | r | nh | eo |
| 8 | m | t | |
| 9 | p | l | |
| 10 | pp | lk | e |
| 11 | s | lm | yeo |
| 12 | ss | lp | ye |
| 13 | (零) | ls | o |
| 14 | c | lth | wa |
| 15 | cc | lph | wae |
| 16 | ch | lh | |
| 17 | kh | m | |
| 18 | th | oe | |
| 19 | ph | p | yo |
| 20 | h | ps | u |
| 21 | s | weo | |
| 22 | ss | we | |
| 23 | ng | wi | |
| 24 | c | ||
| 25 | ch | ||
| 26 | kh | yu | |
| 27 | th | eu | |
| 28 | ph | yi | |
| 29 | h | i |
(空欄はなし)
8ビットの2バイト符号化文字集合としてみると、次のようになります。
0x84〜0xD30x41〜0x7E,
0x81〜0xFE
(正確には、 0x41〜0x51,
0x53〜9x5D,
0x61〜0x71,
0x73〜0x7D,
0x81〜0x91,
0x93〜0x9D,
0xA1〜0xB1,
0xB3〜0xBD,
0xC1〜0xD1,
0xD3〜0xDD,
0xE1〜0xF1,
0xF3〜0xFD)[9] ハングル以外:
[79]
Johab の実装の中には、
ICU
の
glibc-JOHAB-2.3.3
のように 0x5C を U+20A9
とするものと、
ICU
の
java-Johab-1.3_P,
windows-1361-2000
のように
U+005C
とするものがあります。
[12] 2009年10月には ASCII バイト列の解釈が組合型と ASCII では異なることがあるとして、 HTML5 で利用するべきではないと規定されました。
[17] Bug 16947 – Consider adding U+327E to the Korean index ( 版) https://www.w3.org/Bugs/Public/show_bug.cgi?id=16947
[39] 利用者-会話:bright - GlyphWiki, https://glyphwiki.org/wiki/User-talk:bright