JOHAB

[1] KS C 5601 は大韓民国の符号化文字集合規格です。 1974年に初版が制定されました。1997年には規格番号が KS X 1001 に変更されています。

規格の版

[55] 국가표준 상세 | e나라 표준인증, 2024-11-15T05:27:03.000Z https://standard.go.kr/KSCI/standardIntro/getStandardSearchView.do?ksNo=KSX1001

[56] KS C 5601‐1974
- [64] 1974-09-27 제정 (制定)
- [71] >>55 で閲覧可能 19ページ 2024-11-15T05:40:13.300Z
[57] KS C 5601‐1982
- [29] Code for Information Interchange (Hangul and Chinese Character)
- [10] この版まで、 ISO/IEC 646の版 (現在の KS X 1003) と Nバイトハングル (現在の附属書4) だけを規定
  - [28] 後者のみと説明されることがあるが、おそらくハングル符号としてはという意味。 >>56 には ISO/IEC 646の版も含まれているので、 >>57 にもあったろう。
- [30] 16ビット符号はこの版から附属書として追加
  - [31] ということはその意味でも >>28 は不正確で、本体では、と留保しなければならない。あるいは >>56 ではということに。
[58] KS C 5601‐1987
- [34] この版から完成形が本体に。
- [40] ISO/IEC 646の版は削除 (KS X 1003 に分離)
- [77] Nバイトハングルは本体から附属書に。
- [11] 1987.7. 付規格原案
  - [27] Wayback Machine, 2025-06-17T14:38:49.000Z https://web.archive.org/web/20190301013402/http://125.60.48.13/home4/dl_files/edu/001/IM1199204807.pdf
[59] KS C 5601‐1989
[60] KS C 5601‐1992
- [78] 16ビット符号から現行組合型に変更 (非互換)
[54] ?
- [65] 1997-08-20 개정 (改定)
  - [69] >>55 エラーで閲覧不可 2024-11-15T05:33:26.400Z
[61] KS X 1001:1998
- [66] 1998-12-31 改定
  - [70] >>55 エラーで閲覧不可 2024-11-15T05:33:26.400Z
[62] KS X 1001:2002
- [67] 2002-12-30 改定
- [72] >>55 で閲覧可能 64ページ
[63] KS X 1001:2004
- [68] 2004-12-28 改定
  - [53] >>55 で2014年版が閲覧可能 46ページ (途中ページがエラーメッセージの入った文書になっている、符号表なし) 2024-11-15T05:42:34.500Z
- [49] 2009-12-29 확인 (確認)
  - [73] >>55 エラーで閲覧不可 2024-11-15T05:42:50.200Z
- [50] 2014-12-17 確認
  - [74] >>55 で2009年版が閲覧可能 116ページ 2024-11-15T05:44:41.100Z
- [51] 2019-12-27 確認
  - [75] >>55 で2019年版が閲覧可能 116ページ 2024-11-15T05:44:41.100Z
- [52] 2024-10-30 確認
  - [76] >>55 で2004年版が閲覧可能 116ページ 2024-11-15T05:44:41.100Z

符号化文字集合

[32] 歴代 KS X 1001 は多数の符号化文字集合を規定しています。 KS X 1001:2004 解説によれば各版に次の内容が含まれていました。

r: 版
7r: 7ビットローマ字
7h: 7ビットハングル
7hr: 7ビットハングル+ローマ字 (SI/SO)
8hr: 8ビットハングル+ローマ字
c: 7ビット制御文字
ebcdic: EBCDIC
16j: (旧) 16ビット組合型
johab: (新) 組合型
942: 94² 完成型

r: 1974
7r: 本体
7h: 本体
7hr: 本体
8hr: 本体
c: 附属書1

r: 1982
c: 本体, 附属書2
7r: 本体
7h: 本体
7hr: 本体
8hr: 附属書1
ebcdic: 附属書1
16j: 附属書1

r: 1987
942: 本体 F = 3/1
16j: 附属書3
7h: 附属書4
7hr: 附属書4

r: 1989
942: 本体 F = 4/3
16j: 附属書3
7h: 附属書4
7hr: 附属書4

r: 1992
942: 本体 F = 4/3
johab: 附属書3
7h: 附属書4
7hr: 附属書4

r: 1998
942: 本体 (+2字) F = 4/3
johab: 附属書3
7h: 附属書4
7hr: 附属書4

r: 2002
942: 本体 (+2字+1字) F = 4/3
johab: 附属書3
7h: 附属書4
7hr: 附属書4

r: 2004
942: 本体 (+2字+1字) F = 4/3
johab: 附属書3
7h: 附属書4
7hr: 附属書4

完成型符号化文字集合

[2] 完成 (Wansung) 型: 1987年版以後の規格本体で規定されています。ハングルの結合済み音節 (現代ハングルの主要なもののみ。) が含まれる 94² の符号化図形文字集合 (JIS X 0208 型文字集合) です。

文字集合

[3] 符号化文字集合:

1区記号
2区記号 (69文字)
3区 KS X 1001 相当の全角文字
4区ハングル字母
5区羅馬数字, 希臘文字 (合計68文字)
6区罫線素辺 (68文字)
7区記号 (79文字)
8区発音記号, 丸付き文字など (合計91文字)
9区発音記号, 括弧付き文字など
10区平仮名 (83文字)
11区片仮名 (86文字)
12区キリル文字 (66文字)
16区1点〜40区94点ハングル音節 (2350文字)
41区私用域 >>18
42区1点〜93区94点漢字 (合計4888文字、重複分268文字、実質4620文字)
94区私用域 >>18

(1987年版〜1997年版は同じ符号化文字集合)

1998年版で2文字追加されました。

2区70点 U+20AC
2区71点 U+00AE

2002年版で1文字追加されました。

韓国郵便記号

[4] 1987年版規格票 (英語) によれば、文字集合は次のように分類されているそうです出典不詳。

Special Character (432文字)
Digit (30文字)
An Element of Hangul Alphabet (94文字)
Roman Character (52文字)
Greek Character (48文字)
Fragment of Line (68文字)
Hangul (2350文字)
Chinese Character (4888文字)
Latin Character (27文字)
Japanese Character (169文字)
Russian characters (ママ) (66文字)

(合計 8224文字)

[18] Microsoft Word - KOREAWRD.DOC - KOREAPRN.PDF, 1999-05-27T12:00:00.000Z, 2022-05-03T07:02:35.886Z http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_5.0a_Docs/ACRO_SUP/KOREAPRN.PDF#page=12

[5] 漢字集合: 漢字は発音順 (当然韓国語のハングルの順序) で整列されています。発音が複数ある文字は重複符号化されています。同じ字が 4つもあったりするのが藁えます (藁えばいいというものでもありませんが)。

[25] KS X 1004:2004 本体4によると次のダイアクリティカルマークは前置型 non-spacing文字

1区7点
2区5点〜 2区13点
3区62点, 3区64点, 3区94点

[38] KS X 1001 は非漢字非ハングルに名前を与えています。 ISO/IEC 10646 の文字の名前とは違う韓国語の名前です。

[41] 00000001.PDF - 149.pdf, 2022-11-02T03:16:23.000Z, 2022-12-10T06:08:22.048Z https://itscj.ipsj.or.jp/ir/149.pdf

2002年の拡張

[13] KS X 1001:2002 でまた文字が追加されたそうです。2区72点に新しく出来た韓国の郵便マーク (○の中に〒の一番上の一が○になった文字 (ハングル))

[14] >>13 の情報源は JTC1/SC2/WG2 N 2565 で、韓国 JTC1/SC2 の人の文章。

[15] misc/55341: Adding ko_KR.CP949 locale http://lists.freebsd.org/pipermail/freebsd-bugs/2003-August/002657.html : CP949 の実装だけど、 GR 部分が KS X 1001:2002 と書いてあって、実際 SPECIAL に新しい 0xA2E8 も含まれている。でもまだ Windoze では使えない (Unicode に入ってないから) のでは。で、いずれ Unicode に入ったとして、 M$ は ANSI codepage にもこの文字追加するかな? どうかな? 2003-10-04 22:29:50 +00:00

[16] 郵便記号が UCS に入りました。

U+327E CIRCLED HANDUL IEUNGU

(ISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1)

西紀2004年版規格

漢字字形

K字形

外字

[23] KS X 1001:2004 附属書2によると、 41区が外字領域A、 94区が外字領域Bです. (本体4にも言及あり)

[24] KS X 1001:2004 本体4によると、含まれないハングル音節は、 “채움”、初声、中声、終声の順に記述します。

[42] ISO-IR でも41区と94区は外字とされています。ただし局所的に使うことは認められても、情報交換で使うことは禁止されていました。 >>41

[87] Encoding Standard の EUC-KR は外字に対応しておらず、 U+FFFD に置き換えるなどエラーとして扱ってしまいます。

符号化表現

[6] 符号拡張法: 1987年版は ISO-IR の149番で登録されています。終端バイトには 4/3 (C) が割当てられています。

すなわち、 ISO/IEC 2022 符号拡張法の環境下で使う指示シーケンスは、

G0 に指示: 1/11 (ESC) 2/4 ($) 2/8 (() 4/3 (C)
G1 に指示: 1/11 (ESC) 2/4 ($) 2/9 ()) 4/3 (C)
G2 に指示: 1/11 (ESC) 2/4 ($) 2/10 (*) 4/3 (C)
G3 に指示: 1/11 (ESC) 2/4 ($) 2/11 (+) 4/3 (C)

[33] ISO-IR に登録される前の西暦1987年版規格は私用終端バイト 3/1 (1) を使うとしていました。次の西暦1989年版規格で正式に登録された 4/3 に改められました。 KS X 1001:2004 解説2

[35] 西暦1998年版規格で2文字、西暦2002年版規格で1文字追加されたにも関わらず、終端バイトは変更されていません (本来は仕様違反)。 KS X 1001:2004 解説5によると西暦2004年規格改正時に課題となったものの、現在までそのまま放置されています。

[19] KS X 1001:2004 は ISO/IEC 2022 に基づく利用方法を定義しています。

[20] ISO/IEC 2022 7ビット符号
- G1, G2, G3 のいずれかに指示 (終端バイト 4/3)
- 固定シフトで左側に呼び出し
[21] ISO/IEC 2022 8ビット符号
- G1, G2, G3 のいずれかに指示 (終端バイト 4/3)
- 固定シフトで右側に呼び出し
- デフォルトでエスケープシーケンスなしで利用可能

[22] G0 に指示する方法を示していない点に注意。

EUC-KR, DEC Korean, Shift-KS

Unicode との対応

[43] CJK互換漢字

[44] >>43 初期と2文字の変更あり

[45] ノート:u827c-k - GlyphWiki, 2023-08-11T14:11:55.000Z https://glyphwiki.org/wiki/Talk:u827c-k

[46] >>45 出典Kの字形は KS X 1001 と違う形に変わっていたりするらしい。

組合型符号化文字集合

[7] KS X 1001 の附属書3は組合 (Johab) 型の符号化文字集合を規定しています。この符号化文字集合は組合型, johab, Hangul johab, 組合せ型コード, two‐byte johab, tbj などと呼ばれています。

この符号化文字集合では、ハングル音節1文字が通常ハングル字母 3文字分の組合せで構成されることを利用し、機械的に現代ハングルの全組合せを16ビット空間内に割当ています。

[8] ハングルは最上位ビットが常に 1 で、以後5ビットずつ初声, 中声, 終声と符号化します。

#	初声	終声	中声
1		(零)
2	k	k
3	kk	kk	a
4	n	ks	ae
5	t	n	ya
6	tt	nc	yae
7	r	nh	eo
8	m	t
9	p	l
10	pp	lk	e
11	s	lm	yeo
12	ss	lp	ye
13	(零)	ls	o
14	c	lth	wa
15	cc	lph	wae
16	ch	lh
17	kh	m
18	th		oe
19	ph	p	yo
20	h	ps	u
21		s	weo
22		ss	we
23		ng	wi
24		c
25		ch
26		kh	yu
27		th	eu
28		ph	yi
29		h	i

(空欄はなし)

8ビットの2バイト符号化文字集合としてみると、次のようになります。

第1バイト: 0x84〜0xD3
第2バイト: 0x41〜0x7E, 0x81〜0xFE (正確には、 0x41〜0x51, 0x53〜9x5D, 0x61〜0x71, 0x73〜0x7D, 0x81〜0x91, 0x93〜0x9D, 0xA1〜0xB1, 0xB3〜0xBD, 0xC1〜0xD1, 0xD3〜0xDD, 0xE1〜0xF1, 0xF3〜0xFD)

[9] ハングル以外:

記号・漢字
第1バイト
0xD8〜0xDE, 0xE0〜0xF9
第2バイト
0x31〜0x7E, 0x91〜0xFE

私用域
第1バイト
0xD8
第2バイト
0x31〜0x7E, 0x91〜0xFE

[26] ハングル以外は組合型と同じ文字集合。

エスケープシーケンス

ANSIエスケープシーケンス

DOCS

比較

[79] Johab の実装の中には、 ICU の glibc-JOHAB-2.3.3 のように 0x5C を U+20A9 とするものと、 ICU の java-Johab-1.3_P, windows-1361-2000 のように U+005C とするものがあります。

実装

[84] 88939 - Korean JOHAB encoding <-> Unicode converter, 2025-11-17T08:26:05.000Z https://bugzilla.mozilla.org/show_bug.cgi?id=88939

[85] 80111 - johab converter should not include ASCII, 2025-11-17T08:26:55.000Z https://bugzilla.mozilla.org/show_bug.cgi?id=80111

[86] 71489 - RFE: JOHAB <-> Unicode converter for Korean locale, 2025-11-17T08:29:31.000Z https://bugzilla.mozilla.org/show_bug.cgi?id=71489

[80] add charset prober for Johab Korean (!1) · マージリクエスト · uchardet / uchardet · GitLab, 2025-10-26T12:45:11.000Z https://gitlab.freedesktop.org/uchardet/uchardet/-/merge_requests/1

人工的な利用例

[83] Korean Language (Johab), 2025-10-28T13:53:51.000Z https://charsetplus.tripod.com/HTMLs/Korean/Korea_Johab.htm

歴史

[12] 2009年10月には ASCII バイト列の解釈が組合型と ASCII では異なることがあるとして、 HTML5 で利用するべきではないと規定されました。

(X)HTML5 Tracking (2009-10-28 07:06:16 +09:00 版) http://html5.org/tools/web-apps-tracker?from=4366&to=4367

N‐バイト・ハングル符号化文字集合

歴史

[17] Bug 16947 – Consider adding U+327E to the Korean index (2015-05-13 19:16:11 +09:00 版) https://www.w3.org/Bugs/Public/show_bug.cgi?id=16947

[39] 利用者-会話:bright - GlyphWiki, 2024-11-15T05:21:47.000Z https://glyphwiki.org/wiki/User-talk:bright

[81] Code Conversion Tools, 2025-10-27T07:40:30.000Z https://zsigri.tripod.com/fontboard/cjk/convert.html

[82] >>81 配布ファイルより

CHAMEL rewrites a hangul text, dBASE II, or III file to a different
hangul code scheme.  Check options for covered hangul code schemes.

Options: F - KS fixed hangul code format
         K - Sambo KSSM combi hangul
         1 - Sambo combi hangul (no hanja)
         2 - Samsong SPC combi hangul
         3 - Goldstar MIGHTY combi hangul
         4 - Old KS combi hangul
         5 - DKBII combi hangul
         6 - User defined combi hangul
         7 - 7 bit fixed hangul