* 文字コード

[SEE[ [[クメール文字の文字コード]] ]]


[29] 
[CITE[Fonts | Khmer Fonts | Cambodian Fonts | Khmer Unicode - All Khmer Unicode Cambodian Information Center]], [[cambodia.org]], [TIME[2025-08-01T08:24:48.000Z]] <http://www.cambodia.org/fonts/>



[23] 
[CITE@en-US[Help - Can i install Khmer unicode font (Cambodian font) on my Galaxy | Early Bird Club]], [TIME[2025-08-01T07:08:19.000Z]], [TIME[2025-08-01T07:14:50.176Z]] <https://forum.earlybird.club/threads/can-i-install-khmer-unicode-font-cambodian-font-on-my-galaxy.268606/>



** Unicode

- [1] 
[CITE[FAQ and Resources on Khmer in Unicode]], [TIME[2004-08-06T05:41:16.000Z]], [TIME[2025-07-29T08:42:28.045Z]] <https://www.khmerfonts.info/bauhahn/Welcome.html>



[26] 
[CITE[FAQ and Resources on Khmer in Unicode]], [TIME[2025-08-01T07:50:12.000Z]], [TIME[2006-03-15T12:24:37.378Z]] <https://web.archive.org/web/20060315122255/http://www.bauhahnm.clara.net/Khmer/Welcome.html>




[3] 
[CITE[How to make a khmer font | Khmer fonts — ​ពុម្ព​អក្សរ​ខ្មែរ — Polices khmères]], [TIME[2025-07-08T12:26:24.000Z]] <https://www.khmerfonts.info/howto.php>


[4] 
[CITE[The state of khmer unicode | Khmer fonts — ​ពុម្ព​អក្សរ​ខ្មែរ — Polices khmères]], [TIME[2025-07-08T13:04:34.000Z]] <https://www.khmerfonts.info/unicode.php>

[5] >>3 >>4 [[Unicode]] にない文字がまだいくつかある


[30] 
[CITE[Character list | Khmer fonts — ​ពុម្ព​អក្សរ​ខ្មែរ — Polices khmères]], [TIME[2025-08-01T09:25:26.000Z]] <https://www.khmerfonts.info/characterlist.php>



[25] 
[CITE[Menu Francais]], [TIME[2025-08-01T07:48:41.000Z]], [TIME[2006-03-12T10:46:15.269Z]] <https://web.archive.org/web/20060312101357/http://www.cfcambodge.org/Anglais/KhmerFont.htm>

[27] 
[CITE[Khmer OpenType specification]], [TIME[2025-08-01T07:50:47.000Z]], [TIME[2005-11-22T13:30:03.820Z]] <https://web.archive.org/web/20051122132755/http://www.microsoft.com/typography/otfntdev/khmerot/default.htm>



[2] 
[CITE@ja[XユーザーのMichiさん: 「若年層がクメール文字を使わずラテンを多用することを懸念する記事。確かにSNSを見るとクメール文字よりも入力しやすいのか、流行りからか、ラテンばかり。記事によれば、かつて宗主国フランスはクメール文字をラテンに置き換えようとしていたと。知らなかった。https://t.co/pOK3g1jypv」 / X]], [TIME[午前9:01 · 2020年9月5日][2020-09-05T00:01:17.000Z]], [TIME[2024-04-18T09:31:53.000Z]] <https://twitter.com/kruphlau/status/1302034027495424005>


[6] 半分はずっと内戦やってて工業化が遅れた自国の責任。もう半分は現地事情を無視して複雑な符号化を強引に押し付けてクメール文字の実装を引き伸ばした欧米人の責任。しかし欧米人は仕様だけ作ってあとは知らんふり、
文化がどうなろうと知ったことではないからなあ。

[7] 
[[Unicode帝国主義]]、経済的植民地主義と非難されても擁護のしようがない嫌な事件だったね。


*** 実装

[19] 
[[KhmerOS]]

[20] 
[CITE@en[Khmer Open Source - Browse Files at SourceForge.net]], [TIME[2025-08-01T07:06:06.000Z]] <https://sourceforge.net/projects/khmer-open-source/files/>

[21] [CITE@en[All Khmer Unicode Fonts : Free Download, Borrow, and Streaming : Internet Archive]], [TIME[2025-08-01T07:06:30.000Z]] <https://archive.org/details/all-khmer-unicode-fonts>


[22] 
[CITE@en[Download All Khmer Unicode Fonts | Society for Better Books in Cambodia]], [[Society for Better Books in Cambodia]], [TIME[2025-08-01T07:07:42.000Z]] <https://sbbic.org/2014/06/25/download-all-khmer-unicode-fonts>




*** 文字順序問題


[14] 
[[Unicode]] は[[クメール文字]]を極めて複雑な仕組みで符号化したにも関わらず、
その用法を十分厳密に定めることを怠り、
実装によって[[結合文字]]が異なる順序で用いられるなどの[[相互運用性]]の問題が長年放置されてきました。

[16] 
基本的には[[結合文字]]の配置順の問題のようです。 [[Unicode]] には[[正準再順序付け]]のような仕組みがあり、
[[ラテン文字]]などにはおおむねうまく機能している (あくまでおおむね。) ものの、
[[クメール文字]]に対しては碌に定義されておらず、その方面の改善も期待できないようです。


[15] 
また、複雑な組み合わせになると実装によって正しく表示できないという問題が起こっています。
少数民族言語などに皺寄せが行きがちです。

[17] 
これについてはどのような[[Unicode文字]]の組み合わせでどのような[[グリフ]]が表示されることが期待されるのか、
[[フォント]]はどのような[[グリフ]]を実装することが期待されるのか、
といったことを具体的に列挙するような規格が本質的な解決策になるのでしょうが、
そうしたものを整備しようという動きは無さそうで、
混乱は続きそうです。

;; [18] 網羅的な規定を設けず、[[文字素]]として利用可能な[[基底文字]]と[[結合文字]]を用意すれば問題解決ということにしてしまうのは、
[[クメール文字]]に限らず [[Unicode]] の全体的な態度であり、[[相互運用性]]の問題を引き起こしがちです。

[31] >>30 がそれに近いのでしょうが、
>>11
を見るにこれでは十分ではなさそうですね。


[9] 
[CITE@en-US[khmer encoding structure - Institute of Digital Research & Innovation]], [TIME[2025-07-29T09:49:30.000Z]] <https://www.idri.edu.kh/khmer-encoding-structure/>

[24] 
[CITE@en[GitHub - clo-cambodia/pheasakhmer.com]], [TIME[2025-08-01T07:24:19.000Z]] <https://github.com/clo-cambodia/pheasakhmer.com/>


[10] 
[CITE@ja[utn61-Khmer_Encoding_Structure_V2.pdf]], [TIME[2025-02-06T17:57:30.000Z]], [TIME[2025-07-29T09:50:27.247Z]] <https://www.unicode.org/notes/tn61/utn61-Khmer_Encoding_Structure_V2.pdf>



- [11] [CITE@en[GitHub - sillsdev/khmer-character-specification: Khmer Character Specification]], [TIME[2025-08-01T05:49:13.000Z]] <https://github.com/sillsdev/khmer-character-specification/>
- [33] 
[CITE@en[GitHub - sillsdev/khmer-normalizer: Normalize Khmer strings according to https://www.unicode.org/L2/L2022/22290-khmer-encoding.pdf]], [TIME[2025-08-01T10:01:07.000Z]] <https://github.com/sillsdev/khmer-normalizer>
- [13] 
[CITE@en-us[UTN #61: Khmer Encoding Structure]], [TIME[2025-02-07T16:29:20.000Z]], [TIME[2025-08-01T05:50:24.460Z]] <https://www.unicode.org/notes/tn61/>


***shaping


[28] 
[CITE[Shaping: Khmer OpenType specification]], [TIME[2025-08-01T07:51:48.000Z]], [TIME[2005-09-08T06:29:20.032Z]] <https://web.archive.org/web/20050908062827/http://www.microsoft.com/typography/otfntdev/khmerot/shaping.htm>




*** 日付文字

[8] 
[CITE@ja[DATE: 2002-02-13 - 02101-KhmerLunarDates.pdf]], [TIME[2002-02-17T07:53:06.000Z]], [TIME[2025-07-29T08:43:33.612Z]] <https://www.khmerfonts.info/bauhahn/02101-KhmerLunarDates.pdf>


*** 入力正規化

-[12] [CITE@en[GitHub - seanghay/khmernormalizer: A missing toolkit for Khmer Natural Language Processing.]], [TIME[2025-08-01T09:58:56.000Z]] <https://github.com/seanghay/khmernormalizer>
- [36] [CITE@en[GitHub - seanghay/unicode2legacy-js: Khmer Unicode to Limon Converter]], [TIME[2025-08-01T10:05:52.000Z]] <https://github.com/seanghay/unicode2legacy-js>
-- [37] [CITE@km[Khmer Unicode to Limon]], [TIME[2025-07-29T09:50:56.000Z]], [TIME[2025-08-01T10:06:15.678Z]] <https://khmer.floo.app/>


[32] >>12 [[自然言語処理]]のためのデータ作成のための[[正規化]]器。
[[クメール文字]]の表現については >>33 と同等とみられる。
それ以外の基礎的な部分は[[ベンガル文字]]用の >>35 を流用している。

[38] >>37 の実装が >>36。 >>36 は >>12 および変換の実装を使っている。
変換の実装については[[クメール文字の文字コード]]を参照。

- [34] 
[CITE@ja[Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New Datasets for Bengali-English Machine Translation - 2020.emnlp-main.207.pdf]], [TIME[2020-11-11T21:31:33.000Z]], [TIME[2025-08-01T10:01:56.732Z]] <https://aclanthology.org/2020.emnlp-main.207.pdf>
-- [35] 
[CITE@en[GitHub - csebuetnlp/normalizer: This python module is an easy-to-use port of the text normalization used in the paper "Not low-resource anymore: Aligner ensembling, batch filtering, and new datasets for Bengali-English machine translation". It is intended to be used for normalizing / cleaning Bengali and English text.]], [TIME[2025-08-01T10:02:25.000Z]] <https://github.com/csebuetnlp/normalizer/tree/main>







* メモ