Tibetan!

チベット語

[208] チベット語チベット人言語です。 シナ・チベット語族言語の1つです。

[209] チベット文字チベット語の表記に普通使われる文字です。 チベット語の他にサンスクリット語などの表記にも使われます。 インド系文字の一種です。

チベット文字

[210] チベット文字インド系文字の一種です。

[212] チベット文字は普通左上横書きされます。

[213] インド系文字は一般に子音を表す親文字の上下左右に母音文字素を組み合わせる構造を持ちますが、 チベット文字はそれとは少々異なります。

[214] チベット文字は主に親文字の上下に文字素を組み合わせる構造となっています。 理論上は文字素を重ねていくらでも縦に伸びていきますが、実際上は3,4個程度が限度となります。 この構造を積み (stack) といいます。

[211] チベット文字チベット語の表記に用いられる場合とサンスクリット語の表記に用いられる場合とで若干違った使われ方をします。 サンスクリットのとき独特の構造となったり、特別な記号を使ったりすることがあります。 文字コードでの表現や翻字転写の手法にもこの差が影響してきます。

文字コードとフォント

[219] Unicode 以前のチベット文字の表現は、 中華人民共和国多バイト文字符号化系の符号と、 欧米フォント依存符号化翻字系の符号の2種類の手法に大別できます。

[220] チベット文字インド系文字ではありますが、構造の違いが大きいため、 インド系文字の文字コードの各手法との共通性はあまりありません。

[12] >>11 Unicode フォント中心、非 Unicode フォントの情報もある。

[15] >>14 たくさんの変換器の情報。

ラテン文字翻字系符号化

[215] 欧米などの研究者はラテン文字翻字してチベット文字を間接的に扱うことが多くありました。 20世紀から21世紀初頭には欧米等でのチベット文字の交換の主要な方法になっており、 変換器によってチベット文字として表示したり、 入力システムで使ったりもされています。

[170] >>169

フォント依存符号化

[216] 欧米などの研究者は ASCII文字Windows-1252文字チベット文字に置き換えたフォント依存符号化チベット文字を表示してきました。

[217] Windows-1252 の200個程度のバイトではチベット文字には不足しすぎるため、 数個のフォントを組合せ、 RTFHTMLフォント切り替え機能と併用する手法が採られています。

[218] こうした手法は、他にはエチオピア文字の事例があります。 エチオピア文字の文字コード

[24] Tibetan printing, , http://www.kalacakra.org/print/print.htm

[115] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Conversion-Reversion%20for%20Tibetan%20Fonts.html

[138] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Legacy%20Tibetan%20Font%20Systems.html

[143] Font Library, , http://www.chofukuji.jp/takaragi/Font.html

不自由

[144] Tsampa.org: Tsampa Keyboard Font, Kristoffer Lindqvist, https://tsampa.org/tibetan/software/tsamkey/

LGPL

Tibetan Modern A

Sambhota

[70] Sambhota-converter, , https://karmapa.github.io/tibetan-converter/sambhota-converter/index.html

Sambhota is a Tibetan font style that was developed by the American Nitartha company in 1999. Due to the aesthetic appeal of the font style, the font has been widely used by academia and printing houses.

[71] GitHub - karmapa/sambhota-parser: sambotha-parser, https://github.com/karmapa/sambhota-parser

Tibetan Machine シリーズ

[148] Tibetan! 5.1Tony DuffTibetan Computer Company として開発、販売したチベット語ワープロソフトウェアです。 >>131

[149] Tibetan Machine (TM) は Tibetan! 5.1 と共に開発され同梱されたフォントです。 独自仕様の数個の TrueType フォントの組合せです。 >>131, >>145

[150] Tibetan Machine Web (TMW) は TM の派生フォントであり、 Windows では使えたものの MacWebブラウザーで不都合があった TM を改良しています。 TM と互換性のない独自仕様の数個の TrueType フォントの組合せです。 >>146

[151] Tibetan Machine Uni (TMU) は TM / TMW の派生フォントであり、 Unicode のフォントです。 >>147

[152] Tibetan!TMTrace Foundation の資金により GPL で公開されました。 >>131

[153] TMWTHDL の協力で開発され、 THDLTM / TMW に対応したソフトウェアをいくつか開発しました。 >>146

[132] >>131TMTMW の詳細な説明があります。

[134] >>130機械可読なデータファイルがあります。

[155] >>79Fonts にフォントと生成用データ一式があります。

[76] >>73

The Tibetan Machine Web fonts have two different encodings:

  • the first version was only used for PKTC's plugin to WordPerfect
  • the second is the most common one and the only one handled by this code

They can be differenciated by looking at the encoding of the tsheg: if it corresponds to the ANSI hyphen (0x2D, decimal 45) it's the second encoding, else it's the first one.

LTibetan

[140] Home Page, , http://www.interlog.com/%7Epierrer/

[141] Tibetan For Windows - Free Tibetan word processing font and software, , https://web.archive.org/web/20010517031641/http://members.aol.com/tib4win/

[139] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/LTibetan.html

多バイト符号化

[27] 中華人民共和国占領下チベットでは東アジア多バイト符号化の枠組みでチベット文字符号化した実装事例がいくつかありました。

[187] 西暦1980年代中期より各方式が発展してきました。 GB 2312 の10区から15区や88区から94区の空きが使われたり、 GB 2312漢字GBK の拡張部分を置き換えたりされました。 >>186

[188] >>186 によると:

[28] UTFC >>25 が対応しているものは:

Mule

[224] Emacsチベット文字の表示のために 942集合として tibetan (Tibetan 2 column), tibetan-1-column (Tibetan 1 column) を実装しています。 Fp

Unicode

[82] GB 16959Unicodeチベット文字と同等の中華人民共和国国内規格です。 GB 16959

Unicode チベット文字符号化モデル

[104] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Character%20Encoding%20Proposals.html

[103] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Encoding%20model%20of%20the%20Tibetan%20script%20in%20the%20UCS.html

[117] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Deprecated%20Tibetan%20Characters.html

[83] chris fynn - Tibetan Script in the UCS, https://sites.google.com/view/chrisfynn/home/tibetanscriptfonts/standardization/tibetanscriptintheucs

PUA

[172] EWTS 方式 >>34 >>171

[173] 中華人民共和国方式 GB/T 20542 GB/T 22238

Unicode フォント

[105] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Fonts.html

[84] GB/T 20542 も参照。

変換器

[221] Unicode とそれ以前の符号や、各符号相互の変換の実装がいくつかあります。

[222] インド系文字の多くは Unicode とそれ以外の符号文字の表現方法が大きく異なっているため、 変換器の実装が相当に複雑になる傾向がありますが、 チベット文字に関してはそうでもありません。

[223] Unicodeチベット文字が比較的単純な手法を採用しており、 従来の文字コードとの対応付けに文字の順序の入れ替えなどの複雑な処理が必要ありません。


[75] >>73

  • Tibetisch dBu-can
  • DBu-can
  • Youtsoweb (TCRC)
  • Youtso (TCRC)
  • Bod-Yig (TCRC)
  • Ededris
  • Dedris
  • Drutsa
  • Khamdris
  • Sama / Esama
  • LTibetan, LTibetanExtension and LMantra
  • TibetanMachine
  • TibetanMachineWeb
  • TibetanMachineSkt
  • TibetanChogyal (PKTC)
  • TibetanClassic (PKTC)
  • DzongkhaCalligraphic (PKTC)
  • TB-Youtso, TB-TTYoutso, TB2-Youtso, TB2-TTYoutso (LTWA)
  • Monlam ouchan and Monlam yigchong

[25] GitHub - tracefoundation/UTFC: Universal Tibetan Font Converter, https://github.com/tracefoundation/UTFC

The converter covers 17 different Tibetan encoding schemes including 4 Tibetan transliteration schemes (ACIP, ALA-LC, THL Wylie, Wylie), Tibetan Unicode, and other 12 legacy Tibetan fonts including:

Sambhota 1.0 (Sama) Sambhota 2.0 (Dedris) Bandrida Tongyuan Beida Founder Huanguang LTibetan Jamyang TCRC Bod-Yig Tibetan Machine Tibetan Machine Web National Standard Extended

The converter also covers four common file formats including txt, Unicode txt, rich text file format (RTF) and HTML web page. You can convert file between arbitrary two encoding schemes from 16 ones mentioned above with certain file formats.

[26] yalasoo Tibetan Culture Heritage Promotion, , https://web.archive.org/web/20200721134031/http://www.yalasoo.com/English/docs/yalasoo_en_utfc.html

Windows アプリ (バイナリー配布)

The converter covers 17 different Tibetan encoding schemes including 4 Tibetan transliteration schemes, Unicode, and other 12 legacy Tibetan fonts including:

  1. Sambhota 1.0 (Sama)
  2. Sambhota 2.0 (Dedris)
  3. Bandrida
  4. Tongyuan
  5. Beida Founder
  6. Huanguang
  7. LTibetan
  8. Jamyang
  9. TCRC Bod-Yig
  10. Tibetan Machine
  11. Tibetan Machine Web
  12. National Standard Extended

The converter also covers four common file formats including txt, Unicode txt, rich text file format (RTF) and HTML web page. You can convert file between arbitrary two encoding schemes from 16 ones mentioned above with certain file formats.

[185] The Universal Tibetan Font Converter | Trace Foundation, , https://web.archive.org/web/20120929092425/http://trace.org/utfc

サーバー側実装


[159] 実際には符号化法の特性依存で不可なファイル形式の組合せもあります。

[160] 入力ファイル形式は指定できず、ファイルの先頭バイトから自動判定されます。

[161] >>25 の最新版だと THDLWylieTibetanSyllable.tbl が本来 LF 区切りでなければならないところ CRLF になっているため、修正しなければ正常動作しません。

[162] >>25 Converter.c の符号化名の定数

#define Unicode 0               //ID--0
#define TMW 1                   //ID--1
#define TM 2                    //ID--2
#define Fz 3                    //ID--3
#define Hg 4                    //ID--4
#define ACIP 5                  //ID--5
#define Wylie 6                 //ID--6
#define LTibetan 7              //ID--7
#define OldSambhota 8   //ID--8
#define NewSambhota 9   //ID--9
#define THDLWylie 10    //ID--10
#define LCWylie 11              //ID--11
#define TCRCBodYig      12      //ID--12
#define Bzd 13                  //ID--13 //2007
#define Ty 14                   //ID--14
#define NS 15                   //ID--15
#define Jamyang 16                      //ID--16  //20080924

[163] >>25 の実装上はいくつかに分類されています。

  • [165] AW ACIP, Wylie, THDLWylie, LCWylie
  • [164] TSL : TM, TMW, OldSambhota, NewSambhota, LTibetan, TCRCBodYig, Jamyang
  • [166] FzHg : Fz, Hg
  • [167] BTN : Bzd, Ty, NS

[168] HTMLRTF では指定した入出力の符号化の文字の他でも、 フォント切り替えや文字参照を使って GBK の文字やその他の Unicode文字の入出力もできます。


[81] >>80


[16] ATTU - ANSI Tibetan To Unicode converter, , https://www.pechamaker.com/attu/

Windows アプリ (バイナリー配布)


[207] >>186 は出現頻度に基づく各種文字コードの判定の手法を検討してます。

その他の実装

[69] UDP - The Unicode - Dzongkha - Tibetan Word Processor & Database, , https://leighb.com/udp/

UDP is a stand-alone document processing program that works with European, Tibetan, Dzongkha and many other languages in the Win/98/ME and Win/NT/2000/XP/Vista/7/10/11 environments. It supports not only word processing and databases in multiple languages, it also supports faxing and "one-click" e-mailing. It can convert a large variety of documents formats to/from Unicode.

翻字と転写

[169] ラテン文字への翻字の手法がいろいろあります。

[50] WylieEWTS >>39

[51] DTS >>48

[49] Microsoft Word - tibetan (1) - tibetan.pdf, , https://www.loc.gov/catdir/cpso/romanization/tibetan.pdf

ALA-LC 形式

[112] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Transliteration%20and%20Transcription.html

ACIP

[19] ACIPチベット文字の入力符号の規格。

[20] 実態としては入力用を想定した ASCII文字への翻字だが、 文書整形用の命令もいくつか含まれる。

[18] ticode.pdf, https://raw.githubusercontent.com/DigitalTibetan/DigitalTibetan/main/docs/Resources/ticode.pdf

[127] >>126 の拡張:

[128] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/ACIP_To_Tibetan_Converter.html

The ACIP->Tibetan converters support some non-standard extensions to the ACIP Tibetan Input Code Standard. One of those is Unicode character escape sequences. This extension makes it possible to represent characters that the ACIP standard does not address, and to represent one character, U+0F84, that ACIP does address with the transliteration {\} but that is misused in practice so often to refer to U+0F3C that the ACIP->Tibetan converters always produce an error upon seeing {\}.

The latest Extended Wylie Transliteration Scheme standard has assigned private-use area (PUA) Unicode codepoints to some TMW glyphs. ACIP documents that have a Unicode escape in the range U+F021 to U+F0FF, inclusive, are interpreted as intending these TMW glyphs. ACIP->Unicode produces an error for such an escape because it is font-dependent and not standard. Other tools will likely not understand such Unicode, so the converter will not produce it. If you want it in the output, it is there in the error message.

[171] EWTS 形式の PUA >>34

Wylie と EWTS

[39] Wylie翻字法 (本来はタイプライター想定の転写法)。

[32] EWTS (Extended Wylie Transliteration Scheme) >>113, >>97THL が制定した Wylie の拡張である翻字法です。

[43] >>39 を拡張したのが >>32 という関係が正確なようだが、 「Wylie (EWTS)」 のように併記したり Wylie とだけ言って EWTS を指したりと、 厳密には区別されていないらしい。

[34] EWTS翻字法だが、 チベット文字ASCII文字で記述できる他に \u\U を使った Unicode 構文もある。また、 PUA [ U+F021, U+F042 ] の規定を含む。

[8] チベット文字の表示 - ★'s Lab, , https://web.archive.org/web/20060113222526/http://star.aa.tufs.ac.jp/tibet/?%E3%83%81%E3%83%99%E3%83%83%E3%83%88%E6%96%87%E5%AD%97%E3%81%AE%E8%A1%A8%E7%A4%BA

[85] >>8PukiWikiプラグインの利用方法説明。 (プラグイン自体は配布されていない。) 「Wylie方式による転写をチベット文字画像に変換」と Unicodeチベット文字の2つの方法がある。

THL Simplified Phonetic Transcription

[114] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Ethnic%20Pinyin%20of%20Tibetan.html

[118] THL Simplified Phonetic Transcription - Wikipedia, , https://en.wikipedia.org/wiki/THL_Simplified_Phonetic_Transcription

THL

[94] THDL 改め THL はかつてこの分野で精力的に活動していた研究機関です。

[95] かつて Webサイトで公開されていたらしい情報の多くは削除されていて、 現在の Webサイトで見つけられるのは成果物の一部だけで、それらも URL がかつてとは違っています。

[119] Tibetan and Himalayan Library - Wikipedia, , https://en.wikipedia.org/wiki/Tibetan_and_Himalayan_Library

Jskad

[121] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Jskad%20Editor.html

Because Jskad supports Rich Text Format (RTF), Jskad can read and exchange documents with most major word processors. Jskad also supports RTF copy and paste, which means that you can copy and paste text directly from applications such as Microsoft Word.

Jskad has facilities for converting back and forth between THL Extended Wylie, Tibetan Machine, Unicode, ACIP Tibetan Input Code, and Tibetan Machine Web. This can be done either by selecting text within Jskad and using convenient menu options, or by using a powerful conversion tool documented here.

Jskad is meant to be used both as an efficient tool for entering unformatted Tibetan text using an attractive Tibetan font, and as a modular and programmable component in larger applications that rely on Tibetan text-entry.

[122] https://collab.its.virginia.edu/access/content/group/26a34146-33a6-48ce-001e-f16ce7908a6a/Tibetan%20Input%20Tools/Jskad/Jskad.jar

[123] >>122 はコンパイルされた Java プログラムファイル群です。

[124] >>122 FontsTM, TMWフォントファイルも入っています。

[137] ソースコード>>79thdltools/Jskad にあります。


[125] >>122 org/thdl/tib/text/tibwn.iniEWTS, TM, TMW の変換表が入っています。

[130] tibwn.ini の説明は >>129 にあります。

[157] >>156 にこれを使った変換の実装があります。

[129] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/tibwn_ini_file_format.html


[126] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/TMW_RTF_TO_THDL_WYLIE.html

  • ACIP->Unicode (Text->Text)
  • ACIP->Tibetan Machine Web (Text->RTF)
  • EWTS->Unicode (Text->Text)
  • EWTS->Tibetan Machine Web (Text->RTF)
  • TMW->ACIP (RTF->RTF)
  • TMW->ACIP (RTF->Text)
  • TM->TMW (RTF->RTF)
  • TMW->TM (RTF->RTF)
  • TMW->Unicode (RTF->RTF)
  • TMW->EWTS (RTF->RTF)
  • TMW->EWTS (RTF->Text)

Wylie Word

[110] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Wylie%20Word.html

[111] >>110 Microsoft Word 用のマクロである Wylie WordEWTS を使った入力システムとして使えます。また、 TMW から EWTS への変換もできます。

[154] >>79thdltools/WylieWord/Unicode definition.txt文字クラスの定義兼 EWTSUnicode の対応表があります。

[156] >>79thdltools/WylieWord/WylieWord development copy.dotVBA マクロ本体があります。 変換表として >>154>>125 を参照していますが、変換処理はそれだけではなく前後にいろいろな処理があって複雑です。

[158] >>156 では Unicodeチベット文字のことを TScript と呼んでいるようです。 OScript というのもあって、 O は Other のこととされています。 Unicodeチベット文字以外のUnicode文字を指しているようです。

' Here and elsewhere, "TScript" means "the set of characters that Tibetans traditionally used,
' regardless of whether it is used to represent Tibetan or other languages, and regardless of
' whether it is realized as U-chen, U-med, or what."  Unfortunately as far as I know there is
' no word for this, other than "Tibetan", which is confusing when it is used to represent non-
' Tibetan text, and gives rise to absurd subroutine names like "ParseTibetanAsTibetan" vs.
' "ParseTibetanAsForeign".

と説明されており、実際にチベット文字表記サンスクリット語の処理などもあったりするので、 チベット語と区別したチベット文字を表す必要があるようです。

日時

チベット暦

入力

[106] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Input%20System%20Principles.html

[107] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Input%20Tools%20for%20Windows.html

[108] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tise.html

[109] >>108EWTS を使った入力システム

[120] Tise - Wikipedia, , https://en.wikipedia.org/wiki/Tise

照合順序

[116] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Sorting%20Tibetan.html

自然言語処理

[142] Wayback Machine, https://web.archive.org/web/20010822203546/http://www.ghg.net/dstilwell/paper2.PDF

[21] GitHub - OpenPecha/pybo: 🦜 NLP for Tibetan, in Python., https://github.com/OpenPecha/pybo

[22] GitHub - Esukhia/bophono: Tibetan phonetics engine in Python, https://github.com/Esukhia/bophono

[23] Tibetan Phonetics Generator, https://www.lotsawahouse.org/Cgi/phonetics.pl

サーバー側で動作するが、 Perlモジュールも配布あり。

[68] GitHub - thl-texts/tibetan_text_scripts: Various scripts for manipulating Tibetan texts including converting Sambhota font, adding Word styles, adjusting page numbers, and inserting milestones, https://github.com/thl-texts/tibetan_text_scripts

UDP を呼び出し

組版

[2] Requirements for Tibetan Text Layout and Typography, , https://w3c.github.io/tlreq/

[1] Requirements for Tibetan Text Layout and Typography, , https://www.w3.org/TR/tlreq/

[37] >>36 >>38 >>2 特に意味のある情報は無い。

メモ

[3] Tibetan Language Kit

[4] null, , http://ichhan.sakura.ne.jp/cht/tsheg.html

[5] チベット語のカタカナ表記について - Wikipedia, , https://ja.wikipedia.org/wiki/%E3%83%81%E3%83%99%E3%83%83%E3%83%88%E8%AA%9E%E3%81%AE%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A%E8%A1%A8%E8%A8%98%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6

[6] Jeffrey KotykさんはTwitterを使っています: 「Someone's study notes from 9th or 10th century: Chinese words for horse and camel alongside Tibetan rta and rnga mo (I think?). https://t.co/CQdzYzKRCn https://t.co/Y4KlKtfsIh」 / Twitter, , https://twitter.com/JeffreyKotyk/status/1579061230895239168

[7] GB 16959

[9] 木版刷チベット文献の文字自動認識の試み, https://www.jstage.jst.go.jp/article/jsik/2/1/2_KJ00003381822/_article/-char/ja/

[10] Xユーザーの袁徳礼さん: 「ヤフオクに色々なものが出品されているとツイートが流れて来るが、私も1度だけ、所謂「博物館級」の物を落札した。 写真は1960年3月10日に第1号がインド北部で亡命チベット人により発行された新聞「FREEEDOM」紙。59年にダライ・ラマ法王がインドに亡命されてから1年、民族蜂起の日が発行日→ https://t.co/YT3u74ZYVU」 / X, , https://x.com/Yuan_TashiDelek/status/1397893778942222339