[208] チベット語はチベット人の言語です。 シナ・チベット語族の言語の1つです。
[209] チベット文字はチベット語の表記に普通使われる文字です。 チベット語の他にサンスクリット語などの表記にも使われます。 インド系文字の一種です。
[213] インド系文字は一般に子音を表す親文字の上下左右に母音の文字素を組み合わせる構造を持ちますが、 チベット文字はそれとは少々異なります。
[214] チベット文字は主に親文字の上下に文字素を組み合わせる構造となっています。 理論上は文字素を重ねていくらでも縦に伸びていきますが、実際上は3,4個程度が限度となります。 この構造を積み (stack) といいます。
[211] チベット文字はチベット語の表記に用いられる場合とサンスクリット語の表記に用いられる場合とで若干違った使われ方をします。 サンスクリットのとき独特の構造となったり、特別な記号を使ったりすることがあります。 文字コードでの表現や翻字や転写の手法にもこの差が影響してきます。
[219] Unicode 以前のチベット文字の表現は、 中華人民共和国の多バイト文字符号化系の符号と、 欧米のフォント依存符号化や翻字系の符号の2種類の手法に大別できます。
[220] チベット文字はインド系文字ではありますが、構造の違いが大きいため、 インド系文字の文字コードの各手法との共通性はあまりありません。
[12] >>11 Unicode フォント中心、非 Unicode フォントの情報もある。
[215] 欧米などの研究者はラテン文字に翻字してチベット文字を間接的に扱うことが多くありました。 20世紀から21世紀初頭には欧米等でのチベット文字の交換の主要な方法になっており、 変換器によってチベット文字として表示したり、 入力システムで使ったりもされています。
[216] 欧米などの研究者は ASCII文字や Windows-1252 の文字をチベット文字に置き換えたフォント依存符号化でチベット文字を表示してきました。
[217] Windows-1252 の200個程度のバイトではチベット文字には不足しすぎるため、 数個のフォントを組合せ、 RTF や HTML のフォント切り替え機能と併用する手法が採られています。
[24] Tibetan printing, , http://www.kalacakra.org/print/print.htm
[115] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Conversion-Reversion%20for%20Tibetan%20Fonts.html
[138] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Legacy%20Tibetan%20Font%20Systems.html
[143] Font Library, , http://www.chofukuji.jp/takaragi/Font.html
不自由
[144] Tsampa.org: Tsampa Keyboard Font, Kristoffer Lindqvist, https://tsampa.org/tibetan/software/tsamkey/
[70] Sambhota-converter, , https://karmapa.github.io/tibetan-converter/sambhota-converter/index.html
Sambhota is a Tibetan font style that was developed by the American Nitartha company in 1999. Due to the aesthetic appeal of the font style, the font has been widely used by academia and printing houses.
[71] GitHub - karmapa/sambhota-parser: sambotha-parser, https://github.com/karmapa/sambhota-parser
[148] Tibetan! 5.1 は Tony Duff が Tibetan Computer Company として開発、販売したチベット語のワープロソフトウェアです。 >>131
[149] Tibetan Machine (TM) は Tibetan! 5.1 と共に開発され同梱されたフォントです。 独自仕様の数個の TrueType フォントの組合せです。 >>131, >>145
[150] Tibetan Machine Web (TMW) は TM の派生フォントであり、 Windows では使えたものの Mac や Webブラウザーで不都合があった TM を改良しています。 TM と互換性のない独自仕様の数個の TrueType フォントの組合せです。 >>146
[151] Tibetan Machine Uni (TMU) は TM / TMW の派生フォントであり、 Unicode のフォントです。 >>147
[152] Tibetan! と TM は Trace Foundation の資金により GPL で公開されました。 >>131
[153] TMW は THDL の協力で開発され、 THDL は TM / TMW に対応したソフトウェアをいくつか開発しました。 >>146
[132] >>131 に TM と TMW の詳細な説明があります。
[134] >>130 に機械可読なデータファイルがあります。
[155] >>79 の Fonts
にフォントと生成用データ一式があります。
The Tibetan Machine Web fonts have two different encodings:
- the first version was only used for PKTC's plugin to WordPerfect
- the second is the most common one and the only one handled by this code
They can be differenciated by looking at the encoding of the tsheg: if it corresponds to the ANSI hyphen (0x2D, decimal 45) it's the second encoding, else it's the first one.
[140] Home Page, , http://www.interlog.com/%7Epierrer/
[141] Tibetan For Windows - Free Tibetan word processing font and software, , https://web.archive.org/web/20010517031641/http://members.aol.com/tib4win/
[139] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/LTibetan.html
[27] 中華人民共和国占領下チベットでは東アジアの多バイト符号化の枠組みでチベット文字を符号化した実装事例がいくつかありました。
[187] 西暦1980年代中期より各方式が発展してきました。 GB 2312 の10区から15区や88区から94区の空きが使われたり、 GB 2312 の漢字や GBK の拡張部分を置き換えたりされました。 >>186
[224] Emacs はチベット文字の表示のために
942集合として
tibetan
(Tibetan 2 column),
tibetan-1-column
(Tibetan 1 column)
を実装しています。
[82] GB 16959 は Unicodeチベット文字と同等の中華人民共和国の国内規格です。
[104] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Character%20Encoding%20Proposals.html
[103] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Encoding%20model%20of%20the%20Tibetan%20script%20in%20the%20UCS.html
[117] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Deprecated%20Tibetan%20Characters.html
[83] chris fynn - Tibetan Script in the UCS, https://sites.google.com/view/chrisfynn/home/tibetanscriptfonts/standardization/tibetanscriptintheucs
[105] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Fonts.html
[84] GB/T 20542 も参照。
[221] Unicode とそれ以前の符号や、各符号相互の変換の実装がいくつかあります。
[222] インド系文字の多くは Unicode とそれ以外の符号で文字の表現方法が大きく異なっているため、 変換器の実装が相当に複雑になる傾向がありますが、 チベット文字に関してはそうでもありません。
[223] Unicodeチベット文字が比較的単純な手法を採用しており、 従来の文字コードとの対応付けに文字の順序の入れ替えなどの複雑な処理が必要ありません。
- Tibetisch dBu-can
- DBu-can
- Youtsoweb (TCRC)
- Youtso (TCRC)
- Bod-Yig (TCRC)
- Ededris
- Dedris
- Drutsa
- Khamdris
- Sama / Esama
- LTibetan, LTibetanExtension and LMantra
- TibetanMachine
- TibetanMachineWeb
- TibetanMachineSkt
- TibetanChogyal (PKTC)
- TibetanClassic (PKTC)
- DzongkhaCalligraphic (PKTC)
- TB-Youtso, TB-TTYoutso, TB2-Youtso, TB2-TTYoutso (LTWA)
- Monlam ouchan and Monlam yigchong
[25] GitHub - tracefoundation/UTFC: Universal Tibetan Font Converter, https://github.com/tracefoundation/UTFC
The converter covers 17 different Tibetan encoding schemes including 4 Tibetan transliteration schemes (ACIP, ALA-LC, THL Wylie, Wylie), Tibetan Unicode, and other 12 legacy Tibetan fonts including:
Sambhota 1.0 (Sama) Sambhota 2.0 (Dedris) Bandrida Tongyuan Beida Founder Huanguang LTibetan Jamyang TCRC Bod-Yig Tibetan Machine Tibetan Machine Web National Standard Extended
The converter also covers four common file formats including txt, Unicode txt, rich text file format (RTF) and HTML web page. You can convert file between arbitrary two encoding schemes from 16 ones mentioned above with certain file formats.
[26] yalasoo Tibetan Culture Heritage Promotion, , https://web.archive.org/web/20200721134031/http://www.yalasoo.com/English/docs/yalasoo_en_utfc.html
Windows アプリ (バイナリー配布)
The converter covers 17 different Tibetan encoding schemes including 4 Tibetan transliteration schemes, Unicode, and other 12 legacy Tibetan fonts including:
- Sambhota 1.0 (Sama)
- Sambhota 2.0 (Dedris)
- Bandrida
- Tongyuan
- Beida Founder
- Huanguang
- LTibetan
- Jamyang
- TCRC Bod-Yig
- Tibetan Machine
- Tibetan Machine Web
- National Standard Extended
The converter also covers four common file formats including txt, Unicode txt, rich text file format (RTF) and HTML web page. You can convert file between arbitrary two encoding schemes from 16 ones mentioned above with certain file formats.
[185] The Universal Tibetan Font Converter | Trace Foundation, , https://web.archive.org/web/20120929092425/http://trace.org/utfc
サーバー側実装
[159] 実際には符号化法の特性依存で不可なファイル形式の組合せもあります。
[160] 入力ファイル形式は指定できず、ファイルの先頭バイトから自動判定されます。
[161]
>>25 の最新版だと
THDLWylieTibetanSyllable.tbl
が本来 LF
区切りでなければならないところ
CRLF
になっているため、修正しなければ正常動作しません。
[162]
>>25 Converter.c
の符号化名の定数
#define Unicode 0 //ID--0 #define TMW 1 //ID--1 #define TM 2 //ID--2 #define Fz 3 //ID--3 #define Hg 4 //ID--4 #define ACIP 5 //ID--5 #define Wylie 6 //ID--6 #define LTibetan 7 //ID--7 #define OldSambhota 8 //ID--8 #define NewSambhota 9 //ID--9 #define THDLWylie 10 //ID--10 #define LCWylie 11 //ID--11 #define TCRCBodYig 12 //ID--12 #define Bzd 13 //ID--13 //2007 #define Ty 14 //ID--14 #define NS 15 //ID--15 #define Jamyang 16 //ID--16 //20080924
[163] >>25 の実装上はいくつかに分類されています。
[168] HTML や RTF では指定した入出力の符号化の文字の他でも、 フォント切り替えや文字参照を使って GBK の文字やその他の Unicode文字の入出力もできます。
[16] ATTU - ANSI Tibetan To Unicode converter, , https://www.pechamaker.com/attu/
Windows アプリ (バイナリー配布)
[69] UDP - The Unicode - Dzongkha - Tibetan Word Processor & Database, , https://leighb.com/udp/
UDP is a stand-alone document processing program that works with European, Tibetan, Dzongkha and many other languages in the Win/98/ME and Win/NT/2000/XP/Vista/7/10/11 environments. It supports not only word processing and databases in multiple languages, it also supports faxing and "one-click" e-mailing. It can convert a large variety of documents formats to/from Unicode.
[49] Microsoft Word - tibetan (1) - tibetan.pdf, , https://www.loc.gov/catdir/cpso/romanization/tibetan.pdf
ALA-LC 形式
[112] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Transliteration%20and%20Transcription.html
[20] 実態としては入力用を想定した ASCII文字への翻字だが、 文書整形用の命令もいくつか含まれる。
[18] ticode.pdf, https://raw.githubusercontent.com/DigitalTibetan/DigitalTibetan/main/docs/Resources/ticode.pdf
[128] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/ACIP_To_Tibetan_Converter.html
The ACIP->Tibetan converters support some non-standard extensions to the ACIP Tibetan Input Code Standard. One of those is Unicode character escape sequences. This extension makes it possible to represent characters that the ACIP standard does not address, and to represent one character, U+0F84, that ACIP does address with the transliteration {\} but that is misused in practice so often to refer to U+0F3C that the ACIP->Tibetan converters always produce an error upon seeing {\}.
The latest Extended Wylie Transliteration Scheme standard has assigned private-use area (PUA) Unicode codepoints to some TMW glyphs. ACIP documents that have a Unicode escape in the range U+F021 to U+F0FF, inclusive, are interpreted as intending these TMW glyphs. ACIP->Unicode produces an error for such an escape because it is font-dependent and not standard. Other tools will likely not understand such Unicode, so the converter will not produce it. If you want it in the output, it is there in the error message.
[39] Wylie は翻字法 (本来はタイプライター想定の転写法)。
[32] EWTS (Extended Wylie Transliteration Scheme) >>113, >>97 は THL が制定した Wylie の拡張である翻字法です。
[43] >>39 を拡張したのが >>32 という関係が正確なようだが、 「Wylie (EWTS)」 のように併記したり Wylie とだけ言って EWTS を指したりと、 厳密には区別されていないらしい。
[34]
EWTS は翻字法だが、
チベット文字を ASCII文字で記述できる他に
\u
や \U
を使った Unicode 構文もある。また、
PUA
[ U+F021
, U+F042
]
の規定を含む。
[8] チベット文字の表示 - ★'s Lab, , https://web.archive.org/web/20060113222526/http://star.aa.tufs.ac.jp/tibet/?%E3%83%81%E3%83%99%E3%83%83%E3%83%88%E6%96%87%E5%AD%97%E3%81%AE%E8%A1%A8%E7%A4%BA
[85] >>8 は PukiWiki 用プラグインの利用方法説明。 (プラグイン自体は配布されていない。) 「Wylie方式による転写をチベット文字画像に変換」と Unicodeチベット文字の2つの方法がある。
[114] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Ethnic%20Pinyin%20of%20Tibetan.html
[118] THL Simplified Phonetic Transcription - Wikipedia, , https://en.wikipedia.org/wiki/THL_Simplified_Phonetic_Transcription
[94] THDL 改め THL はかつてこの分野で精力的に活動していた研究機関です。
[95] かつて Webサイトで公開されていたらしい情報の多くは削除されていて、 現在の Webサイトで見つけられるのは成果物の一部だけで、それらも URL がかつてとは違っています。
[119] Tibetan and Himalayan Library - Wikipedia, , https://en.wikipedia.org/wiki/Tibetan_and_Himalayan_Library
[121] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Jskad%20Editor.html
Because Jskad supports Rich Text Format (RTF), Jskad can read and exchange documents with most major word processors. Jskad also supports RTF copy and paste, which means that you can copy and paste text directly from applications such as Microsoft Word.
Jskad has facilities for converting back and forth between THL Extended Wylie, Tibetan Machine, Unicode, ACIP Tibetan Input Code, and Tibetan Machine Web. This can be done either by selecting text within Jskad and using convenient menu options, or by using a powerful conversion tool documented here.
Jskad is meant to be used both as an efficient tool for entering unformatted Tibetan text using an attractive Tibetan font, and as a modular and programmable component in larger applications that rely on Tibetan text-entry.
[122] https://collab.its.virginia.edu/access/content/group/26a34146-33a6-48ce-001e-f16ce7908a6a/Tibetan%20Input%20Tools/Jskad/Jskad.jar
[123] >>122 はコンパイルされた Java プログラムファイル群です。
[124] >>122 Fonts
に TM, TMW のフォントファイルも入っています。
[137] ソースコードは >>79 の thdltools/Jskad
にあります。
[125] >>122 org/thdl/tib/text/tibwn.ini
に
EWTS,
TM,
TMW
の変換表が入っています。
[130] tibwn.ini
の説明は >>129 にあります。
[157] >>156 にこれを使った変換の実装があります。
[129] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/tibwn_ini_file_format.html
[126] The Tibetan and Himalayan Library, , https://thdltools.sourceforge.net/TMW_RTF_TO_THDL_WYLIE.html
- ACIP->Unicode (Text->Text)
- ACIP->Tibetan Machine Web (Text->RTF)
- EWTS->Unicode (Text->Text)
- EWTS->Tibetan Machine Web (Text->RTF)
- TMW->ACIP (RTF->RTF)
- TMW->ACIP (RTF->Text)
- TM->TMW (RTF->RTF)
- TMW->TM (RTF->RTF)
- TMW->Unicode (RTF->RTF)
- TMW->EWTS (RTF->RTF)
- TMW->EWTS (RTF->Text)
[110] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Wylie%20Word.html
[111] >>110 Microsoft Word 用のマクロである Wylie Word。 EWTS を使った入力システムとして使えます。また、 TMW から EWTS への変換もできます。
[154]
>>79 の thdltools/WylieWord/Unicode definition.txt
に文字クラスの定義兼 EWTS と Unicode の対応表があります。
[156]
>>79 の
thdltools/WylieWord/WylieWord development copy.dot
に
VBA
マクロ本体があります。
変換表として
>>154
や
>>125
を参照していますが、変換処理はそれだけではなく前後にいろいろな処理があって複雑です。
[158] >>156 では Unicodeチベット文字のことを TScript と呼んでいるようです。 OScript というのもあって、 O は Other のこととされています。 Unicodeチベット文字以外のUnicode文字を指しているようです。
' Here and elsewhere, "TScript" means "the set of characters that Tibetans traditionally used, ' regardless of whether it is used to represent Tibetan or other languages, and regardless of ' whether it is realized as U-chen, U-med, or what." Unfortunately as far as I know there is ' no word for this, other than "Tibetan", which is confusing when it is used to represent non- ' Tibetan text, and gives rise to absurd subroutine names like "ParseTibetanAsTibetan" vs. ' "ParseTibetanAsForeign".
と説明されており、実際にチベット文字表記サンスクリット語の処理などもあったりするので、 チベット語と区別したチベット文字を表す必要があるようです。
[106] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Input%20System%20Principles.html
[107] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tibetan%20Input%20Tools%20for%20Windows.html
[108] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Tise.html
[109] >>108 は EWTS を使った入力システム。
[120] Tise - Wikipedia, , https://en.wikipedia.org/wiki/Tise
[116] The Tibetan and Himalayan Library, https://old.thlib.org/tools/scripts/wiki/Sorting%20Tibetan.html
[142] Wayback Machine, https://web.archive.org/web/20010822203546/http://www.ghg.net/dstilwell/paper2.PDF
[21] GitHub - OpenPecha/pybo: 🦜 NLP for Tibetan, in Python., https://github.com/OpenPecha/pybo
[22] GitHub - Esukhia/bophono: Tibetan phonetics engine in Python, https://github.com/Esukhia/bophono
[23] Tibetan Phonetics Generator, https://www.lotsawahouse.org/Cgi/phonetics.pl
サーバー側で動作するが、 Perlモジュールも配布あり。
[68] GitHub - thl-texts/tibetan_text_scripts: Various scripts for manipulating Tibetan texts including converting Sambhota font, adding Word styles, adjusting page numbers, and inserting milestones, https://github.com/thl-texts/tibetan_text_scripts
UDP を呼び出し
[2] Requirements for Tibetan Text Layout and Typography, , https://w3c.github.io/tlreq/
[1] Requirements for Tibetan Text Layout and Typography, , https://www.w3.org/TR/tlreq/
[4] null, , http://ichhan.sakura.ne.jp/cht/tsheg.html
[5] チベット語のカタカナ表記について - Wikipedia, , https://ja.wikipedia.org/wiki/%E3%83%81%E3%83%99%E3%83%83%E3%83%88%E8%AA%9E%E3%81%AE%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A%E8%A1%A8%E8%A8%98%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6
[6] Jeffrey KotykさんはTwitterを使っています: 「Someone's study notes from 9th or 10th century: Chinese words for horse and camel alongside Tibetan rta and rnga mo (I think?). https://t.co/CQdzYzKRCn https://t.co/Y4KlKtfsIh」 / Twitter, , https://twitter.com/JeffreyKotyk/status/1579061230895239168
[9] 木版刷チベット文献の文字自動認識の試み, https://www.jstage.jst.go.jp/article/jsik/2/1/2_KJ00003381822/_article/-char/ja/
[10] Xユーザーの袁徳礼さん: 「ヤフオクに色々なものが出品されているとツイートが流れて来るが、私も1度だけ、所謂「博物館級」の物を落札した。 写真は1960年3月10日に第1号がインド北部で亡命チベット人により発行された新聞「FREEEDOM」紙。59年にダライ・ラマ法王がインドに亡命されてから1年、民族蜂起の日が発行日→ https://t.co/YT3u74ZYVU」 / X, , https://x.com/Yuan_TashiDelek/status/1397893778942222339