TAC

タミル文字の文字コード

[104] インド系文字の一種であるタミル文字は、 主にタミル語の表記に用いられますが、 いろいろな文字コード仕様があって使われてきました。

概要

インド系文字の文字コード, フォント依存符号化

分類

インド系文字の文字コード

標準化以前の文字コードとフォント

[335] 21世紀初頭頃まで (平成時代前半頃) は、 文字の割当が異なるいろいろなフォントが使われていました。

Amudham

Other Scheme Fonts 3 (Monolingual)

[360] >>806Other Scheme Fonts 3 (Monolingual) と呼んでいるもの:

TMNEWS

MYLAI

[109] FAQ: Soc.Culture.Tamil, , https://web.archive.org/web/20001013011305/http://www.geocities.com/Athens/9287/index.html

MYLAI - Tamil font creat ed by Dr. K. Kalyanasundaram - a lot of electronic texts and also some tutorials are available based on this font.

[293] Setting up of Bilingual (Tamil/English) Web pages, , https://web.archive.org/web/19991104144052/http://www.geocities.com/Athens/5180/tamil6.html

[296] これの新しい版は TSCII を勧めている。

Anjal

[164] MURASU Anjal (Anjal) はタミル語用ソフトウェア。 >>163

[295] Anjal フォントはインターネットメールでも使われた。 >>55 8ビット符号なのでおそらく MIME charsetISO-8859-1 あたりだったのだろう。

[168] >>166TAMIL.HTM<FONT FACE="InaiMathi, InaiMathi-1.8"> を使った8ビット符号HTML

[170] >>166 (差分配布) にはフォントは入っていなそう。

[169] >>171 には imathi12.bdf が入っている。

[172] >>166 の差分でない完全版や、その前の版は、配布ファイルが Internet Archive に保存されていない模様。

[173] >>165 <FONT FACE="InaiMathi-1.8">


[122] Anjal2000 用には TSCIITAB のフォントも一緒に提供していた模様。 >>123

[179] >>177readme_t.txt8ビット符号

[180] >>177anjalhelp.htm8ビット符号で、

   <meta http-equiv="Content-Type" content="text/html; charset=x-user-defined">

<font face="InaiMathi"> を利用。

[124] Murasu Anjal2000 - Quick User Guide, Muthu Nedumaran, , https://web.archive.org/web/20000619195643/http://www.murasu.com/qstart.htm

[186] Murasu Anjal2000 - General Help, Muthu Nedumaran, , https://web.archive.org/web/20011120065300/http://www.murasu.com/help/helpother.html#inTamil

(インターネットメールで送信時、)

You may write to us in English or Tamil (in Anjal, TSCII, TAB, TAM or Unicode encoding).

変換器と MTX ファイル

[193] Anjal2000 には文字コードの変換の機能が含まれていました。

[121] Murasu Anjal2000, , https://web.archive.org/web/20010124043900/http://www.murasu.com/anjal2000/

Support for 7 encodings

  • Anjal
  • Murasu6
  • TSCII
  • TAB
  • TAM
  • Unicode
  • Romanised
  • Mylai (Included through MTX files for inter-conversion)

Auto-detect encoding

Just select the text and do a "Check Encoding" and Murasu Anjal will tell you what encoding the text is in. Anjal, TSCII, TAB and Unicode are automatically recognised.

[181] >>177*.mtx は対応している符号化の変換表。 TSCII 1.6, TAB (TamilNet99 Bilingual Encoding), Mylai, Murasu Tamil encoding, Anjal Tamil encoding, Anjal Roman encoding, Tamil Unicode Character Set


[194] 単体の変換ソフトウェアもありました。

[191] >>182

Auto-detection is a feature in the converter that detects the format of the text automatically. If the text is is any of the commonly used encoding formats, namely TSCII, TAB or Unicode, the converter will automatically set the appropriate encoding parameters for the user. This feature will be very useful if the user does not know which particular encoding the document is in.

If the encoding used is not one of those mentioned above, the converter will alert the user that the document is in an unknown encoding. In this situation, the user can set the encoding manually. Most documents on the Internet today use one of the common encoding formats listed above.

The converter already supports the following encoding formats : TSCII 1.6, TSCII 1.7, TAB, TAM, Anjal, Murasu-6, Murasu-7, Murasu-8, Kanian, Vikatan, Unicode, Romanised Tamil and Mylai. To add a new encoding, all you need is an MTX file for that encoding. (see next question).

An MTX file is a file that contains information about the encoding. To create and MTX file, you may use the MTX Editor that's bundled free with Murasu Anjal-2000 as a plug-in.

[195] Anjal2000 より対応する符号化は多い。


[196] これらの変換器は MTX 形式のテキストファイルで変換表がありました。 >>183 に含まれる MTX EditorMTX ファイルを作成できました。

[185] MTX ファイルの詳細な仕様は公表されていないようですが、 ファイル自体や MTX EditorWinHelp 形式のドキュメントの内容 (MTX Editor の操作方法の説明のみでファイル形式の説明はありません。) からおよその見当はつきます。 実際に MTX Editor を動かして作成してみればより詳細に解析できることでしょう。

InaiMathi

[127] Ambalam, https://web.archive.org/web/20000605063830fw_/http://ambalam.com/body.htm

   <meta http-equiv="Content-Type" content="text/html; charset=x-user-defined">
   <meta name="GENERATOR" content="Mozilla/4.5 [en] (Win98; I) [Netscape]">
<td COLSPAN="2"><font face="Wingdings"><font color="#FFCC00"><font size=-1>v</font></font></font><b><font face="InaiMathi"><font color="#FFFFFF">°Áݍ¿
—º¯æ™ ŠÏ °ï¢ é¿½´ ±ª¥Å!&nbsp;</font></font></b></td>

[128] >>127 Wingdings との競演!

[131] Wayback Machine, https://web.archive.org/web/20040603224616/http://www.tamil.net/projectmadurai/pub/pm0008/praba5.inm

[132] Naalaayira Divviyap Prapantham - 2, https://web.archive.org/web/20040604060236if_/http://www.tamil.net/projectmadurai/pub/pm0006/praba21inm.html

[260] >>250

<font face=InaiMathi, InaiMathi-1.8>

[251] >>250 " で括られていない属性値空白があるので InaiMathi-1.8 の指定は無効。

[261] >>259 のサイトの他のページではタミル文字画像で表現している。

WebTamil

Diamond

TamilNet / TamilFix

SHREE802 他 SHREE 系

SHREE802

Vikatan

[328] >>69

   <meta http-equiv="Content-Type" content="text/html; charset=x-user-defined">

   <meta name="GENERATOR" content="Mozilla/3.01Gold (WinNT; I) [Netscape]">

<!-- Start link to PFR -->

<link rel="fontdef" src="http://www.vikatan.com/vikatan.pfr">

<!-- End link to PFR -->



<!-- Start Bitstream WebFont Player support -->

<script src="https://web.archive.org/web/20010124051200js_/http://www.vikatan.com/tdserver.js" type="text/javascript">

</script>

<link>

<!-- End Bitstream WebFont Player support -->





<script language="JavaScript">





if (navigator.appName == "Microsoft Internet Explorer" && navigator.appVersion.indexOf("Windows", 0) != -1 && navigator.appVersion.substring(0,1) >= 4)



{



 document.writeln("<object");



 document.writeln("classid=\"clsid:0246ECA8-996F-11D1-BE2F-00A0C9037DFE\"");



 document.writeln("codebase=\"http://www.vikatan.com/tdserver.cab#version=1,0,0,10\""); 



 document.writeln("id=\"TDS\" width=0 height=0");



 document.writeln(">");



 document.writeln("</object>"); 

}









</script>



<link>

<!-- End Bitstream WebFont Player support -->

[330] >>69 には &T; のように SGML文字参照のように見える (が実際にはそうではなく Vikatan フォントでそのまま表示されるべき) 文字列もある。 当時の HTML 仕様では不正な構文だったが、 当時のブラウザーおよび現在の仕様とブラウザーでは想定通りに動作する (現在の仕様でも認められないが、出現時の動作は決められている)

ADHAWIN.TTF

[142] ADHAWIN>>139 >>154 で配布されていたソフトウェア。 タミル語ラテン文字表記から >>141 に変換する。 また、 Dr. Kalyanasundaram's Mylai Plain Font 等との相互変換ができる。 >>139

[141] ADHAWIN.TTF>>142 に同梱されていたフォント。 >>139 >>154 にあるのは古い版とみられる (要検証)。

[143] MYLAISRI.TTF>>142 に同梱されていた。 >>139 >>154 にあるのはこれが入っていない古い版。

[147] >>145 の配布ファイル (現存しない) は

でデータを配布していたとのこと。

[156] >>154 配布ファイル内のドキュメント ADHAWIN.TXT によるとラテン文字表記は、

By romanized Tamil one means typing as it sounds. The upper case L,
R, N, E, O are extended versions of the lower case. 

[158] >>157MylaiSri + Adhawin の使い方説明と例文。 前者はASCIIを入れ替えた7ビット符号、後者は8ビット符号。 いずれにせよ <font face> で切り替えるので安全に共存できている。

[159] >>157 自体は

<font face="mylai-sri, mylaiplain, mylai" size="+1">

</font>

<font face="Adhawin-Tamil" size="+1">

</font>

で該当部分をそれぞれ囲んでいる。前者は

MylaiSri truetype font for MS-Windows or Mylai-Sri Truetype font for Macintosh or MYLAI font

で3つのフォント名を指定している (うち最初の2つはこの頁で配布)。後者は Adhawin truetype font 用 (この頁で配布)。 後者は左側ASCII そのままなので、 例文だけでなく英語の説明文まで含めて font に入れている。

[160] >>157 には使い方の説明があり、 前者は

Add <font face = Mylai-Sri> at the start of document and add </font face>

... により、後者は

<font face = Adhawin-Tamil> at the start of document and add </font face>

... により指定するとのこと。


[341] >>340

This site is set up with Dynamic Fonts for Tamil and Sanskrit texts. The dynamic fonts are supported by Netscape browser 4.06 (and later releases) and Microsoft Internet Explorer 4.*. Netscape users: please make sure the option, Use document specified fonts, including Dynamic Fonts, under Edit->Preferences->Appearance->Fonts is set.

[334] >>327

<!doctype html public "-//w3c//dtd html 4.0 transitional//en">
   <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
   <meta name="Author" content="Venkatesh K. Elayavalli">
   <meta name="GENERATOR" content="Mozilla/4.5 [en] (Win95; U) [Netscape]">
   <title>Tamil and Sanskrit Slokas</title>
 <keywords>Slokas Tamil, Sanskrit, Sri Vaishnavava Slokas, Ramanuja</keywords>
   <link hxburned rel="fontdef" src="http://www.srivaishnava.org/adhawin.pfr">
<font face="Adhawin-Tamil Regular,Adhawin-Tamil">
&sect;&ordf;&Oacute;&macr;&Ucirc;, &micro;&ordf;&micro;&THORN;&iexcl;&Uuml;&Igrave;&sect;
&micro;&THORN;&frac12;&shy;&szlig;&iexcl;&Uuml;&iexcl;&cent;&Uuml;&iexcl;&deg;&Uuml;
</font></font>
</h2>

[348] >>345

   <title>Sri Pillai Lokacarya's Artha Panchakam</title>
   <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
   <meta name="GENERATOR" content="Mozilla/4.03 [en] (Win95; I) [Netscape]">
   <link href="https://web.archive.org/web/20001204164600cs_/http://www.srivaishnava.org/wfplayer/stylesva.css" rel="stylesheet" type="text/css">

   <link hxburned rel="fontdef" src="http://www.srivaishnava.org/adhawin.pfr">
   <script language="JavaScript" src="https://web.archive.org/web/20001204164600js_/http://www.srivaishnava.org/wfplayer/tdserver.js">
   </script>
<h2>
<font face="Adhawin-Tamil Regular,Adhawin-Tamil,adhawintamil"><font color="#000000">&agrave; &copy;&Oacute;&deg;&Uuml;&frac34;&deg;&frac12;&shy;&szlig;&iexcl;&szlig;&pound;&szlig;&igrave;&Oacute;&euml;&igrave;&Ugrave;
&oacute;&Igrave;&deg;&Oacute;&pound;&Ucirc;&frac14;&pound;&euml;&Ucirc;&sect;</font></font></h2></center>

Bamini

Other Scheme Fonts 1 (Bilingual)

[337] >>806 か゚ Other Scheme Fonts 1 (Bilingual) と呼んでいるもの:

Other Scheme Fonts 2 (Monolingual)

[339] >>806Other Scheme Fonts 2 (Monolingual) と呼んでいるもの:


[359] >>806 が Similar として Other Scheme Fonts 2 (Monolingual) にまとめている亜種:

LT-TM-Barani

LT-TM-Barani

Other Scheme Fonts 4 (Monolingual)

[383] >>806Other Scheme Fonts 4 (Monolingual) と呼んでいるもの:

These fonts are created by Digital Research of Sri Lanka. As you see the fonts are named after the place names in Sri Lanka.

Other Scheme Fonts 5 (Monolingual)

[392] >>806Other Scheme Fonts 5 (Monolingual) と呼んでいるもの:

These fons are products of Chennai Kavigal and are mainly used in their thamizh word processor product.

Other Scheme Fonts 6 (Monolingual)

[413] >>806Other Scheme Fonts 6 (Monolingual) と呼んでいるもの:

These are some fonts created by Thiru.Kulasegaram Sanchayan, Thiru.T.Govindaraj (http://www.tug.org/.../Palladam2.1.Copyright) and Thriu.Vijay.K.Patel. (http://home.flash.net/.../index.html)

TSCII

[669] TSCII は一時タミル語の話者コミュニティーでコミュニティー標準として普及していた文字符号化。 いくつかの版がある。 ASCII文字はそのままにした Latin1 置き換え型。

[672] 普及しつつも統一は成らなかった模様。

[125] >>124TSCIIインターネットメールでは最もよく使われていたとしている。

[670] TAB に発展したものの、共存し続けた模様。


[52] A Standard For Tamil Computing -annex 1, , https://web.archive.org/web/20001010142200/http://www.geocities.com/Athens/5180/tscii4.html

[43] A Standard For Tamil Computing -annex 1, K. Kalyanasundaram, , https://web.archive.org/web/20020626060441/http://www.tamil.net/tscii/faq5.html

[229] >>52 >>43 Unicode との対応

[91] >>43 なぜか 0 のことを O と書いているところがある

[50] A Proposal for A Standard Code For Tamil Computing-Annexes, , https://web.archive.org/web/20001010083412/http://www.geocities.com/Athens/5180/tscii2.html

[45] TSCII draft proposal, , https://web.archive.org/web/20010421092112/http://www.tamil.net/tscii/tscii_draft.html

[51] Tamil standard Code (TSCII)-character table, , https://web.archive.org/web/20001010111847/http://www.geocities.com/Athens/5180/tscii3.html

[20] A Standard For Tamil Computing, , https://web.archive.org/web/20001010200827/http://www.geocities.com/Athens/5180/tsic.html

[19] Tamil Standard Code TSCII and 8-bit Coded Character sets, , https://web.archive.org/web/20000308005419/http://www.geocities.com/Athens/5180/8bitstd.html

[319] TSCII-based Webpages in Tamil, , https://web.archive.org/web/20000311005942/http://www.geocities.com/Athens/5180/tscguide.html

i) Invoke "x-user-defined" case for the encoding in the META header

ii) Invoke font face tags

Based on several successful trials on several of the commonly used web-browsers in different computer OS, IWC recommends that the Tamil webpages carry the tamil text as raw 8-bit text and with Meta-Headers that specify "x-user-defined" as the charset.

[317] これの古い版と思われるものは Mylai を使うことを勧めていた。

[81] null, , https://www.iana.org/assignments/charset-reg/TSCII

[87] document, , https://citeseerx.ist.psu.edu/document?doi=4d45591fced270827727b3a1a808a7eef1c9c9e1&repid=rep1&type=pdf

文字集合

[95] 要件には私用域が必要と書いてありますが、実際の割当上はそうと明記してあるものがありません。

[96] >>17 だと 0xFE0xFF が空欄で色付きになっていますが、これがそれだったりするのでしょうか。 説明は何もありません。 >>17 より古い版は違っています。

文脈

[575] ctext では extended segmenttscii-0 として使うことが出来ます。

実装

[92] >>39>>75UnicodeTSCII 変換に手を加えたものと、 それを更に Windows-1252 形式既存フォントのための変換を行うもの。

[93] >>39 のフォント符号化情報には次のようにある。

+# Tamil fonts (TSCII encoding : see http://www.tscii.net)
+# See also http://bugzilla.mozilla.org/show_bug.cgi?id=204039.
+# These fonts have pseudo-Unicode cmap with TSCII  interpreted as Windows-1252.
+encoding.tsc_paranarpdf.ttf = x-tamilttf-0.wide
+encoding.tsc_paranbold.ttf = x-tamilttf-0.wide
+encoding.tsc_paranarho.ttf = x-tamilttf-0.wide
+encoding.tsc_kannadaasan.ttf = x-tamilttf-0.wide
+encoding.tscu_comic.ttf = x-tamilttf-0.wide
+encoding.tscu_times.ttf = x-tamilttf-0.wide
+encoding.tscu_paranar.ttf = x-tamilttf-0.wide
+encoding.tscu_paranarbold.ttf = x-tamilttf-0.wide
+
+
+# These two fonts don't have Unicode cmap but have pseudo-Apple Roman cmap
+# with TSCII assignment.
+encoding.tsc_aandaal.ttf = x-tscii-0
+encoding.tsc_aparanarpdf.ttf = x-tscii-0

[94] >>93 pseudo-Apple Roman cmap というのは TSCIILatin1 とみなして MacRoman に変換したもの? しかし >>39 の実装では x-tscii-0TSCII 自体のようにみえる。それともそこはフォントにアクセスする既存の実装で自動的に変換が入るということか?

[79] qt/src/corelib/codecs/qtsciicodec.cpp at master · radekp/qt · GitHub, https://github.com/radekp/qt/blob/master/src/corelib/codecs/qtsciicodec.cpp

[80] >>79 これはかなり単純化されているように見えるが大丈夫か?

[85] [HTMLArea: loading script 1/3], , https://web.archive.org/web/20060717231609/http://www.tamil.net/#pager

人工的な利用例

[49] Wayback Machine, https://web.archive.org/web/20001017141307/http://www.geocities.com/Athens/5180/tsctst11.html

実利用例

[33] Wayback Machine, https://web.archive.org/web/20010513162020/http://www.tamil.net/people/sivaraj/decindep.html

<META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=x-tscii">

[40] Wayback Machine, https://web.archive.org/web/20020618220038/http://www.tamil.net/projectmadurai/pub/pm0143/kprose1.html

<META HTTP-EQUIV="Content-Type" CONTENT="text/html"; charset="x-user-defined">

[197] Open Directory - World: Tamil, , https://web.archive.org/web/20010622062932/http://dmoz.org/World/Tamil/

[73] >>71

Content-Type: text/html;charset=x-user-defined
<meta http-equiv="Content-Type" content="text/html;charset=x-user-defined">
<meta http-equiv="Content-Style-Type" content="text/css">
<!-- start dynamic font description -->
<link rel="FONTDEF" src="http://www.aaraamthinai.com/eot/itsc.pfr">
<!-- end dynamic font description -->
<style type="text/css">
  @font-face {
    font-family: InaiMathiTSC;
    font-style:  normal;
    font-weight: normal;
    src: url(https://web.archive.org/web/20000609103733im_/http://www.aaraamthinai.com/eot/itsc.eot);
  }
</style>

[74] HTTPx-user-defined が指定されているので、現在の Webブラウザーでは挙動が違って、 U+F7hh あたりの文字が出現することになります。 x-user-defined

[83] Project Madurai: List of Etexts currently available, , https://web.archive.org/web/20040701091212/http://www.tamil.net/projectmadurai/pmfinish.html

It has been decided during late 1998 that Tamil Script Code for Information Interchange (TSCII) encoding developed by the Cyber Tamil community will be used for all Etexts. Hence all the Etxts (and web versions) of Tamil works released in 1999 will be in TSCII format. Etexts released in the maiden year 1998 are still available in Inaimathi/Anjal and Mylai font formats.

[84] Wayback Machine, https://web.archive.org/web/20040630021019/http://www.tamil.net/projectmadurai/pub/pm0001/trkrltsc.html

[97] sul-sivan, K. Loganathan, https://arutkural.tripod.com/sumstudies/sul-sivan.htm

SaiIndira

メモ

[23] Standards for Tamil Computing, , https://web.archive.org/web/20010320142640/http://www.tamil.net/tscii/

[18] Multiple language support over the Internet WWW, , https://web.archive.org/web/19990503121010/http://www.irdu.nus.sg/tamilweb/tamilnet97/paper/html/anbarasan.html

[322] Multiple language support over the Internet WWW, , https://web.archive.org/web/19990503132248/http://www.irdu.nus.sg/tamilweb/tamilnet97/paper/html/muthu.htm

[82] Tamil Script Code for Information Interchange - Wikipedia, , https://en.wikipedia.org/wiki/Tamil_Script_Code_for_Information_Interchange

TamilNet 99 勧告に基づく符号化

[105] 印度Tamil Nadu 州の政府は TAB, TAM の2つの文字コード標準化しました。

[671] TAMASCII 置き換え型。

[106] TABASCII文字はそのままにした Latin1 置き換え型。

[673] 普及しつつも統一は成らならないまま Unicode の時代となり、 TSCII にも知名度で劣る模様。

[126] TABインターネットメールでも使われた模様。 >>124

仕様書

[9] FINAL VERSION OF TAMIL FONT AND KEYBOARD STANDARDS OF TAMILNADU GOVT., , https://web.archive.org/web/20000301104837/http://www.geocities.com/Athens/5180/tnstd.html

実装

[100] >>9 配布の参照フォント :

[452] >>451 に示された TAB フォント:

[300] Software Tools Based on the Font Encoding Standards of Tamilnadu, , https://web.archive.org/web/20000309102655/http://www.geocities.com/Athens/5180/tabfonts.html

[64] i-DNS.net

TAB 実利用例

[63] >>61

 <meta http-equiv="Content-Type" content="text/html; 
charset=x-user-defined">
<!--
<tr>
<td class=cellyel><a target=_blank
href=http://www.i-dns.net/>www.i-dns.net</a></td>
<td class=cellyel>
<a target=_blank href="http://ä-®âù¢âú¢.õ¬ô/">
<font face="TAB-Anna">ä-®âù¢âú¢.õ¬ô</font></a></td>
</tr>
-->

[67] >>65

   <meta content="text/html; charset=x-user-defined" http-equiv="Content-Type">

<font face="TAB_InaiMathi" size="2">

[68] >>66 には Webフォントのための ActiveX 承認画面の紹介もある。

メモ

[318] Standards for Tamil Computing announced at Tamilnet99, , https://web.archive.org/web/20000311134409/http://www.geocities.com/Athens/5180/tnet99.html

[312] index, , https://www.tamilvu.org/Tamilnet99/

[315] REPORT OF INTERNATIONAL CONFERENCE ON TAMILNET 99, , https://web.archive.org/web/20001215143700/http://www.tamilnet99.org/tabtam.htm

[3] Evaluation Procedures, , https://www.tamilvu.org/Tamilnet99/evtext.htm

[313] Abstract, , https://www.tamilvu.org/Tamilnet99/go17.htm

[6] nagasaki.pdf, , http://www.aa.tufs.ac.jp/~tjun/data/gicas/nagasaki.pdf#page=5

TACE16

[331] TACE16 は、印度Tamil Nadu 州の政府により開発された文字コード仕様案です。

[332] 複雑過ぎて当時利用困難だった Unicode への対案として開発され、 提出されましたが、 Unicode Consortium 側はあくまで当初からの ISCII に基づく方式に固執し、完全に拒絶しました。

[333] PUA への暫定的な割当があり、公式フォントも提供されています。 一部で実用されたようで、対応している変換器もあります。

[427] Wayback Machine, https://web.archive.org/web/20060524222100/http://www.infitt.org/ti2004/www/ed_rept.pdf

[302] TACE16_Report_English.pdf, , https://www.tamilvu.org/coresite/download/TACE16_Report_English.pdf

[303] Teder_Document_for_Tamil_fonts_and_kbd_driver.pdf, , https://www.tamilvu.org/coresite/download/Teder_Document_for_Tamil_fonts_and_kbd_driver.pdf

[304] தமிழ் எழுத்துருக்கள் | தமிழ் இணையக் கல்விக்கழகம் TAMIL VIRTUAL ACADEMY, https://www.tamilvu.org/ta/tkbd-index-341488

[301] Tamil All Character Encoding - Wikipedia, , https://en.wikipedia.org/wiki/Tamil_All_Character_Encoding

[305] tam_ilakiyam/Noolkal at main · ThaniThamizhAkarathiKalanjiyam/tam_ilakiyam · GitHub, https://github.com/ThaniThamizhAkarathiKalanjiyam/tam_ilakiyam/tree/main/Noolkal

[306] >>305 実際に TACE PUA を利用したデータ

[308] tam_ilakiyam/Collections/TACE.txt at main · ThaniThamizhAkarathiKalanjiyam/tam_ilakiyam · GitHub, https://github.com/ThaniThamizhAkarathiKalanjiyam/tam_ilakiyam/blob/main/Collections/TACE.txt

[309] >>308 Unicode との対応

SIL 方面のフォント

.map

入力・代替表記としての翻字

インド系文字の文字コード

[289] Softwares for Transliterated format and Word Processors for Tamil, , https://web.archive.org/web/20000229202017/http://www.geocities.com/Athens/5180/tamil8.html

[290] Comparison of keymap of tamil transliteration schemes and fonts, , https://web.archive.org/web/20010513212049/http://www.geocities.com/athens/5180/keymap.html

ISCII

ISCII

Unicode

[101] Unicodeのタミル文字: 符号化の論争と対応 () http://deztec.jp/x/10/faireal/d90828.xml

実装

[44] (STC) Tools: Fonts, keyboard drivers & converters, , https://web.archive.org/web/20010409001810/http://www.tamil.net/tscii/tools.html

TSCCONVERTER is a Windows based utility that allows you to convert text files that were created in the following fonts to TSCII encoding: Amutham, Baamini, Divya, Elango, Inaimathi, Kalki, Mylai, TBoomi, Shree802, TMNews, and Marx. Several other fonts that are based on Tamil typewriter keyboard may also work.

(配布ファイルは現存せず)



[247] GitHub - ThaniThamizhAkarathiKalanjiyam/AnyTaFont2UTF8: Any Tamil Font Encoding to UTF/TACE Encoding, https://github.com/ThaniThamizhAkarathiKalanjiyam/AnyTaFont2UTF8

From Font Name To Encoding Type
AishwaryaUTF8
AnuUTF8
DiacriticUTF8
IndicaUTF8
IndowebUTF8
KoelnUTF8
LibiUTF8
MurasoliUTF8
MylaiUTF8
NakkeeranUTF8
OldvikatanUTF8
PallavarUTF8
RomanUTF8
ShreelipiUTF8
ShreelipiavidUTF8
SoftviewUTF8
TabUTF8
TaceUTF8
TamUTF8
TsciiUTF8
UTF8
VanavilUTF8
WebulagamUTF8

  • TSCII ⇒ Unicode
  • Unicode ⇒ TSCII
  • Anjal ⇒ Unicode
  • Boomi ⇒ Unicode
  • Bamini ⇒ Unicode
  • Unicode ⇒ Bamini
  • Dinakaran ⇒ Unicode
  • Dinamani ⇒ Unicode
  • Indoweb ⇒ Unicode
  • Koeln ⇒ Unicode
  • Murasoli ⇒ Unicode
  • Mylai ⇒ Unicode
  • Tab ⇒ Unicode
  • Unicode ⇒ Tab
  • Tam ⇒ Unicode
  • Thanthy ⇒ Unicode
  • Libi ⇒ Unicode
  • Oldvikatan ⇒ Unicode
  • Webulagam ⇒ Unicode
  • Pallavar ⇒ Unicode
  • Romanised
  • Keyman ⇒ Unicode
  • Unicode ⇒ Keyman
  • Senthamizh ⇒ Unicode

[102] Google文字コード判定ライブラリー ced には TSCII, TAM, TAB に関する記述がありますが、少なくても現状公開されているものそのままでは機能していないようです。

[103] Google検索エンジン内部やもしかすると Gmail など、少なくても過去のある時点においては、 Google としてある程度これらの文字コードに対応していたと推測されます。

[98] Fonts and Drivers, https://jayan.tripod.com/go/tamil/fonts_and_drivers.htm

Azhagi

[213] >>212

For Tamil, apart from providing 'PhoneticTransliteration' and UserDefinedPhonetics for typing in Unicode, Azhagi+ supports typing in various other Non-Unicode font encodings and keyboards too. The full list of supported font encodings is as follows:

  1. Unicode (யூனிகோட், ஒருங்குறி)
  2. SaiIndira (சாய்இந்திரா)
  3. TSCII (திஸ்கி)
  4. Bamini (பாமினி), TamilBible (தமிழ் பைபிள்)
  5. TAM (தாம், டேம்)
  6. TAB (தாப், டேப்)
  7. Baamini (பாமினி 2) (not the same as Bamini)
  8. Vanavil (வானவில்)
  9. STMZH (செந்தமிழ்) [same as RGB Tamil fonts]
  10. Shreelipi (ஸ்ரீலிபி)
  11. LT-TM (எல்.டி-டி.எம்) [same as IndoWord Tamil fonts]
  12. Shree (ஸ்ரீ)
  13. Ka (க) [same as JF Tamil fonts]
  14. Chenet Platinum (செனட் ப்ளேட்டினம்)
  15. TACE (டேஸ்)
  16. Gee_Tamil (ஜீ_தமிழ்)
  17. ELCOT-Bilingual (எல்காட்-இருமொழி)
  18. ELCOT-ANSI (எல்காட்-ஆன்ஸி)
  19. APT_Sangam (ஏ.பி.டி. சங்கம்)
  20. KrutiTamil (க்ருதி தமிழ்)
  21. Dev (தேவ்)
  22. Ganesha (கணேஷா)
  23. Lakshmi (லக்ஷ்மி)
  24. TA-Arul (டி.ஏ. அருள்)
  25. Amudham (அமுதம்)
  26. TM-TTValluvar (வள்ளுவர்)
  27. Elango (இளங்கோ)
  28. SunTommy (சன்டாமி)
  29. Roja (ரோஜா)
  30. Priya (ப்ரியா)
  31. TmlCheran (சேரன்)
  32. Pandian (பாண்டியன்)
  33. TBoomiS (தினபூமி)
  34. Diamond (டைமண்ட்)
  35. DCI+Tml+Ismail (டி.சி.ஐ. தமிழ் இஸ்மாயில்)
  36. Periyar (பெரியார்)
  37. Mylai Plain (மயிலை)
  38. MCL Kannammai (எம்.சி.எல். கண்ணம்மை)
  39. Needhimathi (நீதிமதி)
  40. Sashi (சஷி)
  41. Avaice Jasmine (ஜேஸ்மின்)
  42. Tamil-Aiswarya (ஐஸ்வர்யா)
  43. Adhawin-Tamil (ஆதவின்)
  44. KavipPriya (கவிப்பிரியா)
  45. Vikatan (விகடன்)
  46. Kalpesh Dotted (கல்பேஷ் டாட்டட்)

[199] >>198

Among other exquisite features (super-fast plain text conversion), Azhagi's converter can do conversion of formatted text too - directly inside 'MS Word' documents itself - thereby retaining all formatting - Bold/Italics/Underline, Color, Alignment, Tables, etc. etc. etc. - of all your Tamil text. The converter is extendable by the user himself/herself - to convert from ANY Tamil font encoding to ANY other Tamil font encoding. The 45 Tamil font encodings supported (as on March 2022) are: Unicode, SaiIndira, TSCII, TAB, TAM, Bamini & TamilBible, Vanavil, Shreelipi, STMZH, LT-TM [same as IndoWord], Gee_Tamil, DCI+Tml+Ismail, SunTommy, ELCOT-ANSI, ELCOT-Bilingual, Diamond, Amudham, Ka, Shree, Mylai Plain, TACE, Elango, Periyar, Priya, Chenet Platinum, KrutiTamil, TM-TTValluvar, Roja, MCL Kannamai, Baamini [not the same as Bamini], Needhimathi, Pandian, TBoomiS, APT-Sangam, Dev, TA-Arul, Sashi, Ganesha, Lakshmi, Tamil-Aiswarya, Adhawin, TmlCheran, Avaice Jasmine, KavipPriya, Vikatan.

  • If you own a font whose name (e.g. Kalaham) does not match with any of the names in the existing 'Font Encodings' list# of Azhagi, it does not mean you cannot effect to-and-fro conversion using that font. It is very much possible that your font is of the same encoding as one of the font encodings already supported by Azhagi. For instance, 'Kalaham' font is of the same encoding as 'Bamini' font.
  • So, if you wish to effect conversion from 'Kalaham' font to any other font encoding, then just select 'Bamini' in the 'from this font encoding' list of Azhagi's Font Converter, before effecting conversion.
  • Similarly, if you wish to effect conversion from any other font encoding to 'Kalaham' font, then just select 'Bamini' in the 'to this font encoding' list of Azhagi's Font Converter before effecting conversion.

[209] >>208

  1. Please note that eventhough Unicode has specified only 8 signs/symbols (for day, month, year, etc.), I have given provision for 23 such symbols so that even if Unicode brings in some more signs/symbols in future, they can be accomodated. Not only that. If the font you are using has some special symbols/signs, you can specify them here after the first 8 characters. Not only that. You can specify your own short forms too here. For instance, for the 9th character, if you specify "இப்படிக்கு", then when you press 'Mi', you can get 'இப்படிக்கு'. If you specify 'அடியேன்' for 10th character, then when you press 'Mh', you can get 'அடியேன்' and so on. :)
  2. Please note that 'SaiIndira' font is actually of "Tscii" font encoding and hence, as such, including "Tscii" under 'Font Encoding' list is itself enough. But, I have still included 'SaiIndira' separately for the convenience of people who do not know that SaiIndira is of 'Tscii' encoding.
  3. Similarly, TamilBible font has its Tamil characters in the same slots as Bamini has and hence, as such, including "Bamini" under 'Font Encoding' list is itself enough. But, I have still included 'TamilBible' separately for the convenience of people who do not know that both TamilBible and Bamini fonts hold the Tamil characters in the same slots.

In case you are still using Azhagi+ 10.45 downloaded prior to 9-October-2020, then please download Azhagi+ 10.45 afresh and install. It is necessary that you do the same since Azhagi+ 10.45 got updated on 9-October-2020 (allowing you to effect typing and conversion in 10 more font encodings - Chenet Platinum, Elango, Tace, MylaiPlain, KrutiTamil, MCLKannamai, Periyar, Priya, Roja, TmTtValluvar) and again in May-2021 (allowing you to effect typing and conversion in 14 more font encodings - Avaice Jasmine, Adhawin-Tamil, Baamini [not the same as Bamini], Needhimathi, TmlCheran, Pandian, TBoomiS, APT-Sangam, Dev, TA-Arul, Tamil-Aiswarya, Sashi, Ganesha, Lakshmi). And, the "txts-all.zip" file provided below for download will allow you to effect typing and conversion in 2 more font encodings - Vikatan and KavipPriya (and also many more fonts of this same encoding - Cauvery, Chitram, Ellachelvi, EzhilArasi, Kalaiarasi, Kannaki, Kayalvizhi, Menaka, Meenakshi, Nanthini, Nattiya, Ponni, Sakunthalai, Seethai, Sivakami, Thamarai, Thenmozhi, Ulagamai, etc.).

[205] UTF-16LE 形式のテキストファイルフォント符号化を定義できます。 >>208 変換器が未対応の符号化でも簡単に追加できるということのようです。

[206] テキストファイルの形式は >>208 で説明されているほか、 >>210 に例文があります。ただし >>210UTF-8 ですし、英語の説明が入っています。

[211] ファイルの内容は文字(列)を空白や改行で区切りつつ指定の通り並べるだけです。 空白や改行の位置と数は厳密に決まっています。 該当文字が存在しないときは 0 とします。 最後の行は利用可能な ASCII文字を表し、すべて利用可能なときは all と指定できます。そうでないときは空白区切りで列挙します。 >>208

[202] >>201 に49個のファイルがあります。

[204] >>203 に2個のファイルがあります。

[222] 配布ファイルでは all の利用例はありません。

[223] 配布ファイルは ASCII文字の行の後に更にデータが続きますが、説明がなく詳細は不明です。

[225] 101010101010101 は区切子と思われます。

[226] Names: は当該符号化を使うフォントの名前と思われます。 , (と空白) で区切って複数記述できます。

[224] Bilingual:Yes, No, Mid を指定できるようで、 bilingual (ASCII と共存)、 monolingual (ASCII を置き換え)、 中間のいずれかを指定するようです。


[214] タミル語や他の印度言語文字に留まらず世界中の言語・文字に対応していると謳っています。 >>212

[216] この機能は LFK ('Language + Font Encoding + Keyboard Layout' combination) と呼ばれ、 専用の XML ファイル形式で記述されています。 >>218

[217] LFKXML ファイルは単体で Web 配布されている >>219 他、 ひとまとめでも配布され >>218>>200 にも同梱されています。 661種類が用意されています >>219

NHM Converter

[238] >>237

  • Software to Convert text in most known Tamil character encoding schemes from one to another.
  • Supports Unicode, TACE, TSCII, TAB, TAM, Bamini, Shreelipi, Diacritic, Vanavil, Softview. Definitions in an easy XML Structure that makes NHM Converter extendable to any language, any encoding easily

[243] >>242XML ファイルが10個

     20212       1980   9.7% 2007/12/19 00:25:10 ---W  Deflate   796C89FA Data/Tamil/Bamini.xml
     21643       2329  10.7% 2007/12/18 18:25:02 ---W  Deflate   AE6B2CAC Data/Tamil/Diacritic.xml
     20431       2049  10.0% 2007/11/28 15:52:58 ---W  Deflate   E9F9D310 Data/Tamil/Shreelipi.xml
     20839       2075   9.9% 2007/12/19 00:22:12 ---W  Deflate   19551CD1 Data/Tamil/Softview.xml
     21735       2166   9.9% 2007/12/18 18:28:58 ---W  Deflate   C869F502 Data/Tamil/Tab.xml
     20743       1994   9.6% 2008/10/29 02:37:48 ---W  Deflate   58D24191 Data/Tamil/TACE.xml
     22273       2242  10.0% 2007/12/19 00:22:54 ---W  Deflate   4257353E Data/Tamil/Tam.xml
     26717       2547   9.5% 2007/12/19 02:07:28 ---W  Deflate   30A7193A Data/Tamil/TSCII.xml
     21947       2051   9.3% 2008/05/14 13:51:46 ---W  Deflate   3938BF3F Data/Tamil/Unicode.xml
     21897       2171   9.9% 2007/12/19 00:25:42 ---W  Deflate   55BEC880 Data/Tamil/Vanavil.xml

[245] >>244 「NHM Converter Extra XML Files」 として

  • Senthamizh (stmzh/rgb/sr-tamil) Font
  • Ka Font
  • Jeeva Font
  • Chenet Platinum Font
  • Lt-tm Font
  • Shree Lipi Font

の6個の XML ファイルが配布されている。

[246] ここで使われている XML ファイルは単純な独自形式。

Online Tamil Font Converter

[255] >>252 は自動判定と変換ができる JavaScript ソフトウェア。判定と変換のデータは >>253。 実装は >>254自動判定は変換表との一致数が最も多い符号化を採用するらしい。

[256] このサイトには他にも1対1の変換ページが多数あり、それぞれにも別の JavaScript ファイルでハードコードされた変換表を用意している。 >>255 と一致しているかは未検証。 >>257 >>258 はそれらをまとめて読み込んで変換器を提供している。

[267] >>266>>256 の古い版? (未検証)

[275] >>273>>266 の古い版らしい

[276] >>266, >>273 は表示用に Webフォント (EOT) を使っている

[277] >>274smart quotes の逆変換。 Microsoft Word などのオートコレクトで勝手に破壊されるのを復元する目的なのだろう。 (他の解説サイトでもオートコレクトを無効にせよという指示をたまに見かける。)

txt2unicode

[283] >>281

S.Noஎழுத்துரு Encode Name To Unicode ConverterTo Encode Convereter
1அஞ்சல்Anjalanjal2unicodeunicode2anjal
2பாமினிBaminibamini2unicodeunicode2bamini
3பூமிBoomiboomi2unicodeunicode2boomi
4டியாச்ரிடிக்Diacriticdiacritic2unicodeunicode2diacritic
5தினகரன்Dinakarandinakaran2unicodeunicode2dinakaran
6தினமணிDinamanidinamani2unicodeunicode2dinamani
7தினத்தந்திDinathanthydinathanthy2unicodeunicode2dinathanthy
8இன்டோவெப்Indowebindoweb2unicodeunicode2indoweb
9கவிபிரியாKavipriyakavipriya2unicodeunicode2kavipriya
10கோயல்என்Koelnkoeln2unicodeunicode2koeln
11லிபிLibilibi2unicodeunicode2libi
12முரசொலிMurasolimurasoli2unicodeunicode2murasoli
13மலைMylaimylai2unicodeunicode2mylai
14நக்கீரன்Nakkeerannakkeeran2unicodeunicode2nakkeeran
15பழைய விகடன்Old Vikatanoldvikatan2unicodeunicode2oldvikatan
16பல்லவர்Pallavarpallavar2unicodeunicode2pallavar
17ரோமன்Romanroman2unicodeunicode2roman
18ஸ்ரீலிபிShreelipishreelipi2unicodeunicode2shreelipi
19சாஃப்ட் வியூSoftviewsoftview2unicodeunicode2softview
20டேப்Tabtab2unicodeunicode2tab
21டேஸ்Tacetace2unicodeunicode2tace
22டாம்Tamtam2unicodeunicode2tam
23டிஸ்கிTsciitscii2unicodeunicode2tscii
24வானவில்Vanavilvanavil2unicodeunicode2vanavil
25வெப்உலகம்Webulagamwebulagam2unicodeunicode2webulagam
26கண்டுபுடிAutoFindauto2unicodeunicode2auto

Out of 25 encodes, 20 encodes can be found by this auto2unicode.

[284] 自動判定は各符号化の固有文字の出現の有無によっている。固有文字がない入力だと失敗する。

[285] なお unicode2auto は基準文字列を与え、その符号化を判定し、それへと変換する。

調査研究

インド系文字の文字コード, フォント依存符号化

R.Padmakumar による整理

[429] から頃に R.Padmakumar が当時使われていたフォントを調査し、 分類整理して Webサイトで公表していました。

[430] 現在は Internet Archive に断片的に残っています。

[433] 分類 >>431 :

  • TSCII
  • TAB >>451
  • TAM
  • Unicode
  • Traditional Keyboard Perfect Mapped
  • Traditional Keyboard Like (Bamini)
  • Adhawin Based >>471
  • Anjal Based >>476
  • TAMILNET
  • TBoomi
  • Mylai Scheme >>448
  • Shree Scheme >>449
  • Vaara Ithazh Scheme
  • Other Schemes
  • Odd Schemes

[425] このうち Other Schemes は Other Scheme Fonts 1, Other Scheme Fonts 2, Other Scheme Fonts 3, Other Scheme Fonts 4, Other Scheme Fonts 5, Other Scheme Fonts 6 に分類しています。 >>806

[426] 更に、それぞれいずれとも異なる Odd Schemes として、

を挙げています。 >>483, >>807

[444] >>428

With respect to Tamil there are four main coding and collation standards. They are Unicode, TSCII, TAB and TAM. Of these Unicode and TSCII are widely used in the internet and Tamil softwares. TAB and TAM are the mainly used in Tamilnadu Govt based WebPages and softwares.

関連

フォント依存符号化

[41] முரசு அஞ்சல் - யூனிகோட் தமிழ்ப் பக்கம், , https://web.archive.org/web/20090826084425/http://www.murasu.com/unicode/sample.html

[86] TACE16

メモ