[1] コーパスのタグセット各種の
ruby
要素や
lRuby
要素は、
ルビを表します。
[2]
ruby
は、
右ルビを表します。
>>29 #page=15, >>32 #page=24
[3]
lRuby
は、
左ルビを表します。
>>29 #page=15, >>32 #page=24
[4]
ルビ文字列は必須の rubyText
属性に書きます。
>>29 #page=15, >>32 #page=24
[5]
ルビ基底は要素の内容によります。
ただし複数の SUW
要素で構成される文字列に対して1つのルビとなる場合は、
ruby
要素の範囲は先頭の短単位のみとし、
rubyBase
属性値にそれを含むルビ基底の全体を指定します。
>>29 #page=15, >>32 #page=24
[6]
ruby
は r
要素と同義です。
>>29 #page=15 には開始タグが ruby
,
終了タグが r
の例文がありますが、
誤植なのか、
実際にコーパスに出現することがあるのかはわかりません。
[7]
ルビ文字列に誤植や推定や濁音補正があるときは、訂正後の値とし、
corr
や unclear
や vMark
を併用します。
unclear
, vMark
[8] 属性値に構造を入れられないという制約とルビ文字列に属性値を使うという選択 (ほとんどの場合の簡潔さを優先した?) のため、 ルビ文字列に注釈を加えたい時にややこしいことになっています。
[9] C-XML(文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ), https://clrd.ninjal.ac.jp/bccwj/c-xml.html
<ruby rubyText="ご">語</ruby><ruby rubyText="い">彙</ruby>
[10] M-XML(統合形式XMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ), https://clrd.ninjal.ac.jp/bccwj/m-xml.html