Bootstring

[1] Bootstring は、小さな (少ない) 符号位置の集合によってより大きな集合の文字列を表現するための算法 (アルゴリズム) です >>2。 Bootstring の引数を特定の値に固定した実現値 (インスタンス) (プロファイル) として Punycode があり、 IDNA で国際化ドメイン名のために使われています。

仕様書

[2] RFC 3492 - Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA) <http://tools.ietf.org/html/rfc3492>

性質

[3] Bootstring は次の性質を持つように設計されています >>2 1.1。

[4] 完全性 (completeness) : あらゆる拡張文字列 (extended string) (任意の符号位置の列) は、基本文字列 (basic string) (基本符号位置 (basic code point) の列) によって表現できます。
[5] 固有性 (uniqueness) : ある拡張文字列を表現する基本文字列は、高々1つしか存在しません。
[6] 可逆性 (reversibility) : 拡張文字列を基本文字列に写像できたとすると、その基本文字列から元の拡張文字列に再変換することができます。
[7] 効率的符号化 (efficient encoding) : 基本文字列の長さと拡張文字列の長さの比は小さいです。
[8] 単純性 (simplicity) : 符号化と復号の算法は十分単純です。
- [10] 効率性と単純性は必ずしも両立しませんが、 Bootstring は両者のバランスがとれたものを目指しています。
[9] 可読性 (readability) : 拡張文字列中の基本符号位置は、基本文字列中にそのまま出てきます。
- [11] といってもその主目的は効率性なのですが。

構成要素

[302] Bootstring では、

... といった手法を組み合わせて使っています。

基本符号位置分居

符号化

[13] 拡張文字列を Bootstring で符号化する時には、基本符号位置はすべて元々の順序でそのまま基本文字列の先頭に含めます。 >>2 3.1

[14] 基本符号位置を並べた後には区切子を置きます。 (基本符号位置がまったく無いときは区切子は含めません。) 区切子は特定の基本符号位置とし、基本文字列のその後の部分には使わないものとします。 >>2 3.1

[17] これを基本符号位置分居 (basic code point segregation) と呼びます。

復号

[15] 復号器は、基本文字列中の最後の区切子を探すことにより、どこまでが基本符号位置を並べたものでどこからが非基本符号位置を表すものか判断できます。 >>2 3.1

例

[16] Punycode での例: 「abcあいうえおxyz」は、

abcxyz-k43eqasuw

... となります。基本符号位置で表せる部分が「abcxyz」で、その後に区切子として「-」が挟まり、最後に「あいうえお」を符号化した文字列が続きます。

挿入非整列符号化

[18] 基本符号位置と - を取って残った部分は非基本符号位置を表しています。これは一般化可変長整数を使った非負整数として表された差分の列となっています。 >>2 3.2

[19] 復号器の仕事は基本符号位置の列にこの差分の列を適用して元の拡張文字列に戻すことであり、符号化器の仕事はそうなるような差分の列を生成することとなります。

[20] この符号化の方式は挿入非整列符号化 (insertion unsort coding) と呼ばれています。

復号

[21] 復号の手順をおおまかに表すと次のようになります >>2 3.2。

まず、基本文字列の最初の基本符号位置の部分を取り出します。
次に、区切子の後の差分の列から差分を1つずつ取出し、それを適用します。差分1つに対して1つの非基本符号位置が挿入されることになります。
- 差分の列は、「先へと進む回数を表す値」と「挿入する符号位置を表す値」が交互に繰り返される連長符号化 (run-length encoding) になっています。
- 基本符号位置が挿入されるとしたら、それは誤りです。

一般化可変長整数

[22] 差分は整数の列として表されるのですが、通常の整数だと、

先頭に「0」を付けると同じ整数を表す別の文字列が作れてしまう
複数の整数を並べると (1つの整数の桁数の情報が別途与えられないと) どこで区切られるかわからない

... といった問題があるため、Bootstring ではこれらの問題を解消した一般化可変長整数 (generalized variable-length integers) を使います。 >>2 3.3

[23] 数字としては 0 ... base - 1 を使います。 >>2 3.3
[24] 閾値 t (j) を使います。 >>2 3.3
- 一番上の桁が j 番目とすると、その桁だけが digit_j < t (j) を満たすとします。 >>2 3.3
  - 続きがもうない桁 j では 0 ... t (j) - 1 を使います。
  - 続きがまだある桁 j では t (j) ... base - 1 を使います。
[25] この数字列によって表される値は、次の w (j) を使って Σj digit_j × w (j) で得られる値です。 >>2 3.3
- w (0) = 1 >>2 3.3
  - つまり、一番下の桁については、重みは 1 であり、表される値はその数字の値と同じです。
- w (j) = w (j - 1) × (base - t (j - 1)) >>2 3.3
  - それより上の桁については、重みは一つ下の桁の重みと一つ下の桁で続きがまだある桁に使える数字の個数の積です。
  - ここで t (j - 1) = 0 だったとすると、通常の整数と同じになります。 (もちろん、その場合 >>24 の「続きがもうない桁」が該当無しになり、続きがあるかどうかは判定できなくなります。

[49] Bootstring では小エンディアンを使います >>2 3.3。つまり、一番下の桁が最初に来て、一番上の桁 (閾値よりも小さな桁) が最後に来ます。

[48] t (j) をどう決めても、任意の非負整数の値について一般化可変長整数がちょうど1つだけ存在します。 >>2 3.3

[50] 実際には t (j) は

[51] t (j) = base × (j + 1) - bias
[52] ただし t_min より小さな値とはしない
[53] ただし t_max より大きな値とはしない
[54] base, t_min, t_max は定数
[55] bias は状態変数 (>>56)

... と定義します。 >>2 3.3

符号化

[37] 符号化、つまりある値を一般化可変長整数で表現するには、次のようにします >>2 3.3。

[38] 符号化する値を N とします。
[41] t を t (0) とします。
[39] N が t よりも小さければ、 N を表す数字を出力し、停止します。ここまでに出力した文字列が符号化した結果です。
[42] そうでなければ、
1. [43] t + ((N - t) mod (base - t)) を表す数字を出力します。
2. [46] N を (N - t) div (base - t) とします。
3. [44] t を次の桁の閾値とします。
4. [45] >>39 に戻ります。

[47] つまり、最後の桁では表したい値そのものに対応する数字 (閾値よりも小さな値) を使って表し、それ以外の桁では閾値よりも小さな数字を除いた残った数字だけで (通常の整数のように) 表そうとしたときに使う数字を使って表す、ということになります。

復号

[26] 復号、つまり一般化可変長整数の表す値の計算の方法は、 >>25 から自然に定まります。

[28] 一般化可変長整数の復号 >>2 3.3

[27] N を 0 とします。
[29] w を 1 とします。
[40] t を t (0) とします。
[30] d を次の数字とします。
[31] d と w の積を N に足します。
[32] d が t よりも小さければ、停止します。 N が復号結果の値です。
[33] そうでなければ、
1. [34] w に base から t を引いた値を掛けます。
2. [35] t を次の桁の閾値とします。
3. [36] >>30 に戻ります。

偏差適応

[56] bias (>>55) は、偏差適応 (bias adaptation) によって、一つ前の差分の値に依存して決定します。具体的には、前の差分の後、次の差分の処理の前に、次のように計算します >>2 3.4。

[60] delta を差分とします。
[57] >>58 での桁溢れを防ぐために delta を整数除算します。 >>2 3.4
- 最初の差分であるなら、定数 damp で割ります。 >>2 3.4
- 2つ目以降の差分であるなら、2 で割ります。 >>2 3.4
- 通常1つ目の差分よりも2つ目の差分の方が小さいため、こうしています。 >>2 3.4
[58] delta に、そこまでに符号化または復号する文字列 (その差分に対応する符号位置や基本符号位置もすべて含みます。) の長さによって差分を整数除算した結果を足し合わせます。 >>2 3.4
- 次の差分はより長い文字列に挿入されることとなるので、こうしています。 >>2 3.4
- つまり、文字列の長さに対する差分の長さの割合を delta に足すことになります。
[59] delta を閾値の範囲に収まるまで割り続けます。 >>2 3.4
- これは次の差分を表現するのに必要な数字の最小の個数を予想するものとなります。 >>2 3.4
- 具体的には、 while delta > ((base - tmin) * tmax) div 2 do let delta = delta div (base - tmin) とします。 >>2 3.4
- base から t_min を引くと、続きがまだあることを表す数字が最も多いときの個数となります。
- t_max は続きがもうないことを表す数字が最も多いときの個数となります。
- ループの条件部の (base - t_min) × t_max) では、まだ続く数字の個数ともう続かない数字の個数をかけているので、ちょうど2桁で表せる最大の値を求めていることになります。
- つまり、このループで delta を整数除算した回数が、続きがまだある数字を最も多く取った時 (t_min を閾値としたとき) の桁数になります。
[61] bias は、 >>59 で除算した回数と base の積に対して、 ((base - tmin + 1) * delta) div (delta + skew) を足した値とします。 >>2 3.4
- 現在の差分は次の差分の長さのヒントであり、それによって t (j) は最後になると期待される桁から上の方の桁は t_max に、最後になると期待される桁の前の前までの桁ほ t_min に、最後になると期待される桁の手前の桁はその中間となるよう、こうしています。 (最後になると期待される桁が実際には不要であるとの期待と実際にはもっと長くなる危険性とのバランスでそうしています。) >>2 3.4

擬似コード

[195] 次の擬似コードは、 >>2 6.1 に注釈を入れたものです。

[196]

 function adapt(delta,numpoints,firsttime):
     if firsttime then let delta = delta div damp
     else let delta = delta div 2

[199] 初回実行であれば引数の damp を、そうでなければ 2 を使って delta を割ります。
- [200] これは桁溢れを防止するためです。 (>>56)
- [209] 1つ目の符号位置は最初の n (Punycode では 0x80) からの差分が delta に反映されているので、通常は大きな値になります。2つ目以降では (同じ書字方式の文字は近い符号位置を持つ可能性が高いという性質を仮定すると) 小さな値となります。

[198]

     let delta = delta + (delta div numpoints)

[210] numpoints は処理済みの符号位置の数です。 delta は前の符号位置から今回の符号位置までの値の差に処理済みの符号位置の数を掛けている (>>78) ので、ここで足している値はその値の差を何分の一かにしたもの (>>199) といえます。
- [211] 符号位置は後から出てくるものほど文字列のより後ろの方へと挿入されて delta が大きくなる傾向にあるので (>>128 参照)、その補正のために足しています。

[201]

     let k = 0
     while delta > ((base - tmin) * tmax) div 2 do begin
       let delta = delta div (base - tmin)
       let k = k + base
     end

[213] delta をできるだけ割ります。
[214] base から t_min を引いた数は、閾値 t をもっとも小さくし、できるだけ次の桁に続くことを意味する数字を増やした時の次に続く数字の個数を表しています。
[215] そのたびに k に base を足していっているので、 k は数字の述べ個数になります。
- [216] このあたりは >>157 のループに対応しています。
[217] ループ条件にある (base - tmin) × t_max は、
- [218] 前半は >>214 と同じです。
- [219] t_max は閾値 t をもっとも大きくし、できるだけ次の桁に続かないことを意味する数字を増やしたときの次に続かない数字の個数を表しています。
- [220] それらの積ですから、この桁はまだ続き、次の桁で最後であるとしたときに表せる値の個数になります。

[212]

     return k + (((base - tmin + 1) * delta) div (delta + skew))

[221] >>201 で delta を何度も割っているので、ここでの delta は最後の2桁相当の値になっています。

大文字・小文字混合注釈

[322] Bootstring の実質唯一の具象化であるところの Punycode の主用途たる IDNA は大文字・小文字を区別しないことになっており、 Punycode 化の前に正規化されます。しかし、表示用などで大文字と小文字の区別を保存しておきたいことがあります。そのため、 Bootstring で符号化した基本文字列には大文字・小文字混合注釈 (mixed-case annotation) を埋め込むことができます RFC 3492 A.。

[323] 基本符号位置については、基本符号位置分居による符号化・復号で元の大文字・小文字の区別が保存されますので、特に何もすることはありません。 RFC 3492 A.
[324] 非基本符号位置については、 delta の一般化可変長整数として符号化されますが、その一般化可変長整数を表す最後の数字の大文字・小文字の区別により元の大文字・小文字の区別を保存します。 RFC 3492 A.
- [325] ただし、復号器の出力はあくまで符号化された delta そのものであり、大文字・小文字の区別はそこでは無視されます。
- [326] 大文字・小文字混合注釈は、通常の出力とは別に、どの文字が大文字あるいは小文字であるといった情報を出力することとなります。 RFC 3492 A.

[327] 大文字・小文字混合注釈はオプションの機能であり、Punycode や Bootstring の実装はこれに対応する必要はありません RFC 3492 A.。

[328] 大文字・小文字混合注釈を使うためには基本符号位置の選定に一定の制約があります (>>72)。

引数

[303] Bootstring にはいくつかの引数があります。この引数を特定の値に固定することにより、具体的な算法が定まります。 (その一例が Punycode です。)

[62] Bootstring の引数には、次の制約があります >>2 4.。

[63] 基本符号位置のうちの1つは区切子とする必要があります。 >>2 4.
[64] base を残った基本符号位置の数より大きくはできません。 >>2 4.
[65] 区切子以外の基本符号位置に対して 0 ... base - 1 の数字の値を割り当てる必要があります。 >>2 4.
- [66] 大文字と小文字のように、複数の符号位置が同じ値を持っても構いません。 >>2 4.
- [72] 大文字・小文字混合注釈を使いたい場合、 0 ... t_max - 1 のすべての値について大文字と小文字が必要です。 >>2 4.
[67] initial_n は拡張文字列に現れる最小の非基本符号位置より大きな値にはできません。 >>2 4.
- [149] >>94 での処理がこの初期値からはじまるので、これより小さな非基本符号位置が存在すると、取りこぼしておかしな結果になってしまいます。
[68] 0 ≦ t_min ≦ t_max ≦ base - 1 >>2 4.
[69] 1 ≦ skew >>2 4.
[70] 1 ≦ damp >>2 4.
[71] initial_bias mod base ≦ base - t_min >>2 4.

符号化

[73] 次に示すのは、 >>2 6.3 に示された擬似コードによる Bootstring の符号化の実装に適宜注釈を入れたものです。

[110]

   let n = initial_n

[111] n は、次に処理するべき非基本符号位置は n 以上で最小のものである、というような値を保持する変数です。
- [112] Punycode では initial_n は 0x80 です。 0x00 ... 0x7F はすべて基本符号位置であるため、最初に処理するべき非基本符号位置として最小足り得る 0x80 に設定されています。

[109]

   let delta = 0

[141] delta は非基本符号位置の符号化に直接関わる値です。
[142] ここでは初期値を設定しているだけです。 >>78 で符号化される値が決定します。
[143] 他に >>128 と >>119 でも値が変化します。

[140]

   let bias = initial_bias

[202] 閾値の決定 (>>153) に使う偏差の初期値を設定しています。
[203] >>104 で前の delta に基づき次の delta のための bias を決定します。

[177]

   let h = b = the number of basic code points in the input

[105] b は基本符号位置の数を表し、 >>98 と >>104 で参照されています。
[107] h は処理し終わった符号位置の数を表します。
- [134] >>98 で基本符号位置の処理が終わるので、 h は基本符号位置の個数としておきます。

[98]

   copy them to the output in order, followed by a delimiter if b > 0

[103] 基本符号位置分居 (>>17) を行います。
- [99] input から基本符号位置を取出し、そのままの順序で output に複写します。
- [100] その後に区切子を出力します。
  - [101] ただし、 >>99 が無かったときは出力しません。
  - [102] Punycode では「-」が区切子です。

[74]

   {if the input contains a non-basic code point < n then fail}

[106] >>94 で非基本符号位置を n から上へと探していくので、 n 未満の非基本符号位置が含まれているとすると、正しく処理できません。
[76] このチェックは、 initial_n より小さな符号位置がすべて基本符号位置なら、省略できます。 >>2 6.3
- [77] Punycode ではこれが成立します。 >>2 6.3

[75]

   while h < length(input) do begin

[108] h は処理し終わった符号位置の数になっているので、 input のすべての符号位置を処理するまでこのループは続きます。

[94]

     let m = the minimum {non-basic} code point >= n in the input

[113] m はこのループで処理する符号位置を表しています。
- [114] n が次に処理するべきかもしれない最小の符号位置となっており、それ以上であって input に含まれている最小の非基本符号位置が実際に処理されるべき対象となります。
[79] 「非基本」という条件は、すべての基本符号位置よりも initial_n が大きければ、ここで比較される符号位置はすべて initial_n 以上であるため、常に成立します。 >>2 6.3
- [82] Punycode ではこれが成立します。 >>2 6.3 (>>112)

[78]

     let delta = delta + (m - n) * (h + 1), fail on overflow

[144] ここで符号化されて出力される delta が決まります。
[145] delta は h + 1 進数で、一番下の桁が直前の非基本符号位置からの位置の差 (元の delta)、それより上の桁が直前の非基本符号位置の次の符号位置から実際の符号位置までの値の差 (m - n) を表しています。
[115] delta は、この行の直前において、
- [116] 初回の実行では、 0 です (>>109)。
- [130] 2回目以降の実行では、直前に処理した非基本符号位置からの位置の差となります。
  - [129] 内側のループ (>>120) において、 c が n より小さい時や c が基本符号位置であるときにインクリメントされます (>>128)。
  - [121] 内側のループ (>>120) において、 c と n が等しいとき (>>80) に 0 にリセットされます (>>117)。
    - [127] 必ず一度は実行されます (>>125)。
    - [123] >>120 のループを抜けると、必ず >>122 を通ります。
  - [122] 外側のループ (>>75) の末尾でインクリメントされます (>>119)。
  - [132] まとめると、
    - [131] 非基本符号位置が連続する場合には、 >>121 で 0 にリセットされ、 >>122 でインクリメントされるので、 1 になります。
    - [133] 非基本符号位置の後に基本符号位置や処理済みの非基本符号位置がいくつかあるときは、 >>121 で 0 にリセットされ、 >>129 で処理済み数だけインクリメントされ、 >>122 で一度インクリメントされるので、結局 >>121 で処理した符号位置との間にある符号位置の数より1大きい値 (つまり位置の差) となります。
[135] delta が >>115 のような値となるので、 delta が最大となるのはすべてが非基本符号位置の時であって、その値は先頭から次に処理する符号位置までの距離、つまり処理済みの符号位置の数、すなわち h となります。
[139] m - n は、 >>94 より、ここで処理され得る最小の符号位置 (n) と実際に input に含まれていた最小の符号位置 (m) との差となります。
[147] この delta と m - n は、 delta が h + 1 よりも必ず小さくなるので、 m - n に h + 1 を掛けて足せば一つの値にできます。
- [137] 復号時に取り出すには、 h + 1 で割った商と余りを求めればよいのです。
- [148] h はここまでに処理した符号位置の数なので、復号時にも自明です。
[89] input が長すぎる時 >>2 6.3 (元の delta) や非常に大きな値を含んでいるとき >>2 6.3 (m と n の差が大きすぎるとき) に桁溢れするおそれがあるので、チェックが必要です。
- [146] h + 1 が桁溢れすることは、 >>75 で比較に使われる input の長さが桁溢れしないという前提より、また >>75 の条件がここまで成立していることから、あり得ません。

[88]

     let n = m

[120]

     for each code point c in the input (in order) do begin

[150] ここから内側のループです。

[128]

       if c < n {or c is basic} then increment delta, fail on overflow

[151] 処理対象の符号位置 c が n よりも小さいか、基本符号位置であるなら、つまり今回の外側のループによって処理される符号位置である n より小さいものなら、 delta をインクリメントします。
[81] n の初期値である initial_n があらゆる基本符号位置よりも大きいなら、 c が基本符号位置である時も常に c < n が成立しますから、チェックを省略できます。 >>2 6.3
- [83] Punycode ではこれが成立します。 >>2 6.3
[152] 内側のループ (>>120) 全体で見ると、 delta は結局のところ、これまでに処理を終えた符号位置の数が >>78 に足されたものとなります。
- [87] input が長すぎる時に delta が桁溢れするおそれがあるので、チェックが必要です。 >>2 6.3

[80]

       if c == n then begin

[125] この n は >>94 の m を >>88 で代入したものなので、 input 中にある符号位置です。
- [126] 内側のループ (>>120) は input の符号位置を順に処理しているので、最低1回は必ずこの条件が成立します。

[124]

         let q = delta

[158] ここからが一般化可変長整数 (>>22) による符号化です。 delta の値を符号化して出力します。

[157]

         for k = base to infinity in steps of base do begin

[159] このループでは、一般化可変長整数の一番下の桁から順に出力します。最後の桁まで出力したら抜けます。
[156] k は base の倍数で1倍、2倍、... と増えていきます。
[155] このループは >>154 で抜けます。

[153]

           let t = tmin if k <= bias {+ tmin}, or
                   tmax if k >= bias + tmax, or k - bias otherwise

[160] t は一般化可変長整数における、現在の桁で使う閾値 (>>24) です。
[86] k から bias を引いた値を t に代入しています。ただし、 t が t_min 以上 t_max 以下となるようにします。
[84] t_min を足すところを省略すると、 k が bias よりも大きく bias と t_min の和よりも小さいときに誤った結果になりますが、 bias の計算方法および各引数の条件より、 k がそのような値になることはありません。 >>2 6.3
- [85] これは常に成立します。 >>2 6.3
[204] >>157 のループの、
- [208] はじめのうちは k が小さいので、 t_min が使われます。
- [205] 最後のほうでは k が大きいので、 t_max が使われます。
- [207] 中間では k よりも bias の分小さな値が使われます。
[206] このあたりでおかしなことが起こらないように各引数には >>71 の条件があります。

[154]

           if q < t then break

[162] q が t より小さいということは、 q は最後の1桁だけで表現できるので、ループを抜けます。ループを抜けた >>163 で最後の桁が出力されます。

[161]

           output the code point for digit t + ((q - t) mod (base - t))

[164] >>154 の条件が成立しなかったので、これは途中の桁です。
[165] この桁で表されるのは、
- [166] 閾値よりも下の成分 t と
- [167] 閾値よりも上の成分 q - t のうち、
  - [168] この桁で閾値よりも上の値を表すために使える数字は base - t 個なので
  - [169] それで割った余り
- [170] の和、 >>166 + >>169 です。

[171]

           let q = (q - t) div (base - t)

[173] そして次以降の桁で表されるのは、 >>167 のうち >>168 で割った商であり、これを新しい q とします。

[172]

end

[174] >>157 に戻ります。

[163]

         output the code point for digit q

[175] >>154 から来ました。 q は閾値 t より小さく、1桁の数字で表せます。これが delta の一般化可変長整数の最後の桁です。

[104]

         let bias = adapt(delta, h + 1, test h equals b?)

[176] 偏差適応 (>>56) により、次の delta のための bias を計算します。
- [197] 関数 adapt (>>196) を呼び出します。
- [178] 第1引数の delta はループの今周で処理した値であり、これを元に適応させた bias が返されます。
- [179] 第2引数の h はここまでに処理した符号位置の数です。 h に1を足しているのは、ループの今周で処理していた delta の分です。
- [180] b は基本符号位置の数 (>>177) です。これと h を比較しているので、最初の delta であったかどうかが第3引数の値となります。

[117]

         let delta = 0

[181] 次の非基本符号位置は今回処理し終えた非基本符号位置からの差分によって表現しますので、ここで一端 delta は 0 に戻します。

[118]

         increment h

[184] 符号位置1つ分の処理を終えたので、処理済み符号位置の数である h をインクリメントします。
- [185] これは input の長さより短く、 input の長さは表現できるという仮定があるので、桁溢れすることはありません (>>91 と同じ)。

[182]

end

[192] >>80 からの c の値の条件分岐がここで終わります。

[183]

end

[186] >>120 からの内側のループはここで終わります。 input にまだ続きがあれば、更にもう一周します。
- [188] 現在の n と同じ値の符号位置が input の続きにまだあるかもしれませんし、ないかもしれません。
- [189] input にもう続きがないとしたら、値が n (以下) の符号位置はもう残っていないので、 >>119 に進みます。

[119]

     increment delta and n

[193] 前の非基本符号位置からの差が一つ開いたという意味で、 delta をインクリメントします (>>122)。
[194] 次の符号位置を処理するという意味で (>>189)、 n をインクリメントします。
[91] このインクリメントの直前において delta は input の長さより小さく、 input の長さは桁溢れせずに表せることを前提としているので、 delta はインクリメントしても桁溢れしません。
[92] n は桁溢れするおそれがあります。 >>2 6.3
- [93] n は >>88 で m を代入しています。これは >>94 で代入された符号位置となります。符号位置はすべて整数として表せると仮定しているので >>2 6.、ここまで桁溢れせずに処理できています。
- [97] さて、整数の最大値の符号位置が n に入っていると、インクリメントで桁溢れします。
- [95] しかし、 >>94 で最小の符号位置から順に処理しているということは、最大値である符号位置は最後になってはじめて m、ひいては n に代入されます。
- [96] その場合、 >>75 の条件より (h、つまり処理済みの符号位置の数が input の長さと一致する、つまり最後の符号位置まで処理し終えて条件を満たさなくなったため) どのみちループを抜けます。ループを抜けて終わるだけなので、 n が桁溢れしても問題ありません >>2 6.3。

[90]

end

[187] >>75 からの外側のループはここで終わります。 h がまだ input の長さに達していなければ、更にもう一周します。
- [190] h がまだ input の長さに達していないということは、 n より大きな符号位置がまだあるので、その処理に移ります。
- [191] h が input の長さに等しいなら、これ以上大きな符号位置は残っていないので、符号化は完了です。

復号

[222] 次に示すのは、 RFC 3492 6.2 に示された Bootstring の復号の擬似コードに注釈を加えたものです。

[223]

   let n = initial_n

[270]

   let i = 0

[272] i は、一般化可変長整数を復号した値を入れていく変数です。
[273] 一般化可変長整数として符号化されている各値は一つ前の値からの差分なので (>>18)、復号は一つ前の値に足し合わせていく (>>267) ことで行います。最初の値はその一つ前がないので、 0 からはじめます。

[271]

   let bias = initial_bias
   let output = an empty string indexed from 0

[248]

   consume all code points before the last delimiter (if there is one)
     and copy them to output, fail on any non-basic code point

[243] 入力に区切子が含まれていれば、その前までは基本符号位置分居 (>>17) によって最初に集められた基本符号位置の列なので、それを出力に複写します。
- [244] 区切子が含まれていなければ、全体が delta を符号化したものなので、ここでは何も複写しません。
- [245] 複写する部分はすべて基本符号位置のはずですが、非基本符号位置が含まれているとすればそれは正しい Bootstring ではないので、失敗とします。

[242]

   if more than zero code points were consumed then consume one more
     (which will be the last delimiter)

[247] >>248 で1つ以上の符号位置を複写したなら、もう1符号位置分先に進みます。
[249] この1符号位置分というのは、基本符号位置とその後の delta の部分の間にある区切子となります。

[246]

   while the input is not exhausted do begin

[251] input が終わるまで繰り返します。あるいは算法全体が異常終了することがあります。
[253] この外側のループは >>252 まで (つまり算法の最後まで) 続きます。

[250]

     let oldi = i

[256]

     let w = 1

[258] w は、一般化可変長整数 (>>22) における各桁の重みを表しています。
[259] まずは一番下の桁なので、重みの初期値は 1 です。

[257]

     for k = base to infinity in steps of base do begin

[261] ここからの内側のループでは、一般化可変長整数を一桁ずつ読んで復号していきます。
[262] このループは >>263 まで続きます。
[265] k は base にループの回数 (最初は 1) を掛けた値となります。各桁の重みの基準値的なもので、符号化における >>151 と対応しています。
[266] このループは >>229 の条件が成立した時だけ正常に抜けます。あるいは算法全体が異常終了することがあります。

[260]

       consume a code point, or fail if there was none to consume
       let digit = the code point's digit-value, fail if it has none

[268] 1符号位置 (一桁分) input から読み込みます。正常な入力なら、必ず存在する上、数字としての値が定義されているはずです。
[269] 異常な入力なら存在しない (一般化可変長整数の途中で切れている) 場合や数字としての値が定義されていない符号位置である場合があり、それらの場合にはここで算法全体が終了します。

[267]

       let i = i + digit * w, fail on overflow

[274] >>270 の通り i は次の値を表すことになり、それは前の値からの差分として符号化されているので、元の i に足していきます。
[275] 内側のループの現在の符号位置が表す値である digit (>>260) に現在の桁の重みである w (>>256) を掛けることで、一般化可変長整数のこの桁が表す値が求まり、それを i に足します。
[276] その結果桁溢れするなら、正しく処理できない入力であるため、ここで算法全体を終了します。

[228]

       let t = tmin if k <= bias {+ tmin}, or
               tmax if k >= bias + tmax, or k - bias otherwise

[277] t は一般化可変長整数においてこの桁の次の桁があるかどうかを決める閾値 (>>24) です。
[278] 符号化における >>153 に対応します。
[230] t_min を足す部分は、符号化の時 (>>84) と同様に省略できます。 RFC 3492 6.2

[229]

       if digit < t then break

[280] この桁の値である digit が閾値 t より小さければ、この桁で現在の一般化可変長整数は終わりです。
[281] よって内側のループを抜けて >>264 に進みます。

[279]

       let w = w * (base - t), fail on overflow

[282] 重み w を次の桁用に更新します。
[283] 数字の個数である base から、閾値 t、つまり続きの桁がない数字の数を除いたものが、続きがある桁の数字の個数です。従ってそれをかけたものが次の桁での重みとなります。
[284] 桁溢れするなら、正しく処理できないので、算法全体を終えます。

[263]

end

[285] >>257 からの内側のループはここで終わります。
[286] ここでループを抜けて次に進むことはなく、必ずもう一度実行されます。

[264]

     let bias = adapt(i - oldi, length(output) + 1, test oldi is 0?)

[288] >>250 で保存した前の i と現在の i の差が一般化可変長整数として符号化されていた値であり、符号化の算法でいう delta です。
[289] これを使って偏差適応 (>>56) により次の桁のための bias を決定します。
[290] 第2引数はここまでに処理を終えた符号位置の数であり、このループで処理している値はまだ output に入っていないので、 1 足しています。
[291] 第3引数は一つ目の非基本符号位置であったなら真となります。なぜなら i は後から 0 になることはなく (>>267, >>292, >>299)、 >>270 で初期化した後最初にここに到達した時だけ 0 となるからです。

[287]

     let n = n + i div (length(output) + 1), fail on overflow

[293] 符号位置を表す n (>>223) を更新します。
[294] 前の符号位置からの差が一般化可変長整数として符号化されていたので、元の n に足します。
[295] 符号位置の差は符号化の時に上位の桁に入れられているので (>>78)、一番下の桁を落としたものを足します。

[292]

     let i = i mod (length(output) + 1)

[296] >>287 で求めた符号位置を挿入する位置を決めるため、 i の一番下の桁だけを取り出します。

[224]

     {if n is a basic code point then fail}

[297] ところで、 n は基本符号位置を表すこともあり得ますが、 Bootstring としては認めていないので、そうであったなら不正な入力であるとして算法全体を停止します。
[226] すべての基本符号位置が n_initial よりも小さければ、 n は常に n_initial 以上となるため、この条件が成立することはなく、省略できます。 RFC 3492 6.2
- [298] >>223 のように n の初期値を決めた上で >>287 のように単調増加にだけ変化するからです。
- [227] Punycode はこの条件に当てはまります。 RFC 3492 6.2

[225]

     insert n into output at position i

[300] output の位置 i に符号位置 n を挿入します。

[299]

     increment i

[301] >>225 で1符号位置挿入しましたが、最も近い次の挿入可能な位置はその次であるので、 i に1足します。

[252]

end

[254] >>246 からの外側のループがここで終わります。
[255] 算法全体もここで終わり、停止します。

[231] とある整数の列が与えられた時、それを表現できる符号化された文字列は、ただ一つだけ存在します。 RFC 3492 6.2
- [232] というのは、この復号器の状態は単調増加するだけであり、 RFC 3492 6.2
- [233] かつdelta の表現方法は一種類だけであるためです。 RFC 3492 6.2
[234] 誤り条件として起こり得るのは、 RFC 3492 6.2
- [235] 不正な符号位置
- [236] 予期せぬ input の終了
- [237] 桁溢れ
- [238] 基本符号位置がそのままではなく符号化されて出現する
- [239] ... といったものがあります。 RFC 3492 6.2
- [240] 復号器がこれらの誤りで失敗した場合には、他のどんな input とも同じ出力を生成することはありません。 RFC 3492 6.2
  - [241] そのため、出力を再符号化してもとの input と照らし合わせなくても、符号化の固有性を保証できます。 RFC 3492 6.2

桁溢れの処理

[304] 符号化と復号の算法中に現れている通り、桁溢れの処理が必要となります。 Punycode を IDNA で使う場合は26ビットの符号無し整数があれば十分です RFC 3492 6.4。 (Punycode の項を参照。) それ以外の場合はより大きな整数が必要になることもあるでしょう。

[305] 桁溢れの処理方法は何通りか考えられ、どれが簡便であるかはプログラミング言語にも依存します。

[306] 桁溢れを検出できないプログラミング言語では、次の計算により桁溢れを検出できます RFC 3492 6.4。
- [307] A, B が非負整数、C が正整数、maxint が表現できる最大の整数であるとき、
- [308] A + B が桁溢れすることの必要十分条件は、 B > maxint - A であること。
- [309] A + (B × C) が桁溢れすることの必要十分条件は、 B > (maxint - A) div C であること。
[310] 桁溢れが発生し得る入力を事前に検出する方策も採れます RFC 3492 6.4。
- [311] 符号化において、次の条件が成り立てば、 delta は (M - initial_n) × (L + 1) を超えることはありません。 RFC 3492 6.4
  - [312] input に符号位置で M を超えるものがないこと。
  - [313] input の長さが L を超えないこと。
- [314] 桁溢れを途中で検出する方法よりは入力に対する制限が厳しくなります RFC 3492 6.4。
  - [315] が、 M と L が十分大きければ実用上問題なくなります。
- [316] 復号でも同じようなことができます。一般化可変長整数の数字の列の長さを制限することとなります。 RFC 3492 6.4
  - [317] つまり内側のループ (>>257) の繰り返し数を制限することとなります。 RFC 3492 6.4
  - [318] ただしこの数字の列は長くなることがあるので、32ビットよりも大きな整数が必要になるでしょう。 RFC 3492 6.4
[319] 復号した後再度符号化し、それが元の文字列と一致するかの比較により桁溢れを検出することもできます。 RFC 3492 6.4
- [320] この方法なら桁溢れを途中で検出する方法より入力に対する制限が厳しくなることはありません。 RFC 3492 6.4
  - [321] IDNA の ToUnicode 演算ではこれをしているので、ToUnicode でしか復号器を使わないなら、実は桁溢れの検出は不要です。 RFC 3492 6.4

実装

[329] RFC 3492 には C言語による実装例があります。 Punycode 用ではありますが、容易に他の Bootstring にも拡張できます。 <http://tools.ietf.org/html/rfc3492#appendix-B>

[330] 大文字・小文字混合注釈には対応していません。

[12] Encode::Bootstring - search.cpan.org <http://search.cpan.org/dist/Encode-Bootstring/lib/Encode/Bootstring.pm>

[331] >>12 はちょっと物足りない感じでした。 Punycode を実装できない。