[1] 【URI】 安全ではないので、 URI 中で (URI符号化せずに) 使用してはいけない文字(群)。 Unsafe characters。
[8] 歴代仕様の定義や一般の理解には少しずつずれがあります。
In canonical form, certain characters such as spaces, control characters, some characters whose ASCII code is used differently in different national character variant 7 bit sets, and all 8bit characters beyond DEL (7F hex) of the ISO Latin-1 set, shall not be used unencoded. This is a recommendation for trouble-free interchange, and as indicated below, the encoded set may be extended or reduced.
正規形では、間隔, 制御文字,
その ASCII 符号が変形7ビット集合で異なる国家文字に使われている幾つかの文字、
) より先の全ての8ビット文字である
ISO Latin-1 集合のような文字は符号化せずに使用しません。
次 (訳注: URI符号化の節)
に示すように、符号化する集合は増やしたり減らしたり出来ます。 (訳注: 特別な意味を持つ文字を上述の文字に加えて符号化するとか、特別な意味を持たない符号化された文字を復号するとかの意味。詳しくは RFC 1630 の該当部分を参照のこと。)
Characters can be unsafe for a number of reasons. The space character is unsafe because significant spaces may disappear and insignificant spaces may be introduced when URLs are transcribed or typeset or subjected to the treatment of word-processing programs. The characters "<" and ">" are unsafe because they are used as the delimiters around URLs in free text; the quote mark (""") is used to delimit URLs in some systems. The character "#" is unsafe and should always be encoded because it is used in World Wide Web and in other systems to delimit a URL from a fragment/anchor identifier that might follow it. The character "%" is unsafe because it is used for encodings of other characters. Other characters are unsafe because gateways and other transport agents are known to sometimes modify such characters. These characters are "{", "}", "|", "\", "^", "~", "[", "]", and "`".
間隔文字は、 URL
文字 <
自由文中で URL の周りの区切子として使うので非安全です。
引用符 ("
を URL を区切るのに使うシステムもあります。
文字 #
World Wide Web や他のシステムで
URL とこれに続き得る素片・アンカー識別子を区切るのに使うので、
文字 %
, }
, |
, \
, ^
, ~
, [
, ]
, `
All unsafe characters must always be encoded within a URL. For example, the character "#" must be encoded within URLs even in systems that do not normally deal with fragment or anchor identifiers, so that if the URL is copied into another system that does use them, it will not be necessary to change the URL encoding.
全ての非安全文字は URL
例えば、文字 #
URL 中では符号化しなければなりません。
こうすれば URL がこれらを使用するほかのシステムに複製されても、
URL 符号化を変更する必要がなくなります。
[4] RFC2068 は HTTP/1.1 なので URI RFCs の本筋からはそれますが。
- unsafe = CTL | SP | <"> | "#" | "%" | "<" | ">"