[1] 2016年2月にはてなブックマークの日間ランキング >>2 に入っている記事 >>4 を対象とします。 ただし同じサイト (eTLD+1) の記事が複数回ランクインしているときは、そのうちいずれか1つを選んでいます。
[3] 当該記事が起源のトップページ (URL /) でない時は、
記事に加えてトップページも対象とします。
[5] 対象サイトは343件、ページは680件あります。
[6] 対象ページ中、調査時点で状態符号が 200 のものが627件ありました。
MIME型はいずれも text/html でした。
[7] ランクインしている対象ページ343件中で、 フィードへのリンクが含まれているものが226件ありました。 ランクインしている対象ページか、 そこになければ同じ起源のトップページにはフィードへのリンクが含まれているものは 244件ありました。 つまり、約71パーセントにはフィードへのリンクが含まれていました。
[9] ここで、フィードへのリンクとは、
link 要素、a 要素、
area 要素で、
rel 属性に alternate が含まれて
type 属性が application/rss+xml
または application/atom+xml のいずれかであるか、
もしくは rel 属性に feed
が含まれているかのいずれかを満たすものをいいます。
[11] 対象ページ中に rel=feed のフィードへのリンクはありませんでした。
[10] 対象ページ中に area 要素のフィードへのリンクはありませんでした。
[12] 対象ページ中に1件だけ a 要素のフィードへのリンクがありました。
同じページに link 要素のフィードへのリンクが含まれていました。
両者の href 属性は違っていましたが、
リダイレクト先は同じ URL でした。
[16] 対象ページ中のフィードへのリンクの個数は次の通りでした。
[14] 10個含まれる例 (>>15)、7個含まれる例 (>>13) を見ると、 記事カテゴリーごとのフィードの一覧が含まれていました。
[17] 2個含まれるものは、 RSS と Atom だったり、 RSS 1.0 と RSS 2.0 だったり、記事フィードとコメントフィードだったりするようです。
[66] 対象ページのうち400個 (59%) は、 同じ起源のフィードへのリンクだけを含んでいました。 22個 (3%) は、異なる起源のフィードへのリンクだけを含んでいました。 9個 (1%) は、同じ起源のフィードと異なる起源のフィードのリンクを両方含んでいました。
[67] 異なる起源のフィードの多くは、 FeedBurner (feeds.feedburner.com、feedproxy.google.com、対象サイトのサブドメイン) を使っていました。 その他に、対象サイトの別のサブドメインにあるフィードを参照するものが数例ありました。 他に同じ所有者とみられる同名別 TLD のフィードを参照するものや、 ブログサービスのフィードを参照するもの、 newsformat.jp のフィードを参照するものもありました。
[18] Feed discovery の調査対象ページからリンクされていたフィードを対象とします。 全部で482件あります。
[19] うち調査時点で状態符号が 200 のものが427件、
301 と 302 のものが計45件ありました。
[21] 対象フィード中、 43件 (9%) が RSS 1.0、 282件 (58%) が RSS 2.0、 19件 (4%) が Atom 0.3、 79件 (16%) が Atom 1.0 でした。
[20] MIME型と実際の内容は次の通りでした。application/atom+xml 72件application/rdf+xml 4件application/rss+xml 191件application/xml 51件text/html 3件text/plain 1件text/xml 105件
[44] channel 要素の
dc:creator 要素を含むフィードが
14件 (3%)、
dc:publisher 要素を含むフィードが
11件 (2%) ありました。
[45] channel 要素の
dc:date 要素を含むフィードが
16件 (3%) ありました。
[46] channel 要素の
dc:subject 要素を含むフィードが
6件ありました。
[47] channel 要素の atom:link
要素を含むフィードが20件 (4%) ありました。
rel 属性値ごとの件数は次の通りでした。
[48] item 要素の
dc:creator 要素を含むフィードが
29件 (6%)、
dc:publisher 要素を含むフィードが
4件ありました。
[49] item 要素の
dc:date 要素を含むフィードが
43件 (9%) ありました。
[50] item 要素の
dc:subject 要素を含むフィードが
30件 (6%) ありました。
[51] item 要素の description 要素を含むフィードが
41件 (9%)、 description 要素が「<」または「&」を含むのが
15件 (3%)。
content:encoded 要素を含むフィードが
29件 (6%)。
[29] channel 要素の category 要素を含むフィードが2件、
item 要素の category 要素を含むフィードが149件ありました。
channel 要素の itunes:category
要素を含むフィードが1件ありました。
[26] category 要素で domain 属性が指定されている場合、
その値ごとのフィード数は次の通りでした。
[25] cloud 要素を使ったフィードが2件ありました。
どちらも WordPress を使っているようです。
[28] docs 要素を使ったフィードが63件ありました。
うち69件が http://blogs.law.harvard.edu/tech/rss、
3件が http://www.rssboard.org/rss-specification でした。
[34] channel 要素の lastBuildDate 要素を含むフィードが
257件 (53%) ありました。
pubDate 要素を含むフィードが
13件 (3%) ありました。
dc:date 要素を含むフィードが
3件ありました。
[35] channel 要素の
managingEditor 要素を含むのが5件、
webMaster 要素を含むのが5件、
dc:creator 要素を含むのが8件、
itunes:author 要素を含むのが1件ありました。
[36] channel 要素の atom:link
要素を含むフィードが189件 (39%) ありました。
rel 属性値ごとの件数は次の通りでした。hub 49件next 1件search 2件self 188件type=application/rss+xml 186件type=application/atom+xml 1件type なし 1件
[38] https://www.w3.org/2005/Atom 名前空間の link
要素を使ったフィードもありました。
[30] item 要素の author 要素を含むフィードが
5件 (1%)、
dc:creator 要素を含むフィードが
136件 (28%) ありました。
[31] item 要素が enclosure 要素を含むフィードが8件ありました。
うち7件は type 属性が image/jpeg または
image/jpg でした。そのうちいくつかは、
指定された URL には実際には PNG がありました (>>39)。
type 属性のない1件は、 PNG でした (>>40)。
[32] item 要素の guid 要素を含むフィードが
229件 (48%) ありました。
148件 (31%) には isPermaLink 属性があり、
56件 (12%) には isPermalink 属性がありました。
[33] item 要素の description 要素を含むフィードが
237件 (49%)、 description 要素が「<」または「&」を含むのが
187件 (39%)。
content:encoded 要素を含むフィードが
97件 (20%)。
[42] 19件 (4%) ありましたが、いずれもライブドアブログのようで、 形式もほぼ共通しています。
[41] atom:content 要素には、 mode=escaped と
type=text/html が指定されていました。
[43] atom:summary 要素には、 type=text/plain
が指定されていました。
[52] atom:feed 要素の atom:author 要素が含まれるものが
63件 (13%)、
そのすべてが atom:name 要素を含み、
atom:email 要素を含むものが4件、
atom:uri 要素を含むものが4件ありました。
[55] atom:entry 要素の atom:author 要素が含まれるものが
73件 (15%)、
そのすべてが atom:name 要素を含み、
atom:email 要素を含むものが2件、
atom:uri 要素を含むものが7件ありました。
[53] atom:feed 要素の atom:category 要素が含まれるものが
2件、atom:entry 要素の atom:category 要素が含まれるものが
68件 (14%) ありました。
[22] Atom 1.0 以外も含め、対象フィード中、
atom:category 要素が含まれるものは
73件ありました。うち13件は label なし、
label と term が同じ値なのが58件、
違う値なのが2件でした。
違う値のもは、いずれも label を小文字化したものが
term となっていました。
[27] atom:category 要素に scheme
属性が指定されている場合、その値ごとの件数は次の通りでした。http://www.blogger.com/atom/ns# 2件http://www.sixapart.com/ns/types#category 5件http://www.sixapart.com/ns/types#tag 2件
[54] atom:entry 要素の thr:total 要素が含まれるものが
6件ありました。
[56] atom:content 要素が含まれるものが
73件 (15%) ありました。
その type 属性が含まれるものが71件ありました。
type=html が71件、 type=xhtml が1件ありました。
(type=html と type=xhtml を1つの文書内で併用した例
(>>57) がありました。)
MIME型指定や src 属性の利用例はありませんでした。
[63] atom:feed 要素の atom:title 要素が含まれるものが
79件 (16%) ありました。
その type 属性が含まれるものが10件あり、
すべて text と指定されていました。
[60] atom:entry 要素の atom:title 要素が含まれるものが
77件 (16%) ありました。
その type 属性が含まれるものが9件あり、
うち7件が html、2件が text と指定されていました。
[62] atom:feed 要素の atom:subtitle 要素が含まれるものが
67件 (14%) ありました。
その type 属性が含まれるものが8件あり、
うち2件が html、6件が text と指定されていました。
[59] atom:entry 要素の atom:summary 要素が含まれるものが
72件 (15%) ありました。
その type 属性が含まれるものが63件 (13%) あり、そのすべての値が
html でした。
[61] atom:feed 要素の atom:link
要素を含むフィードが79件 (16%) ありました。
rel 属性が指定されたものが23件 (5%) ありました。
rel 属性値ごとの件数は次の通りでした。alternate 20件type=text/html 20件http://schemas.google.com/g/2005#feed 4件hub 9件next 2件self 22件type 属性なし 2件type=application/atom+xml 20件
[58] atom:entry 要素の atom:link
要素を含むフィードが77件 (16%) ありました。
rel 属性が指定されたものが19件 (4%) ありました。
rel 属性値ごとの件数は次の通りでした。
[65] フィードの XML のうち、8件が非整形式でした。
うち1件は XML宣言の前に空白があり、
7件は U+0008 や U+0010 のような制御文字が含まれていました。
[72] link 要素で示された URL の多くは、
フィードと同じ起源のものでしたが、そうでないものも少なからずありました。
異なる起源の URL が使われる事情には、次のようなものあるようです。
[64] xml:base 属性がみられたのは、
content:encoded 要素と、
Atom 0.3 と Atom 1.0 の atom:content
要素のみでした。
いずれも内容の URL は絶対URLになっていて本属性があってもなくても変わらなそうですし、
そうでなくてもフィード自体と同じ起源の URL が指定されているものが多そうです。
[69] HTML データ中に link 要素があって、
スタイルシートを参照した例がありました。
[71] HTML データ中に id 属性があって、
素片識別子のみの URL を指定した a
要素を使っている例がありました。
[76] 同じフィードの異なる要素に含まれる HTML 同士の
id の衝突への配慮は無さそうに見えます。
[73] HTML データ中に出現した要素の種類と、出現フィード数は次の通りでした。a 279address 2article 1aside 1audio 16b 66big 1blockquote 165br 260button 1center 17cite 113code 22dd 4del 13div 212dl 6dt 6em 60fieldset 5figcaption 7figure 8font 15footer 2form 6h1 12h2 83h3 142h4 109h5 61h6 9hr 40i 14iframe 157img 248input 6ins 11label 4legend 2li 160link 2meta 2normal 2noscript 2ol 67p 261pan 2pre 34q 3rt 1ruby 1s 13script 136section 2small 28span 196strike 1strong 158style 13sup 9table 55tbody 55td 55textarea 1th 34thead 19time 8title 1tr 55u 5ul 156wbr 9
[74] iframe 要素の出現数が多いのは、
はてなブログの外部URLリンク機能を使ったものが全文そのままフィードに含まれているためのようです。
[70] script 要素の出現数が多いのは、
Twitter のツイート貼り付けウィジェットを使っているものが多いようです。
広告用スクリプトが参照されているものもありました。
[75] img 要素は、フィードとは異なる起源の URL
を参照しているものがかなりみられました。 CDN の画像を参照するもの、
Amazon の書影を参照するものなどが多いようです。
トラッキング目的と見られる、 width と height
が共に 1 の img 要素も多く見られました。