[1] 2016年2月にはてなブックマークの日間ランキング >>2 に入っている記事 >>4 を対象とします。 ただし同じサイト (eTLD+1) の記事が複数回ランクインしているときは、そのうちいずれか1つを選んでいます。
[3] 当該記事が起源のトップページ (URL /
) でない時は、
記事に加えてトップページも対象とします。
[5] 対象サイトは343件、ページは680件あります。
[6] 対象ページ中、調査時点で状態符号が 200
のものが627件ありました。
MIME型はいずれも text/html
でした。
[7] ランクインしている対象ページ343件中で、 フィードへのリンクが含まれているものが226件ありました。 ランクインしている対象ページか、 そこになければ同じ起源のトップページにはフィードへのリンクが含まれているものは 244件ありました。 つまり、約71パーセントにはフィードへのリンクが含まれていました。
[9] ここで、フィードへのリンクとは、
link
要素、a
要素、
area
要素で、
rel
属性に alternate
が含まれて
type
属性が application/rss+xml
または application/atom+xml
のいずれかであるか、
もしくは rel
属性に feed
が含まれているかのいずれかを満たすものをいいます。
[11] 対象ページ中に rel=feed
のフィードへのリンクはありませんでした。
[10] 対象ページ中に area
要素のフィードへのリンクはありませんでした。
[12] 対象ページ中に1件だけ a
要素のフィードへのリンクがありました。
同じページに link
要素のフィードへのリンクが含まれていました。
両者の href
属性は違っていましたが、
リダイレクト先は同じ URL でした。
[16] 対象ページ中のフィードへのリンクの個数は次の通りでした。
[14] 10個含まれる例 (>>15)、7個含まれる例 (>>13) を見ると、 記事カテゴリーごとのフィードの一覧が含まれていました。
[17] 2個含まれるものは、 RSS と Atom だったり、 RSS 1.0 と RSS 2.0 だったり、記事フィードとコメントフィードだったりするようです。
[66] 対象ページのうち400個 (59%) は、 同じ起源のフィードへのリンクだけを含んでいました。 22個 (3%) は、異なる起源のフィードへのリンクだけを含んでいました。 9個 (1%) は、同じ起源のフィードと異なる起源のフィードのリンクを両方含んでいました。
[67] 異なる起源のフィードの多くは、 FeedBurner (feeds.feedburner.com、feedproxy.google.com、対象サイトのサブドメイン) を使っていました。 その他に、対象サイトの別のサブドメインにあるフィードを参照するものが数例ありました。 他に同じ所有者とみられる同名別 TLD のフィードを参照するものや、 ブログサービスのフィードを参照するもの、 newsformat.jp のフィードを参照するものもありました。
[18] Feed discovery の調査対象ページからリンクされていたフィードを対象とします。 全部で482件あります。
[19] うち調査時点で状態符号が 200
のものが427件、
301
と 302
のものが計45件ありました。
[21] 対象フィード中、 43件 (9%) が RSS 1.0、 282件 (58%) が RSS 2.0、 19件 (4%) が Atom 0.3、 79件 (16%) が Atom 1.0 でした。
[20] MIME型と実際の内容は次の通りでした。application/atom+xml
72件application/rdf+xml
4件application/rss+xml
191件application/xml
51件text/html
3件text/plain
1件text/xml
105件
[44] channel
要素の
dc:creator
要素を含むフィードが
14件 (3%)、
dc:publisher
要素を含むフィードが
11件 (2%) ありました。
[45] channel
要素の
dc:date
要素を含むフィードが
16件 (3%) ありました。
[46] channel
要素の
dc:subject
要素を含むフィードが
6件ありました。
[47] channel
要素の atom:link
要素を含むフィードが20件 (4%) ありました。
rel
属性値ごとの件数は次の通りでした。
[48] item
要素の
dc:creator
要素を含むフィードが
29件 (6%)、
dc:publisher
要素を含むフィードが
4件ありました。
[49] item
要素の
dc:date
要素を含むフィードが
43件 (9%) ありました。
[50] item
要素の
dc:subject
要素を含むフィードが
30件 (6%) ありました。
[51] item
要素の description
要素を含むフィードが
41件 (9%)、 description
要素が「<」または「&」を含むのが
15件 (3%)。
content:encoded
要素を含むフィードが
29件 (6%)。
[29] channel
要素の category
要素を含むフィードが2件、
item
要素の category
要素を含むフィードが149件ありました。
channel
要素の itunes:category
要素を含むフィードが1件ありました。
[26] category
要素で domain
属性が指定されている場合、
その値ごとのフィード数は次の通りでした。
[25] cloud
要素を使ったフィードが2件ありました。
どちらも WordPress を使っているようです。
[28] docs
要素を使ったフィードが63件ありました。
うち69件が http://blogs.law.harvard.edu/tech/rss
、
3件が http://www.rssboard.org/rss-specification
でした。
[34] channel
要素の lastBuildDate
要素を含むフィードが
257件 (53%) ありました。
pubDate
要素を含むフィードが
13件 (3%) ありました。
dc:date
要素を含むフィードが
3件ありました。
[35] channel
要素の
managingEditor
要素を含むのが5件、
webMaster
要素を含むのが5件、
dc:creator
要素を含むのが8件、
itunes:author
要素を含むのが1件ありました。
[36] channel
要素の atom:link
要素を含むフィードが189件 (39%) ありました。
rel
属性値ごとの件数は次の通りでした。hub
49件next
1件search
2件self
188件type=application/rss+xml
186件type=application/atom+xml
1件type
なし 1件
[38] https://www.w3.org/2005/Atom
名前空間の link
要素を使ったフィードもありました。
[30] item
要素の author
要素を含むフィードが
5件 (1%)、
dc:creator
要素を含むフィードが
136件 (28%) ありました。
[31] item
要素が enclosure
要素を含むフィードが8件ありました。
うち7件は type
属性が image/jpeg
または
image/jpg
でした。そのうちいくつかは、
指定された URL には実際には PNG がありました (>>39)。
type
属性のない1件は、 PNG でした (>>40)。
[32] item
要素の guid
要素を含むフィードが
229件 (48%) ありました。
148件 (31%) には isPermaLink
属性があり、
56件 (12%) には isPermalink
属性がありました。
[33] item
要素の description
要素を含むフィードが
237件 (49%)、 description
要素が「<」または「&」を含むのが
187件 (39%)。
content:encoded
要素を含むフィードが
97件 (20%)。
[42] 19件 (4%) ありましたが、いずれもライブドアブログのようで、 形式もほぼ共通しています。
[41] atom:content
要素には、 mode=escaped
と
type=text/html
が指定されていました。
[43] atom:summary
要素には、 type=text/plain
が指定されていました。
[52] atom:feed
要素の atom:author
要素が含まれるものが
63件 (13%)、
そのすべてが atom:name
要素を含み、
atom:email
要素を含むものが4件、
atom:uri
要素を含むものが4件ありました。
[55] atom:entry
要素の atom:author
要素が含まれるものが
73件 (15%)、
そのすべてが atom:name
要素を含み、
atom:email
要素を含むものが2件、
atom:uri
要素を含むものが7件ありました。
[53] atom:feed
要素の atom:category
要素が含まれるものが
2件、atom:entry
要素の atom:category
要素が含まれるものが
68件 (14%) ありました。
[22] Atom 1.0 以外も含め、対象フィード中、
atom:category
要素が含まれるものは
73件ありました。うち13件は label
なし、
label
と term
が同じ値なのが58件、
違う値なのが2件でした。
違う値のもは、いずれも label
を小文字化したものが
term
となっていました。
[27] atom:category
要素に scheme
属性が指定されている場合、その値ごとの件数は次の通りでした。http://www.blogger.com/atom/ns#
2件http://www.sixapart.com/ns/types#category
5件http://www.sixapart.com/ns/types#tag
2件
[54] atom:entry
要素の thr:total
要素が含まれるものが
6件ありました。
[56] atom:content
要素が含まれるものが
73件 (15%) ありました。
その type
属性が含まれるものが71件ありました。
type=html
が71件、 type=xhtml
が1件ありました。
(type=html
と type=xhtml
を1つの文書内で併用した例
(>>57) がありました。)
MIME型指定や src
属性の利用例はありませんでした。
[63] atom:feed
要素の atom:title
要素が含まれるものが
79件 (16%) ありました。
その type
属性が含まれるものが10件あり、
すべて text
と指定されていました。
[60] atom:entry
要素の atom:title
要素が含まれるものが
77件 (16%) ありました。
その type
属性が含まれるものが9件あり、
うち7件が html
、2件が text
と指定されていました。
[62] atom:feed
要素の atom:subtitle
要素が含まれるものが
67件 (14%) ありました。
その type
属性が含まれるものが8件あり、
うち2件が html
、6件が text
と指定されていました。
[59] atom:entry
要素の atom:summary
要素が含まれるものが
72件 (15%) ありました。
その type
属性が含まれるものが63件 (13%) あり、そのすべての値が
html
でした。
[61] atom:feed
要素の atom:link
要素を含むフィードが79件 (16%) ありました。
rel
属性が指定されたものが23件 (5%) ありました。
rel
属性値ごとの件数は次の通りでした。alternate
20件type=text/html
20件http://schemas.google.com/g/2005#feed
4件hub
9件next
2件self
22件type
属性なし 2件type=application/atom+xml
20件
[58] atom:entry
要素の atom:link
要素を含むフィードが77件 (16%) ありました。
rel
属性が指定されたものが19件 (4%) ありました。
rel
属性値ごとの件数は次の通りでした。
[65] フィードの XML のうち、8件が非整形式でした。
うち1件は XML宣言の前に空白があり、
7件は U+0008
や U+0010
のような制御文字が含まれていました。
[72] link
要素で示された URL の多くは、
フィードと同じ起源のものでしたが、そうでないものも少なからずありました。
異なる起源の URL が使われる事情には、次のようなものあるようです。
[64] xml:base
属性がみられたのは、
content:encoded
要素と、
Atom 0.3 と Atom 1.0 の atom:content
要素のみでした。
いずれも内容の URL は絶対URLになっていて本属性があってもなくても変わらなそうですし、
そうでなくてもフィード自体と同じ起源の URL が指定されているものが多そうです。
[69] HTML データ中に link
要素があって、
スタイルシートを参照した例がありました。
[71] HTML データ中に id
属性があって、
素片識別子のみの URL を指定した a
要素を使っている例がありました。
[76] 同じフィードの異なる要素に含まれる HTML 同士の
id
の衝突への配慮は無さそうに見えます。
[73] HTML データ中に出現した要素の種類と、出現フィード数は次の通りでした。a
279address
2article
1aside
1audio
16b
66big
1blockquote
165br
260button
1center
17cite
113code
22dd
4del
13div
212dl
6dt
6em
60fieldset
5figcaption
7figure
8font
15footer
2form
6h1
12h2
83h3
142h4
109h5
61h6
9hr
40i
14iframe
157img
248input
6ins
11label
4legend
2li
160link
2meta
2normal
2noscript
2ol
67p
261pan
2pre
34q
3rt
1ruby
1s
13script
136section
2small
28span
196strike
1strong
158style
13sup
9table
55tbody
55td
55textarea
1th
34thead
19time
8title
1tr
55u
5ul
156wbr
9
[74] iframe
要素の出現数が多いのは、
はてなブログの外部URLリンク機能を使ったものが全文そのままフィードに含まれているためのようです。
[70] script
要素の出現数が多いのは、
Twitter のツイート貼り付けウィジェットを使っているものが多いようです。
広告用スクリプトが参照されているものもありました。
[75] img
要素は、フィードとは異なる起源の URL
を参照しているものがかなりみられました。 CDN の画像を参照するもの、
Amazon の書影を参照するものなどが多いようです。
トラッキング目的と見られる、 width
と height
が共に 1
の img
要素も多く見られました。