[23] Webサーバーの /robots.txt
は、
当該Webサーバーのクロールに関する検索エンジンのロボットへの指示を記述するファイルです。
[ROBOTS94] が1994年の合意で、その後1997年に Internet Draft [ROBOTS97] が書かれましたが、未完成のままです。 HTML 4 は附属書 B (参考) の中で解説していますが、規定はしていません。
[3] HTML 4.0 の解説には間違いが沢山ありました。 HTML 4.01 では修正されています。
HTML 4.01 A.1.2 Errors that were corrected IW:HTML4:"appendix/changes.html#h-A.1.2"
[4] sitemaps.org - Protocol ( 版) http://www.sitemaps.org/protocol.html#submit_robots (名無しさん 2007-04-12 11:00:38 +00:00)
[21] wget
は複数の URL を保存する時標準設定で robots.txt
に従いますが、
設定を変更して無効化することもできます。
[1] robotはぢきについて http://c-moon.jp/robots.shtml
[6] 自分のサイトを更新チェックされたくない - はてなアンテナのヘルプ ( 版) http://hatenaantenna.g.hatena.ne.jp/keyword/%E8%87%AA%E5%88%86%E3%81%AE%E3%82%B5%E3%82%A4%E3%83%88%E3%82%92%E6%9B%B4%E6%96%B0%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%81%95%E3%82%8C%E3%81%9F%E3%81%8F%E3%81%AA%E3%81%84?kid=19#robots
[8] WWW::RobotsRules - search.cpan.org ( ( 版)) http://search.cpan.org/dist/lcwa/lib/lwp/lib/WWW/RobotRules.pm
[9] WWW::RobotRules::Parser - search.cpan.org ( ( 版)) http://search.cpan.org/dist/WWW-RobotRules-Parser/lib/WWW/RobotRules/Parser.pm
[10] WWW::RobotRules - search.cpan.org ( ( 版)) http://search.cpan.org/dist/WWW-RobotRules/lib/WWW/RobotRules.pm
[11] WWW::RobotRules::Extended - search.cpan.org ( ( 版)) http://search.cpan.org/dist/WWW-RobotRules-Extended/lib/WWW/RobotRules/Extended.pm
[12] robots.txtにおけるAllowとDisallowとSitemapの優先順位 - 45式::雑記 ( (渡辺四ん五(4n5) 著, 版)) http://www.45shiki.net/blog/2009/12/b000924.htm
[13] Robots exclusion standard - Wikipedia, the free encyclopedia ( ( 版)) http://en.wikipedia.org/wiki/Robots_exclusion_standard
[14] Official Google Webmaster Central Blog: Improving on Robots Exclusion Protocol ( ( 版)) http://googlewebmastercentral.blogspot.jp/2008/06/improving-on-robots-exclusion-protocol.html
[15] The Web Robots Pages ( ( 版)) http://www.robotstxt.org/faq/future.html
[16] Robots.txt Specifications - Webmasters — Google Developers ( ( 版)) https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
[17] How to Create a Robots.txt File - Bing Webmaster Tools ( ( 版)) http://www.bing.com/webmaster/help/how-to-create-a-robots-txt-file-cb7c31ec
[18] 著作権法施行規則 ( ( 版)) http://law.e-gov.go.jp/htmldata/S45/S45F03501000026.html#1000000000007000000000000000000000000000000000000000000000000000000000000000000
[27] 開発サーバーなどまったくクロールされたくない場合は、... という robots.txt
を返すべきです。
[5] Robots exclusion standard - Wikipedia () https://en.wikipedia.org/wiki/Robots_exclusion_standard
[19] An Analysis of the World's Leading robots.txt Files (Ben Frederickson著, ) http://www.benfrederickson.com/robots-txt-analysis/
[20] トップ100万ウェブサイトのrobots.txtを解析した人とその結果 | 秋元@サイボウズラボ・プログラマー・ブログ () http://developer.cybozu.co.jp/akky/2017/11/one-million-robots-txt-analyzed/
[25] Wayback Machineがrobots.txtを無視するようになるかも? | 海外SEO情報ブログ () https://www.suzukikenichi.com/blog/wayback-machine-planning-to-ignore-robotstxt/
[28] Official Google Webmaster Central Blog: Formalizing the Robots Exclusion Protocol Specification () https://webmasters.googleblog.com/2019/07/rep-id.html
[29] Official Google Webmaster Central Blog: Google's robots.txt parser is now open source () https://webmasters.googleblog.com/2019/07/repp-oss.html
[30] google/robotstxt: The repository contains Google's robots.txt parser and matcher as a C++ library (compliant to C++11). () https://github.com/google/robotstxt
[31] draft-rep-wg-topic-00 - Robots Exclusion Protocol () https://tools.ietf.org/html/draft-rep-wg-topic-00
[32] GNU Wget 1.20 Manual () https://www.gnu.org/software/wget/manual/wget.html#index-wgetrc-commands
[33] Robots.txt meant for search engines don’t work well for web archives - Internet Archive Blogs () https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/
robots.txt
は検索エンジン向けで運用されている現実があるため、wget
のような異なる目的のロボットがこれに従う必要があるのかどうか、 疑問はあります。