crawling の変更点 - LANGUAGE MEDIA PROCESSING LAB

* ウェブページの収集 [#b2a98088] 京都大学黒橋・河原研究室では、ウェブ上を自動的に巡回し、ウェブページを収集しています。収集したウェブページは、知識獲得および情報分析の研究用データとして使用します。ウェブページの収集にはクローラーと呼ばれるソフトウェアを用いています。 ** クローラーの詳細 [#l872b492] 「Kyoto-Crawler」というUser-Agentのクローラーを運用しています。Kyoto-Crawlerは、収集先ホストに迷惑をかけないよう細心の注意を払って運用をしています。万が一、Kyoto-Crawlerの動作に問題がありました場合には、下記の連絡先にご連絡いただければ直ちに収集を停止するなどの対処をいたします。 Kyoto-Crawlerは以下のIPアドレスからアクセスします。 130.54.130.64/27 130.54.130.224/27 130.54.131.176/29 133.3.240.0/24 ** robots.txtについて [#i7d0c96e] [[robots.txt>https://ja.wikipedia.org/wiki/Robots_Exclusion_Standard]]にて， "*", "ICC-Crawler", "Kyoto-Crawler", "Kyoto-Tohoku-Crawler"のいずれかのUser-agentをDisallowしている場合は，クロール対象外としております． -robots.txtの例 User-agent: Kyoto-Crawler Disallow: / 各サイトのrobots.txtは2015年10月に確認しており，それ以後に変更された場合は，クロール対象外となっていない可能性があります．お手数ですが，下記の連絡先にご連絡いただければ直ちに収集を停止するなどの対処をいたします。 ** 連絡先 [#qe0ea850] kyoto-crawler-contact あっと nlp.ist.i.kyoto-u.ac.jp