crawling-kt の変更点 - LANGUAGE MEDIA PROCESSING LAB

*Kyoto-Tohoku-Crawlerついて [#v5a3781d] **概要 [#e9bed4b7] [[京都大学黒橋・河原研究室>http://nlp.ist.i.kyoto-u.ac.jp/]]と[[東北大学乾・岡崎研究室>http://www.cl.ecei.tohoku.ac.jp/]] では、合同でウェブ上を自動的に巡回し、ウェブページを収集しています。収集したウェブページは、言語表現の分析等の研究用データとして使用します。ウェブページの収集にはクローラーと呼ばれるソフトウェアを用いています。 ** クローラーの詳細 [#l872b492] 「Kyoto-Tohoku-Crawler」というUser-Agentのクローラーを運用しています。 Kyoto-Tohoku-Crawlerは以下のIPアドレスからアクセスします。 130.54.130.64/27 130.54.130.224/27 130.54.131.176/29 133.3.240.0/24 130.34.192.82/28 130.34.192.91/28 //東北大のIPアドレスをここに書く ** robots.txtについて [#i7d0c96e] [[robots.txt>https://ja.wikipedia.org/wiki/Robots_Exclusion_Standard]]にて， "*", "ICC-Crawler", "Kyoto-Crawler", "Kyoto-Tohoku-Crawler"のいずれかのUser-agentをDisallowしている場合は，クロール対象外としております． [[robots.txt>https://ja.wikipedia.org/wiki/Robots_Exclusion_Standard]]にて， "*", "Kyoto-Crawler", "Kyoto-Tohoku-Crawler"のいずれかのUser-agentをDisallowしている場合は，クロール対象外としております． -robots.txtの例 User-agent: Kyoto-Crawler Disallow: / 各サイトのrobots.txtは2015年10月に確認しており，それ以後に変更された場合は，クロール対象外となっていない可能性があります．お手数ですが，下記の連絡先にご連絡いただければ直ちに収集を停止するなどの対処をいたします。 **お問い合わせ [#ufada7d2] Kyoto-Tohoku-Crawlerは、収集先ホストに迷惑をかけないよう細心の注意を払って運用をしていますが，万が一、Kyoto-Tohoku-Crawlerの動作に問題がありました場合には、下記の連絡先にご連絡いただければ直ちに収集を停止するなどの対処をいたします。 *** 連絡先 [#qe0ea850] kyoto-crawler-contact あっと nlp.ist.i.kyoto-u.ac.jp