たちの悪いクローラー - 2017/01/28 02:31:36

白黒猫のサーバが少し重めです

 

最近、たちの悪いクローラーが増えてきました

 

そのなかでも、代表的なものを3つ

1)SiteExplorer

2)MJ12bot

3)BLEXBot

この3つは、バカみたいに短時間でアクセスしてくる
しかも、収集したデータは何にしようしているか不明

 

なので、Disallow

 

とくに、たちが悪いのが、 MJ12bot
こいつは、URLのパラメータの値を変えて、総当たり的にクローリングをしてくる
(白黒猫のサーバでは大丈夫ですが、仕事のサーバでそんなログが数多くありました)

 

bingbot/2.0も、結構な短時間で大量にアクセスしにくるけど、
もう少し気を使え!って言いたくなるな

なので、Crawl-Delay を指定

 

あぁ、なんかWEB2.0 とか言ってる前の時代の内容ですね

 

白黒猫のサーバを守るのは、白黒猫なので、この辺もしっかりしていかないとなぁ






名前
コメント
© shirokuroneko 2001 - 2017