Mais conteúdo relacionado
Mais de Lumin Hacker (11)
クローリングしにくいものに挑戦 公開用
- 2. about me
• 杉浦隆幸
• ネットエージェント株式会社代表取締役
2
• PacketBlackHole, OnePointWall, 防人, secroidの原開発者
• CTFチャレンジジャパン経済産業省主催のCTF(ハッキングの技術大
会)優勝メンバー(Agent IV)
• ほこ×たてハッカー×セキュリティのたて側
• Winnyの暗号解読に初めに成功
• TVニュース番組での事件解説多数
• 第4回IPA賞受賞
• 2010年に政府の情報保全検討委員
• など
- 3. Agenda
• なぜクローリングしにくいのか
• クローリングしにくいプロトコル
• 匿名クローリング
• クローリングしにくいページ
• クローリング制限
• 非HTTPプロトコル
公開用は一部情報を削減しています。
3
- 7. クローラレベル
レベルを上げるたびに
より人間らしく。
• 1 wget
• 2 UAをブラウザに
• 3 Cookie対応、referer対応
• 4 リクエスト全てをブラウザと同じに
• 5 リクエスト全てをブラウザと同じに+Cookie対応
• 6 IPアドレスを短周期で変える
• 7 ブラウザでクローリングする
• 8 アクセスタイミングをランダマイズする
• 9 人間がアクセスした内容をパケットから再現
• 10 人間のアクセスパターンでブラウザ自動制御
注) 当社基準
7
- 9. クローリングを難しくする要素
• Proxy
• HTTPS
• 443/tcp 以外
• SOCKS
• WebSocket
• ws://
• wss://
• SPDY
• SPDY proxy
• 非Web系プロトコル
• IPv6 (環境があれば簡単)
9
1つの要素なら誰かが実
装していることが多い。
WebSocket をSSLでHTTPS Proxyを通すとか、
実装されていないケースも多い。
- 10. SPDY
10
• Googleの開発した次世代のHTTPプロトコルの候補。SSL通
信上で作成されているので、SSL対応が必須。表示が早くなり
そうな名前であるが、大抵の場合は、サイトアクセスの構成を
見直すなど先にやることがある。マシン台数が多く転送量が
多く常時SSLで限界まで最適化した場合のみ恩恵にあやかれ
るらしい。
• Googleやtwitterが対応している。
- 13. Torを使った匿名クローリング
• SOCKS proxyとして利用
• SOCKS 対応のクローラが必要。
• wgetの一部のバージョンでは利用可能。
13
• プロトコルは単純なので対応していない場合はsocketから書く
- 30. P2Pクローラ
• Winny
• Share
• PerfectDark
• Limewire/Cabos
• BitTorrent
• BitCoin
• P2Pは主としてClosed プロトコルのクローリング
• 自律分散型
30