Enviar pesquisa
Carregar
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
•
19 gostaram
•
14,840 visualizações
Takuro Sasaki
Seguir
AWSを利用してスクレイピングの悩みを解決するチップス クローラー/スクレイピングにAWSを利用しようという話
Leia menos
Leia mais
Internet
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 26
Baixar agora
Baixar para ler offline
Recomendados
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
JAWSUG Osaka S3 CloudSearch
JAWSUG Osaka S3 CloudSearch
Takuro Sasaki
JAWS-UG初心者支部 AWS書籍活用術
JAWS-UG初心者支部 AWS書籍活用術
Takuro Sasaki
JAWSUG architecture-crowler
JAWSUG architecture-crowler
Takuro Sasaki
DevLove Kansai AWS
DevLove Kansai AWS
Takuro Sasaki
20150207 elastic loadbalancer
20150207 elastic loadbalancer
Daiki Mori
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Recomendados
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
JAWSUG Osaka S3 CloudSearch
JAWSUG Osaka S3 CloudSearch
Takuro Sasaki
JAWS-UG初心者支部 AWS書籍活用術
JAWS-UG初心者支部 AWS書籍活用術
Takuro Sasaki
JAWSUG architecture-crowler
JAWSUG architecture-crowler
Takuro Sasaki
DevLove Kansai AWS
DevLove Kansai AWS
Takuro Sasaki
20150207 elastic loadbalancer
20150207 elastic loadbalancer
Daiki Mori
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
Takuro Sasaki
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
Takuro Sasaki
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Takuro Sasaki
Slerがawsで運用してきた話
Slerがawsで運用してきた話
Sato Shun
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
Koichiro Nishijima
イノベーションエッグLt資料
イノベーションエッグLt資料
Yuki Yoshida
20150207 amazon elasticache
20150207 amazon elasticache
Daiki Mori
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
Hiroyuki Hiki
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Daiki Mori
Swaggerで始めるモデルファーストなAPI開発
Swaggerで始めるモデルファーストなAPI開発
Takuro Sasaki
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
Takeshi Wakamatsu
知っておいて損はない AWS法務関連
知っておいて損はない AWS法務関連
Kieko Sakurai
Azure使いから見たAWSの良いところ
Azure使いから見たAWSの良いところ
Masaki Yamamoto
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
Shiraishi Masayuki
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
Yuki Yoshida
20130406 awsのいろんな使い道@jawsug名古屋
20130406 awsのいろんな使い道@jawsug名古屋
Serverworks Co.,Ltd.
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
Tomoya Ishida
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
Shuji Watanabe
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
Takuya Tachibana
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
Hirosuke Asano
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
Lumin Hacker
Crawler for Non engineer
Crawler for Non engineer
Takuro Sasaki
Mais conteúdo relacionado
Mais procurados
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
Takuro Sasaki
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
Takuro Sasaki
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Takuro Sasaki
Slerがawsで運用してきた話
Slerがawsで運用してきた話
Sato Shun
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
Koichiro Nishijima
イノベーションエッグLt資料
イノベーションエッグLt資料
Yuki Yoshida
20150207 amazon elasticache
20150207 amazon elasticache
Daiki Mori
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
Hiroyuki Hiki
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Daiki Mori
Swaggerで始めるモデルファーストなAPI開発
Swaggerで始めるモデルファーストなAPI開発
Takuro Sasaki
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
Takeshi Wakamatsu
知っておいて損はない AWS法務関連
知っておいて損はない AWS法務関連
Kieko Sakurai
Azure使いから見たAWSの良いところ
Azure使いから見たAWSの良いところ
Masaki Yamamoto
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
Shiraishi Masayuki
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
Yuki Yoshida
20130406 awsのいろんな使い道@jawsug名古屋
20130406 awsのいろんな使い道@jawsug名古屋
Serverworks Co.,Ltd.
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
Tomoya Ishida
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
Shuji Watanabe
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
Takuya Tachibana
Mais procurados
(19)
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Slerがawsで運用してきた話
Slerがawsで運用してきた話
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
イノベーションエッグLt資料
イノベーションエッグLt資料
20150207 amazon elasticache
20150207 amazon elasticache
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
40まで開発のリーダーだった男がインフラの運用のリーダー(見習い)になってみて
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Swaggerで始めるモデルファーストなAPI開発
Swaggerで始めるモデルファーストなAPI開発
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
知っておいて損はない AWS法務関連
知っておいて損はない AWS法務関連
Azure使いから見たAWSの良いところ
Azure使いから見たAWSの良いところ
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
20130406 awsのいろんな使い道@jawsug名古屋
20130406 awsのいろんな使い道@jawsug名古屋
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
「リザーブドキングスライム」をやっつけて一撃レベルアップ!
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
[Jaws re:Mote2015]田舎ならt2インスタンスを使いこなせ!
Destaque
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
Hirosuke Asano
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
Lumin Hacker
Crawler for Non engineer
Crawler for Non engineer
Takuro Sasaki
第3回Webスクレイピング勉強会@東京 happyou.info
第3回Webスクレイピング勉強会@東京 happyou.info
Shogo Okamoto
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
yuzoakakura
実践Excelスクレイピング
実践Excelスクレイピング
宏明 塩原
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
Destaque
(7)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
Crawler for Non engineer
Crawler for Non engineer
第3回Webスクレイピング勉強会@東京 happyou.info
第3回Webスクレイピング勉強会@東京 happyou.info
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
実践Excelスクレイピング
実践Excelスクレイピング
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
Semelhante a Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
インフラ系自主トレするならAWS
インフラ系自主トレするならAWS
Yasuhiro Araki, Ph.D
JAWS DAYS 2015
JAWS DAYS 2015
陽平 山口
LocalStack
LocalStack
chibochibo
AWS Update 2011/10
AWS Update 2011/10
Akio Katayama
Amazon Web Services 最新事例集
Amazon Web Services 最新事例集
SORACOM, INC
20121221 AWS re:Invent 凱旋報告
20121221 AWS re:Invent 凱旋報告
真吾 吉田
AWS活用のいままでとこれから -東急ハンズの事例-
AWS活用のいままでとこれから -東急ハンズの事例-
Taiji INOUE
【JAWS-UG Sapporo】はじめてのAWSワークショップ 概説
【JAWS-UG Sapporo】はじめてのAWSワークショップ 概説
Machie Atarashi
MongoDB on AWSクラウドという選択
MongoDB on AWSクラウドという選択
Yasuhiro Matsuo
JAWS-UG北陸第2回 AWSクラウド最新アップデート
JAWS-UG北陸第2回 AWSクラウド最新アップデート
SORACOM, INC
クラウドを使ってみよう - クラウド女子会2011年4月30日
クラウドを使ってみよう - クラウド女子会2011年4月30日
SORACOM, INC
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
Kazumi IWANAGA
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
Yasuhiro Matsuo
これからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしよう
真吾 吉田
AWSを用いたWebホスティング
AWSを用いたWebホスティング
SORACOM, INC
華麗なるElastic Beanstalkでの環境構築
華麗なるElastic Beanstalkでの環境構築
Takehito Tanabe
20130326 aws meister-reloaded-windows
20130326 aws meister-reloaded-windows
Amazon Web Services Japan
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Keisuke Nishitani
20210119 AWS Black Belt Online Seminar AWS CloudTrail
20210119 AWS Black Belt Online Seminar AWS CloudTrail
Amazon Web Services Japan
コスト削減から考えるAWSの効果的な利用方法
コスト削減から考えるAWSの効果的な利用方法
Aya Komuro
Semelhante a Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
(20)
インフラ系自主トレするならAWS
インフラ系自主トレするならAWS
JAWS DAYS 2015
JAWS DAYS 2015
LocalStack
LocalStack
AWS Update 2011/10
AWS Update 2011/10
Amazon Web Services 最新事例集
Amazon Web Services 最新事例集
20121221 AWS re:Invent 凱旋報告
20121221 AWS re:Invent 凱旋報告
AWS活用のいままでとこれから -東急ハンズの事例-
AWS活用のいままでとこれから -東急ハンズの事例-
【JAWS-UG Sapporo】はじめてのAWSワークショップ 概説
【JAWS-UG Sapporo】はじめてのAWSワークショップ 概説
MongoDB on AWSクラウドという選択
MongoDB on AWSクラウドという選択
JAWS-UG北陸第2回 AWSクラウド最新アップデート
JAWS-UG北陸第2回 AWSクラウド最新アップデート
クラウドを使ってみよう - クラウド女子会2011年4月30日
クラウドを使ってみよう - クラウド女子会2011年4月30日
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
これからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしよう
AWSを用いたWebホスティング
AWSを用いたWebホスティング
華麗なるElastic Beanstalkでの環境構築
華麗なるElastic Beanstalkでの環境構築
20130326 aws meister-reloaded-windows
20130326 aws meister-reloaded-windows
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
20210119 AWS Black Belt Online Seminar AWS CloudTrail
20210119 AWS Black Belt Online Seminar AWS CloudTrail
コスト削減から考えるAWSの効果的な利用方法
コスト削減から考えるAWSの効果的な利用方法
Mais de Takuro Sasaki
Lambda認証認可パターン
Lambda認証認可パターン
Takuro Sasaki
Jawsug chiba API Gateway
Jawsug chiba API Gateway
Takuro Sasaki
AWS Lambdaで作るクローラー/スクレイピング
AWS Lambdaで作るクローラー/スクレイピング
Takuro Sasaki
サイト/ブログから本文抽出する方法
サイト/ブログから本文抽出する方法
Takuro Sasaki
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
Takuro Sasaki
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
Takuro Sasaki
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
Takuro Sasaki
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
Takuro Sasaki
第8回JAWSUG大阪 AWSの事例/課金について
第8回JAWSUG大阪 AWSの事例/課金について
Takuro Sasaki
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
Takuro Sasaki
Mais de Takuro Sasaki
(11)
Lambda認証認可パターン
Lambda認証認可パターン
Jawsug chiba API Gateway
Jawsug chiba API Gateway
AWS Lambdaで作るクローラー/スクレイピング
AWS Lambdaで作るクローラー/スクレイピング
サイト/ブログから本文抽出する方法
サイト/ブログから本文抽出する方法
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 AWSの事例/課金について
第8回JAWSUG大阪 AWSの事例/課金について
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
1.
第3回Webスクレイピング勉強会@東京 ! AWSを利用して
スクレイピングの悩みを 解決するチップス 2014年10月26日 @dkfj 佐々木拓郎
2.
✦ プロフィール ‣
Webシステムを得意とするSIerで勤務 ‣ 最近の仕事はAWS事業の推進・モバイルアプリ開発 ‣ Webスクレイピングして、データマイニングするのが趣味 ★ ソーシャル・ネットワーク ‣ blog: http://blog.takuros.net/ ‣ twitter: @dkfj ‣ Facebook: takuro.sasaki ‣ SlideShare: http://www.slideshare.net/takurosasaki/ @dkfj 自己紹介: 佐々木拓郎
3.
主にJAWSUG大阪で活動していました (AWS勉強会)
4.
宣伝!! クローラー/スクレイピング本を書きました。 「Rubyによるクローラー開発技法」
ご大層な名前ですが、初中級者向けです。 http://bit.ly/crawler_book
5.
予想に反して、売上げ好調です。 発売2ヶ月経過で、増刷2回。 Amazonの幾つかのカテゴリで、
ランキング1位継続中。
6.
大量のデータを集める際に、 困ることベスト3
7.
データ収集の課題 • クローリング(巡回)に時間が掛かる
• IPアドレス制限 • データの保存方法
8.
クローリング(巡回)に時間がかかる • 収集先が膨大
(対象サイト数×ページ数。何百~何千万件というケースも) • 収集するデータが大きい (画像系であれば、その傾向が顕著)
9.
IPアドレス制限 • 単位時間あたりで規定の回数を超えるとブロックされる
(1分間あたり200回など。最近は、リスト型アカウントハッキングの影響で厳しめに) • IPアドレスをトリガーにされる場合が多い (Google BAN) !
10.
データの保存方法 • 収集してきたデータを長期間に渡って保存するのは難しい
• データ量、端末の変更、整理 (容量の問題、端末を入れ替えた際にデータ紛失)
11.
AWSを使うと、解決できるよ
12.
Amazon Web Services(AWS)とは、Amazon.com
によ り提供される各種遠隔コンピューティングサービス(ウェブサー ビス)である。 2006年7月に公開され、Amazon Web Services は他のウェ ブサイトやクライアントサイドアプリケーションに対しオンライ ンサービスをち提ょ供っしてとい理る解。でこれきらなのいサー。ビ。ス。 の多くはエンドユー ザに直接公開されているものではなく、他の開発者が使用可能な 機能を提供するものである。 Amazon Web Services の各種サービスはHTTPを通じ、 REST および SOAP プロトコルを使用してアクセスされる。費用 は実際の使用量に応じて決定される。 ウィキペディアより
13.
AWSを三行で説明すると • Amazonが提供するクラウドサービス
• 仮想コンピュータ(EC2)とストレージサービス(S3)を 中心に、数十のサービスを提供 • 基本的には従量課金なので、使った分だけの支払い
14.
コンピュータ処理 Amazon EC2
AWSのサービス一覧 ストレージ Amazon S3, Glaicer Amazon EBS データベース Amazon RDS, DynamoDB Amazon Simple DB Elasticache, Redshift コンテンツ配信 Amazon CloudFront メッセージ Amazon SNS Amazon SQS 分散処理 Elastic MapReduce メール配信 Amazon SES ワークホース Amazon Mechanical Turk 認証&請求 AWS IAM Identity Federation Consolidated Billing モニタリング Amazon CloudWatch スケーリング Auto Scale ネットワーク&ルーティング Amazon VPC ELB, Route53 AWS DirectConnect ライブラリ&SDKs Java, PHP, .NET, Python, Ruby Webインターフェース Management Console IDEプラグイン Eclipse, Visual Studio デプロイと自動化 Elastic Beanstalk CloudFormation OpsWorks この辺りを 使います
15.
Amazon Elastic Compute
Cloud(Amazon EC2) 仮想コンピュータサービス • AWSの中核サービス • インスタンスサイズごとに価格設定。1 時間単位の課金 • パブリックIPが自動的に付与。 (一定の条件あり) • 1時間あたり、$0.013(≒1.4円)から スポットインスタンスを利用すれば、$0.0031(≒0.3円)
16.
Amazon Simple Storage
Service(Amazon S3) オンラインストレージ・サービス • AWSのもう1つの中核サービス • 月々$0.0300 /GB。 • 1TB保存で、3000円強。 • 容量無制限。(お金があれば) • 他にもAPIリクエスト料も必要。 • 99.999999999%の堅牢性
17.
Amazon Simple Queue
Service(Amazon SQS) プル型のキュー・サービス • 最古のAWSサービス (2004年サービス開始) • 疎結合アーキテクチャの肝 (サービス間連携に大活躍) • 低コスト (月間無料枠&非常に低価格な従量課金制) 参照:Amazon Simple Queue Service(SQS)の使い方 http://d.hatena.ne.jp/dkfj/20130205/1360076804
18.
デモ
19.
ユースケース
20.
EC2を単純に並べる • 複数のリソース、IPアドレスを同時に利用できる
• 1台×10時間でも、10台×1時間でも料金は同じ ! AWSでスポットインスタンスの活用 $0.0031×50台≒約16円
21.
EC2の処理結果をS3に集約する • EC2が集めたデータを、S3に保存する
• 集計結果をデータベースに保存するのもあり
22.
SQSを利用して、ジョブ制御 • 複数台のEC2をコントロールするのは、面倒くさい
• EC2内のプログラムは、SQSから指令を受けるよう作る • キューをコントロールすることで、EC2を操作できる
23.
注意点
24.
巡回先サイトに配慮する • 1秒ルール
• 同一サイトを対象にする場合は、多重度をあげない • Robots.txtの尊重 • 動的サイトの場合は、特に注意 (動的サイトで中小システムであれば、秒あたりの処理件数は20~30件くらい)
25.
まとめ ! ‣
AWSは、個人でも使える ‣ クローラー作成/スクレイピングとの相性よし ‣ 取得先サイトに迷惑をかけないように
26.
ご清聴ありがとうございました 後日の質問は、@dkfjまで
Baixar agora