pythonでプログラミングを勉強(というより趣味で遊んでいる)しています。
BeautifulSoupを使用して、ウェブスクレイピングがある程度出来るようになってきた。そこでAmazonサイトで商品名と価格を収集してまとめようとしました。
プログラムを走らせてみると、なんだかうまくデータが取れない。
たまにデータが取れるけど毎回は上手く動かない。たまに出来たりするので、バグを探すがどうもよくわからない・・・
もしやと思い取得したHTMLの一部を翻訳してみました。
なんと、スクレイピング禁止!
たぶん常識なんでしょうね。私は知りませんでした・・・
データが欲しいならAPIを使用しなくちゃならんという事でAmazonアソシエイトに登録しました。
他に方法はないの?
BeautifulSoupを使った方法はブロックされているので、他に方法はないのかと考えました。
人の手なら問題ない(当たり前ですが)、ならばSELENIUMならいけるんじゃ?
ブラウザをいちいち開くので時間はかかりますが、自動化は出来そう。
検索してページに飛んでは出来ましたのでおそらくいけるんじゃないかと思ってます。
機械的に100回とか繰り返したらブロックされるかもしれませんが、ランダムに時間の間隔を変化させて、ボタンクリックなどしていけばいけるかな。
ちょっとやってみます。
結果は次回の記事で。