「スクレイピングしたいんだけど、Google検索結果からスクレイピングしてみたいな...」
『requests』と『beautifulsoup4』でスクレイピング出来るようになるよ。

そしたら、Google検索結果をスクレイピングしていこうか。

Googleをスクレイピングする前の準備

まだ、Pythonをインストールしていない場合は下記記事からインストールしよう。

スクレイピング準備

1. コマンドプロンプトを起動(Windowsキーをクリック→入力欄にcmd→Enter)

Microsoft Windows [Version 10.0.18362.476]
(c) 2019 Microsoft Corporation. All rights reserved.

C:\Users\[USERNAME]>

2. コマンドプロンプトを起動したら、ライブラリを入れる

C:\Users\[USERNAME]>pip install requests beautifulsoup4

3. ライブラリをインストールしたら、インストールされているか確認

C:\Users\falcon>pip list

Package                Version
------------------- --------------------
beautifulsoup4       4.8.1
requests             2.20.1

Google検索結果のコードを作成する

Googleスクレイピングコードを作成

1. コマンドプロンプトを起動

Microsoft Windows [Version 10.0.18362.476]
(c) 2019 Microsoft Corporation. All rights reserved.

C:\Users\[USERNAME]>

2. デスクトップへ移動して『search.py』というファイルを作成しファイルを開く

C:\Users\[USERNAME]>cd desktop

C:\Users\[USERNAME]\Desktop>type nul > search.py

C:\Users\[USERNAME]\Desktop>search.py

3. search.pyファイルが開けたら、以下のコードを入力

import requests as web
import bs4

keyword = input('Please keyword: ')

total_search_num = 10
search_word = [keyword]
url = 'https://www.google.co.jp/search?num=' + str(total_search_num) + '&q=' + ' '.join(search_word)
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0"

response = web.get(url, headers={"User-Agent": user_agent})
soup = bs4.BeautifulSoup(response.text, 'html.parser')

index = 1
for i in soup.find_all("span", class_="S3Uucc"):
    print(index, i.getText())
    index += 1

 

Google検索結果のスクレイピングコード解説

1. インストールしたライブラリを使えるように、インポート作業

import requests as web
import bs4

2. 検索したい文字を入力するために使うコード(プログラムを実行すれば分かる)

keyword = input('Please keyword: ')

3. 検索件数を決めて、Google検索のURLに入れる

total_search_num = 10
search_word = [keyword]
url = 'https://www.google.co.jp/search?num=' + str(total_search_num) + '&q=' + ' '.join(search_word)
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0"

4. 実際にデータを取り出す作業

response = web.get(url, headers={"User-Agent": user_agent})
soup = bs4.BeautifulSoup(response.text, 'html.parser')

index = 1
for i in soup.find_all("span", class_="S3Uucc"):
    print(index, i.getText())
    index += 1

コードを実行してGoogle検索結果をスクレイピング

最後にPythonコードを実行しよう。

C:\Users\[USERNAME]\Desktop>python search.py
Please keyword:

『Please keyword:』という文字が現れたら、検索したい文字を入力してEnterを押すこと。
ためしに『python』という文字を検索してみようか。

C:\Users\[USERNAME]\Desktop>python search.py
Please keyword: python
1 プログラミング言語 Python
2 Python - ウィキペディア
3 Welcome to Python.org
4 Python入門者はココで勉強しよう!学習サイト最強6選【2019年 ...
5 Pythonとは?言語の特徴から学習法まで初心者向けにわかり ...
6 Pythonの開発環境を用意しよう!(Windows) | プログラミングの ...
7 Python | プログラミングの入門なら基礎から学べるProgate[プロ ...
8 Python入門
9 Python入門 ~Pythonのインストール方法やPythonを使った ...
10 Pythonってどんな言語なの? (1/2):Python入門 - @IT

まとめ: スクレイピングを楽しもう

これであなたもGoogle検索からデータが取り出せたね。

ちなみに、Webサイトによってスクレイピングできるデータは、ルールが決まってる

トップページのURLに『robots.txt』を追加して確認しよう。
『Disallow』だとそのURLはスクレイピングできないから注意してね。

人気記事【必読】"見やすく修正しやすいコード"につながる本『リーダブルコード』