【初心者必見】Pythonを使ったWebスクレイピング入門。おすすめの書籍も紹介

あなたは、Pythonによるスクレイピングに興味はありませんか？

「プログラミングの知識がない」「そもそもPythonのインストールが難しそう」といった理由から、はじめられないという方も多いでしょう。今回は、プログラミング初心者でも安心の開発環境の構築なしでできるPythonによるスクレイピングについて解説します。

Google Colaboratoryを使って、今すぐスクレイピングを体験してみましょう。

この記事もオススメ

Pythonはどんな言語？学ぶメリットと注意点・実際の活用事例

この記事の目次

1 PythonがWebスクレイピングにおすすめな理由
2 Webスクレイピングについて
- 2.1 Webページのデータを取得する手段
- 2.2 利用する場合には注意が必要
3 PythonでWebスクレイピングをやってみよう
4 Pythonでより高度なスクレイピングを行うには
5 PythonでのWebスクレイピングの学習におすすめの書籍を紹介
6 まとめ

PythonがWebスクレイピングにおすすめな理由

AI（人工知能）の機械学習に使えるプログラミング言語として、人気が高いPython。記述が簡潔で、初心者でも取り組みやすい点もその人気を支えています。

それだけでなく、Pythonはスクレイピングを行う場合にもとても扱いやすいです。スクレイピングの用途に適したライブラリが豊富で、少ないコードですぐにデータを取得できます。また、Google Colab上でPythonを使えば、環境構築なしですぐにプログラミングができる点も魅力。

ライブラリやインターネット上の情報を参考にできるので、プログラミング初心者の方でもとても取り組みやすいです。スクレイピングに興味があるけれど、どのプログラミング言語を使えば良いか迷っているという方は、まずはPythonを試すことをおすすめします。

【無料】ChatGPTの使い方をマンツーマンで教えます

講師がマンツーマンでChatGPTの使い方を無料でレクチャー！初心者向けにChatGPTの仕組みから丁寧に解説します。レッスンを受けると…
・ChatGPTの基本的な使い方がわかる
・AIの仕組みがわかる
・AIをどうやって活用すれば良いかがわかる お申し込みは1日5組限定です。
今すぐお申し込みください。 ChatGPTレッスンを確認する▼
https://tech-camp.in/lps/expert/chatgpt_lesson

Webスクレイピングについて

Webスクレイピングを行う上で、その概要を理解することは利用目的を明確にして不要なリスクを避けるためにとても重要です。

Webページのデータを取得する手段

スクレイピングはWebページのデータを取得する手段の1つです。クローリングによってWebページをリンクを辿り、スクレイピングによって自分がほしいデータを抜き出します。アプリ・サービスの開発や効率的な情報の収集など、スクレイピングにはさまざまな活用方法があります。

外部のデータを活用する方法はスクレイピングだけではなく、APIを利用するという選択肢もあります。WebサイトからAPIが提供されていて、あなたが求めるデータと合っている場合にはそれを利用すると良いでしょう。

利用する場合には注意が必要

スクレイピングは外部のWebサイトから情報を取得します。取得する際には、Webサイトの利用規約に反していないか必ず確認しましょう。場合によっては、著作権法に触れる場合や不法行為責任を問われる場合もあります。

PythonでWebスクレイピングをやってみよう

それでは、早速PythonでWebスクレイピングに挑戦してみましょう。以下で、シンプルなWebスクレイピングを行う方法について解説していきます。

環境構築なしで使えるGoogle Colaboratoryを使用

今回は、開発環境の構築なしですぐに使えるGoogle Colaboratoryを使用します。Google Colaboratory（以下、Colab）は、機械学習の学習を目的に教育機関・研究機関向けに開発された研究プロジェクトです。

オープンソースプロジェクトのJupyter Notebookをベースに作られており、クラウド上で利用が可能。インターネット環境とパソコンがあれば、無料で手軽に使用できます。

Colabで制作したノートブックはGoogle Driveに保存されます。そのため、チームなどで開発を進める場合にも、共有がスムーズです。また、最大の特徴はコストをかけずにGPUが利用できる点です。これにより、Colabは機械学習に携わるエンジニアから注目を集めるようになりました。

Colabは以下のURLにアクセスすれば、すぐに利用できます。

Hello, Colaboratory – Colaboratory

Google ColaboratoryはPython 3が利用可能

Colabでは、Python 2とPython 3のどちらも利用可能。今回は、Python 3を使用します。Colabはスクレイピングに必要となるライブラリが揃っている点も初心者におすすめな理由です。

パッケージをインストール

まず、新しいノートブックを作成し、スクレイピングに必要となるパッケージをインストールしましょう。今回使うのは、以下の2つのパッケージです。

Requestsは、Webサイトにアクセスして構造のデータを取得するためのライブラリ。Beautiful SoupはWebサイトを構築しているHTML・XMLの内部の解析を行い、欲しいデータを取得するためのライブラリです。

「ファイル」から「Python 3の新しいノートブック」を開きます。まず、インストールされているパッケージを確認します。「!」をつけると、LinuxのコマンドをColab上で使用可能です。

!pip freeze

見づらい場合には、下記のコマンドで対象をしぼりましょう。

!pip freeze | grep -e request -e beautiful

現状のColabでは、必要となるパッケージがインストールされています。せっかくなので、使用が推奨されているlxmlをインストールしてみます。

!pip install lxml

再度、インストールされたパッケージを確認すると、「lxml==4.2.4」が追加されていることがわかります。「pip」は基本となるコマンドなので覚えておきましょう。

Webページのデータを取得

まずは、Webページのデータを丸ごと取得してみましょう。

import requests
from bs4 import BeautifulSoup

url = “”
r = requests.get(url)
soup = BeautifulSoup(r.text,”html.parser”)

print(soup.text)

「url」には、スクレイピングを行いたいURLを入力してください。これで、取得したWebページの情報がすべて表示されました。

Webページで要素を指定してデータを取得

WebページはHTML・CSSなどで構成。HTMLはh1・div・aなどの要素入れ子の構造になっています。

次に、その要素を指定してスクレイピングを行います。

まず、タイトルを取得してみましょう。

import requests
from bs4 import BeautifulSoup

url = “”
r = requests.get(url)
soup = BeautifulSoup(r.text,”html.parser”)

print(soup.title)

タグと一緒にタイトルが表示されます。次は「a」のタグを取得します。同様に「soup.a」と記述すると、1つしか取得できません。そのため、ここでは「find_all」を使用します。

import requests
from bs4 import BeautifulSoup

url = “”
r = requests.get(url)
soup = BeautifulSoup(r.text,”html.parser”)

print(soup.find_all(“a”))

タグ・URL・テキストがすべて表示されますが、その中から必要とする情報だけを表示させることも可能です。

import requests
from bs4 import BeautifulSoup

url = “”
r = requests.get(url)
soup = BeautifulSoup(r.text,”html.parser”)

tags = soup.find_all(“a”)

print (“HTMLを含めて表示：”)
for tag in tags:
print(tag)

print (“テキストのみを表示：”)
for tag in tags:
print (tag.string)

print (“URLのみを表示：”)
for link in tags:
print (link.get(“href”))

「find_all」を使えば、CSSのクラスやテキストの内容を指定してスクレイピングを行うことも可能です。Pythonのライブラリを使用すれば、このように簡単にスクレイピングができます。

取得した情報をCSVに出力する

スクレイピングを取得したデータを出力することももちろん可能です。

import requests
from bs4 import BeautifulSoup
import csv

url = “”
r = requests.get(url)
soup = BeautifulSoup(r.text,”html.parser”)

link = []

tags = soup.find_all(“a”)

link.append([tags])

with open(‘link.csv’, ‘w’, encoding=’shift-jis’) as f:
writer = csv.writer(f, lineterminator=’\n’)
writer.writerows(bookmarks)

取得した「a」の要素を「link.csv」というファイルで出力しました。テキストと数字を紐づけて表として出力するなどより細かく設定をすれば、マーケティングなど業務効率化にも役立つでしょう。