自動化スクリプト

PythonでWebスクレイピングをする方法(XPATH編)

XPATHを用いてWebスクレイピングを行うには、Pythonで使用できるライブラリの1つであるlxmlライブラリを使うことができます。

lxmlライブラリを使って、WebページからXPATHを用いてHTML要素を抽出するには、以下のようにします。

import requests
from lxml import html
# Webページを取得する
r = requests.get('https://www.example.com/')
# HTMLのテキストを取得する
html_text = r.text
# HTMLのテキストからHTMLドキュメントを作成する
doc = html.fromstring(html_text)
# XPATHを使って、HTML要素を抽出する
elements = doc.xpath('//p')
# 抽出したHTML要素を表示する
print(elements)

この例では、doc.xpath(‘//p’)で、Webページ内のすべての

要素を抽出しています。  
XPATHを使って、特定のHTML要素を抽出するには、XPATHの式を変更することで、任意のHTML要素を抽出することができます。

また、XPATHを使って、HTML要素の属性値を取得することもできます。以下に例を示します。

import requests
from lxml import html
# Webページを取得する
r = requests.get('https://www.example.com/')
# HTMLのテキストを取得する
html_text = r.text
# HTMLのテキストからHTMLドキュメントを作成する
doc = html.fromstring(html_text)
# XPATHを使って、HTML要素を抽出する
element = doc.xpath('//a')[0]
# HTML要素の属性値を取得する
href = element.get('href')
# 属性値を表示する
print(href)

この例では、doc.xpath(‘//a’)[0]で、Webページ内の最初の要素を抽出しています。
その後、element.get(‘href’)で、その要素の属性値を取得しています。

さらに、XPATHを使って、HTML要素のテキストを取得することもできます。以下に例を示します。

import requests
from lxml import html
# Webページを取得する
r = requests.get('https://www.example.com/')
# HTMLのテキストを取得する
html_text = r.text
# HTMLのテキストからHTMLドキュメントを作成する
doc = html.fromstring(html_text)
# XPATHを使って、HTML要素を抽出する
element = doc.xpath('//a')[0]
# HTML要素のテキストを取得する
text = element.text
# テキストを表示する
print(text)

この例では、doc.xpath(‘//a’)[0]で、Webページ内の最初の要素を抽出しています。
その後、element.textで、その要素のテキストを取得しています。

XPATHを使ってWebスクレイピングを行うには、lxmlライブラリを使うことができます。
XPATHを使えば、HTMLドキュメント内の特定のHTML要素を簡単に抽出することができます。

コメント

タイトルとURLをコピーしました