スクレイピング系ライブラリ|「Selenium」の使い方・サンプルコード

Python

Seleniumは、ウェブアプリケーションの自動化やテストを行うための非常に便利なライブラリです。以下に、Seleniumのインストール方法、できること、サンプルコード、詳細な説明、まとめを詳しく解説します。

インストール方法

Seleniumを使用するためには、まずPython環境にインストールする必要があります。以下の手順に従ってインストールを行います。

a. Pythonの確認

まず、Pythonがインストールされているか確認します。コマンドラインまたはターミナルで以下のコマンドを入力します。

python --version

Pythonがインストールされていない場合は、Pythonの公式サイトからダウンロードしてインストールしてください。

b. Seleniumのインストール

次に、Seleniumをインストールします。以下のコマンドをターミナルまたはコマンドプロンプトで実行します。

pip install selenium

これでSeleniumがインストールされます。

c. WebDriverの準備

Seleniumは、ブラウザを操作するためにWebDriverを使用します。使用するブラウザに応じて、対応するWebDriverをダウンロードする必要があります。

ダウンロードしたWebDriverを適切なパスに配置するか、環境変数に追加します。

「Selenium」でできること

Seleniumを使うことで、以下のようなことが可能です。

  • ブラウザの自動操作: ウェブページを開く、ボタンをクリックする、フォームに入力するなどの操作を自動化できます。
  • ページの要素の取得: HTML要素を取得し、テキストや属性を読み取ることができます。
  • スクリーンショットの取得: 現在のブラウザウィンドウのスクリーンショットを保存できます。
  • JavaScriptの実行: ページ内でJavaScriptコードを実行することができます。
  • 待機処理: 要素が表示されるまで待機するなど、動的なページに対応できます。
  • 複数ブラウザのサポート: Chrome、Firefox、Edgeなど、さまざまなブラウザをサポートしています。

関数一覧

Seleniumの主要な関数やメソッドを以下に一覧として示します。これらの関数は、ブラウザを操作したり、ウェブページからデータを取得したりするために使用されます。

WebDriverクラスの主要メソッド

  1. get(url)
  • 指定したURLを開く。
  1. back()
  • ブラウザの履歴を1つ戻る。
  1. forward()
  • ブラウザの履歴を1つ進む。
  1. refresh()
  • 現在のページを再読み込みする。
  1. quit()
  • ブラウザを閉じ、WebDriverのセッションを終了する。
  1. close()
  • 現在のウィンドウを閉じる。
  1. maximize_window()
  • ブラウザウィンドウを最大化する。
  1. set_window_size(width, height)
  • ウィンドウのサイズを設定する。
  1. get_current_url()
  • 現在のURLを取得する。
  1. get_page_source()
    • 現在のページのHTMLソースを取得する。

要素操作に関するメソッド

  1. find_element(by, value)
  • 指定した条件で単一の要素を検索し、返す。
  1. find_elements(by, value)
  • 指定した条件で複数の要素を検索し、リストで返す。
  1. click()
  • 要素をクリックする。
  1. send_keys(*value)
  • 要素にテキストを入力する。
  1. clear()
  • 入力フィールドの内容をクリアする。
  1. get_attribute(name)
  • 要素の指定した属性の値を取得する。
  1. get_text()
  • 要素のテキストを取得する。
  1. is_displayed()
  • 要素が表示されているかどうかを確認する。
  1. is_enabled()
  • 要素が有効かどうかを確認する。
  1. is_selected()
    • 要素が選択されているかどうかを確認する(主にチェックボックスやラジオボタンに使用)。

待機に関するメソッド

  1. implicitly_wait(time)
  • 指定した時間だけ、要素が見つかるのを待機する。
  1. WebDriverWait(driver, timeout)
  • 明示的な待機を設定するためのクラス。
  1. until(method)
  • 指定した条件が満たされるまで待機する。

スクリーンショットに関するメソッド

  1. get_screenshot_as_file(filename)
  • スクリーンショットをファイルに保存する。
  1. get_screenshot_as_base64()
  • スクリーンショットをBase64形式で取得する。
  1. get_screenshot_as_png()
  • スクリーンショットをPNG形式で取得する。

JavaScriptの実行

  1. execute_script(script, *args)
  • 指定したJavaScriptコードを実行する。

その他のメソッド

  1. switch_to.window(window_name)
  • 指定したウィンドウに切り替える。
  1. switch_to.frame(frame_reference)
  • 指定したフレームに切り替える。
  1. switch_to.alert
  • アラートにアクセスするためのプロパティ。

これらのメソッドを利用することで、Seleniumを使ってウェブブラウザを自動化し、様々な操作を行うことができます。具体的な使用例や詳細な情報は、Seleniumの公式ドキュメントを参照することをお勧めします。

サンプルコード

以下に、Seleniumを使った基本的なサンプルコードを示します。このコードは、指定したURLを開いてタイトルを表示し、特定の要素をクリックするものです。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# WebDriverのパスを指定
driver_path = 'path/to/chromedriver'  # ChromeDriverのパスを指定
driver = webdriver.Chrome(driver_path)

try:
    # URLを開く
    driver.get('https://www.example.com')

    # ページタイトルを表示
    print("ページタイトル:", driver.title)

    # 特定の要素を取得(例: 検索ボックス)
    search_box = driver.find_element(By.NAME, 'q')  # 'q'は検索ボックスのname属性
    search_box.send_keys('Selenium')  # テキストを入力
    search_box.send_keys(Keys.RETURN)  # Enterキーを押す

    # 結果が表示されるまで待機
    time.sleep(3)  # 3秒待機

    # スクリーンショットを保存
    driver.save_screenshot('screenshot.png')

finally:
    # ブラウザを閉じる
    driver.quit()

説明

a. WebDriverの設定

上記のコードでは、webdriver.Chrome()を使用してChromeブラウザを起動しています。driver_pathには、ダウンロードしたChromeDriverのパスを指定します。

b. URLのオープン

driver.get('https://www.example.com')で指定したURLを開きます。

c. ページタイトルの取得

driver.titleを使って、現在のページのタイトルを取得し、表示しています。

d. 要素の操作

find_element(By.NAME, 'q')で、検索ボックスを取得し、send_keysメソッドを使ってテキストを入力しています。Keys.RETURNを使うことで、Enterキーを押す操作を模倣しています。

e. 待機処理

time.sleep(3)で3秒間待機していますが、これはページが完全に読み込まれるのを待つための簡易的な方法です。実際のプロジェクトでは、Seleniumの待機機能を使用することが推奨されます。

f. スクリーンショットの取得

driver.save_screenshot('screenshot.png')を使って、現在のブラウザウィンドウのスクリーンショットを保存しています。

g. ブラウザの終了

driver.quit()でブラウザを閉じます。このメソッドは、全てのウィンドウを閉じ、WebDriverのセッションを終了します。

まとめ

Seleniumは、ウェブブラウザを自動化するための強力なツールであり、ウェブアプリケーションのテストやデータ収集に広く利用されています。インストールは簡単で、基本的な操作から高度な自動化まで幅広い機能を提供しています。

特に、動的なウェブページやJavaScriptを使用したアプリケーションのテストにおいて、その能力を発揮します。Seleniumを使うことで、手作業では時間がかかる作業を自動化し、効率的にテストやデータ収集を行うことが可能になります。

Seleniumの柔軟性と拡張性を活かして、さまざまなプロジェクトで活用してみてください。

このライブラリの他にもスクレイピング系ライブラリの記事も書いています。
ぜひ、見てみてください。

コメント

タイトルとURLをコピーしました