ブログ > Power Automate Desktopで手軽にWebスクレイピング

2023年8月4日開発事業本部チーム

Power Automate Desktopで手軽にWebスクレイピング

PowerAutomateDesktop

概要

Power Automate Desktop(以下、PAD)を使うとシンプルな(複雑なデータ加工などが必要ない) Webスクレイピングであれば簡単に行うことができます。今回は、PADを初めて触る方でもお試しいただけるシンプルな例として、イースト株式会社（当社）の技術ブログの記事タイトルを抽出してExcelに出力する手順をご紹介いたします。

事前準備

Power Automate Desktopをインストールする下記ページ内のリンクからインストーラーをダウンロードして実行します。 https://learn.microsoft.com/ja-jp/power-automate/desktop-flows/install
ブラウザにPower Automate Desktop用の拡張機能がインストールする今回はMicrosoft Edge を使用するためMicrosoft Edge に拡張機能「Microsoft Power Automate」をインストールします。

フローを作成する

Microsoft 365のPowerAppsでアプリを作成します。

新しいフローを追加する「新しいフロー」をクリックします。

フローを入力します。

フロー作成画面が表示されます。

ブラウザーを起動するアクションを追加する「新しいMicrosoft Edgeを起動する」をドラッグアンドドロップしてフローに追加します。

パラメーターの入力画面が表示されます。初期URLにイーストの技術ブログのURL https://blog.est.co.jp/ を入力して「保存」ボタンで保存します。

Webページからデータを抽出するアクションを追加する「Webページからデータを抽出する」をドラッグアンドドロップしてフローに追加します。

パラメーターの入力画面が表示されます。ここでパラメーターの値は初期値のまま、入力画面を閉じないでそのままにしておきます。

PADの「Webページからデータを抽出する」アクションのパラメーター入力画面を表示したまま、Microsoft Edge を起動してイーストの技術ブログを開きます。 Microsoft Edgeを起動して少し待つと「ライブWebヘルパー」の画面が表示されます。

「ライブWebヘルパー」が表示された後、ブラウザ上でマウスカーソルを移動すると赤い枠が表示されるようになります。赤枠でブログの記事タイトルを選択した状態で右クリックして「要素の値を抽出」-「テキスト」をクリックします。

「ライブWebヘルパー」にデータ抽出した値のプレビューが表示されます。

同様に次の記事のタイトルを抽出対象に設定します。

2つめの記事タイトルまで抽出対象に設定すると3つめ以降の記事タイトルも抽出対象になります。 ※PADが自動で3つ目以降も抽出対象にしてくれます。「ライブWebヘルパー」の抽出プレビューを見ると1ページ内の5件の記事のタイトルが抽出対象になっていることがわかります。

このままだと1ページ目の5件しかデータ抽出されないので、2ページ目以降もデータ抽出できるように設定を行います。次ページへのリンクに赤枠を当てた状態で右クリック → 「要素をページャーとして設定」をクリックします。

「ライブWebヘルパー」に「次のページの対応する値...」が追加されます。

これでページングに対応した設定ができました。「終了」をクリックして「ライブWebヘルパー」を閉じます。「処理するWebページの最大数」で何ページ目までデータ抽出の対象とするかを設定します。ここでは5ページ目までを抽出対象としています。

もし、全ページを抽出対象とした場合は「データの抽出元」ドロップダウンで「すべて使用できます」を選択します。抽出したデータをExcelに出力するように変更します。「Webページからデータを抽出する」ポップアップをスクロースして「データ保存モード」を「Excelスプレッドシート」に変更します。

「Webブラウザーを閉じる」アクションを追加する「Webブラウザーを閉じる」をドラッグアンドドロップしてフローに追加します。

パラメーターはデフォルト値のままで「保存」をクリックします。

以上でフローの作成は完了です！

フローを実行する

作成したフローを実行してみます。再生ボタン、またはF5キーで実行できます。

ブラウザーが起動してスクレイピングが行われた後に、 Excelが起動して記事タイトルが出力されれば成功です！

お問い合わせはコチラ

この記事を書いた人

開発事業本部チーム