CAPMFIREコミュニティでエンジニアをしている阿部です.
今日は機能追加や修正などの後の動作確認するときやデータ収集するときに,トラックパッドでクリックをしすぎて指がつりそうになるのを防ぐため(完全私欲),Puppeteerにこちらの作業をを全部投げたい!!!という気持ちでやっていきます!!!
とは言っても,かなり膨大な量になるので,今日はちょっと振り返りをしていこうと思います.
Puppeteerって?
PuppeteerはChrome,Chromiumを制御することができるNode.jsのAPIです.Puppeteerではデフォルトでヘッドレスモード(ブラウザ表示をさせず,バックグラウンドで制御が可能なモード)が設定されており,高速かつメモリ使用を押さええながらwebテストなどを行うとこができます.ヘッドフルモード(ブラウザ表示をしながらのモード)もオプションを選択することで使用できます.
私たちが日常ブラウザを使う上でできること(クリックや文字入力など)はほとんど可能で,SPA,SSRのWebページの制御,Chromeの拡張機能などもテストすることができます.
もっと詳細を知りたい方はこちら
使用してる環境
Jest + Puppeteerで作ったスクレイピング専用プロジェクトを使用
環境構築に関しては後日追記
バージョンなど
使用してるもの | バージョン |
---|---|
Node.js | |
Puppeteer | |
Npm | |
csv-witer | |
date-fns | 2.16.1 |
dotenv | 8.2.0 |
jest | 26.6.3 |
jest-puppeteer | 4.4.0 |
mkdirp | 1.0.4 |
ディレクトリ構成
.
├── __test__
│ ├── ... フローごとに分類,一つのフローに1ファイル
│
├── config
│ ├── jest-setup.js ... Timeoutの時間を設定
│ ├── puppeteer-environment.js ... setupとteardownの呼び出し
│ ├── setup.js ... ブラウザ起動時の設定(Headfullなど)
│ └── teardown.js ... ブラウザクローズ時の処理をメイン
├── global
| ├── ... 部品(チェックボックスなど)や全般的に使う動作(クリックやフォーム絵のタイプなど)をまとめる
|
├── project
│ ├── ... ページ(またはサービス)ごとに使う動作をまとめる
│
├── node_module /
├── output
│ ├── ... スクリーンショットやcsvなどのexportしたもののまとめ
│
├── .env ... ログインパスなどPublicにしたくないもの
├── package.json
└── package-lock.json
コーディング一部
constvariables=require("../global/variables")constfunctions=require("../global/functions")consttop=require("../project/example/top")constfs=require('fs')require('dotenv').config()const{createObjectCsvWriter}=require('csv-writer')constOUTPUT_PATH="output"constVIEWPORT={width:1280,height:1024}describe('Index page',()=>{letpagelettestIndex=0lettopPageit("トップページ表示",async()=>{awaitpage.goto("https://example.com/",{waitUntil:"networkidle2"})})it("力技で取得",async()=>{awaittopPage.getArticlesTrend()})asyncfunctioncsvWrite(data){if(!fs.existsSync(OUTPUT_PATH)){fs.mkdirSync(OUTPUT_PATH)}varexec=require('child_process').execexec(`touch ${OUTPUT_PATH}/page.csv`,function(err,stdout,stderr){if(err){console.log(err)}})constcsvfilepath=`${OUTPUT_PATH}/page.csv`constcsvWriter=createObjectCsvWriter({path:csvfilepath,header:[{id:'id',title:'No.'},{id:'title',title:'タイトル'},{id:'published_at',title:'公開日'},{id:'url',title:'URL'}],encoding:'utf8',append:false,})csvWriter.writeRecords(data).then(()=>{console.log('...Done')})}beforeAll(async()=>{context=awaitglobal.__BROWSER__.createIncognitoBrowserContext()page=awaitcontext.newPage()awaitpage.setViewport({width:VIEWPORT.width,height:VIEWPORT.height})topPage=newtop.topPage(page)})afterAll(async()=>{awaitpage.close()})beforeEach(()=>{console.log(`[START]:\t${testIndex}`)})afterEach(()=>{console.log(`[END]:\t${testIndex++}`)})});
constbasicAction=require("../../global/basic-action")constselector={articles:'div',article_title:'h2 > a',article_lgtm:'footer > div > div > div',article_published_at:'headler > time'}module.exports={topPage:class{constructor(page){this.page=page}asyncmoveArticleTrend(){awaitbasicAction.click(this.page,xpath.sideMenu.article.trend)}asyncgetArticlesTrend(){awaitthis.page.waitForSelector(selector.articles)constlists=awaitthis.page.$$(selector.articles)letdatas=[]for(leti=0;i<lists.length;++i){lettitle=awaitlists[i].$(selector.article_title)letlgtm=awaitlists[i].$(selector.article_lgtm)letpublished_at=awaitlists[i].$(selector.article_published_at)lethref=awaitlists[i].$$eval(selector.article_title,tep=>tep.map(item=>item.href));constdataArray=awaitPromise.all([i+1,basicAction.getTextBySelector(title),basicAction.getTextBySelector(lgtm)basicAction.getTextBySelector(published_at),href.join('')])datas.push({id:dataArray[0],title:dataArray[1],lgtm:dataArray[2],published_at:dataArray[3],url:dataArray[4]})console.log(datas[i])}returndatas}}}
module.exports={asynctype(page,xpath,text){awaitpage.waitForXPath(xpath)constelementHandleList=awaitpage.$x(xpath)awaitelementHandleList[0].type(text)},asyncclick(page,xpath){constelementHandle=awaitpage.waitForXPath(xpath)awaitPromise.all([page.waitForNavigation({waitUntil:"networkidle2"}),elementHandle.click()])},asyncpressEnter(page,xpath){awaitpage.waitForXPath(xpath)constelementHandleList=awaitpage.$x(xpath)awaitelementHandleList[0].press('Enter')},asyncclickNoWaitting(page,xpath){constelementHandle=awaitpage.waitForXPath(xpath)awaitelementHandle.click()},asyncgetText(page,xpath){awaitpage.waitForXPath(xpath)constelementHandleList=awaitpage.$x(xpath)consttextContent=awaitelementHandleList.getProperty("textContent")consttext=(awaittextContent.jsonValue()).replace(/[\s ]/g,"")returntext},asyncgetTextBySelector(elementHandleList){consttextContent=awaitelementHandleList.getProperty("textContent")consttext=(awaittextContent.jsonValue()).replace(/[\s ]/g,"")returntext},asyncselectOption(page,selector,optionText){constselectElement=awaitpage.$(selector)awaitpage.evaluate((selectElem,text)=>{lethasChanged=falsefor(leti=0;i<selectElem.options.length;++i){if(selectElem.options[i].innerText==text){selectElem.selectedIndex=ihasChanged=truebreak}}if(hasChanged){constevent=newEvent("change")selectElem.dispatchEvent(event)}else{console.log(`${text} not found.`)}},selectElement,optionText)}}
個人的に面白かったもの
dialog
今回は触れてないのですが,ダイアログの回答などを行うClass
つまり,ダイアログはClickの対象ではないということ
なので,事前にダイアログの回答を入力しておかないといけない.
さらに,ダイアログが複数回出現し,回答パターンが違う場合は下記リンクの記事のようにonceの中にonceを配置して,1度目と2度目の回答を変えるなどの回避策が必要のようです.
ダイアログに表示される文章を取ってくることもできるので,それによって回答を変えるなどの回避策もあります.
https://qiita.com/khsk/items/0b7ef6d012f0167ed2bb
API
puppeteer/api.md at v5.5.0 · puppeteer/puppeteer · GitHub
getProperty
上記のコードではタグ内にあるテキストを取って来ているが,hrefやtypeなどのプロパティの値も指定できるみたいです.
自分はまだ使ったことがないので使ってみたい.
API
https://github.com/puppeteer/puppeteer/blob/v5.5.0/docs/api.md#elementhandlegetpropertypropertyname
まとめ
今回は試しにサンプルプログラムを作ってみました.
汎用性高く書こうとするとXPathやSelectorの書き方を工夫する必要がある部分はかなり工数かかるなと改めて感じました.
Headless Recorderなども出てきてるし,小ちゃい修正や機能追加などはこれを使う方がいいのかもと思いました.
ただ,Headless Recorderだけだと,matcherでの確認とかは記録されないから,そこは自力で頑張るしかなさそうです.
逆に定期的に行うケース,データ収集とかで使う場合は大きなUI変更とかがない限りはちゃんとclass名とかをみて判断するので使い勝手良さそうです.
そして,サービスによってはスクレイピングを禁止しているものもあるので,利用規約などを確認し,スクレイピングでのデータの扱いには十分な注意をお願いします.