PuppeteerでサイトをクロールしてURLリストを作るツール

はじめまして。Webサイトのリニューアルとか新規構築とかやってる世にいうWebディレクター？PM？的な役割をよくやるおじさんです。おじさんはよく数百から数千ページのWebサイトの新規構築・リニューアルPJを担当したりします。提案やら見積もりの断面から参画することが多く、だいたいサイト規模を図るところから入るんですが。担当者によっては適当にサイト規模の見積もりをして、後からこんなでかいサイトだと思わなかったなんて話になります。古のツールとしてWebsite Exploreなんてものがあり、未だにこれ使ってページ数算出している人もよく見かけます。今どきキラキラしたheadless chromeとか色々あるんだからもっとスマートにできないの？と思っていたところ、まとまった自分の時間が取れたので便利そうなのを作ってみました。そしてgithubで公開してみました。前提としておじさんは前時代的なWebサイト構築の時代を生きてきて、本格的にコードを書かなくなって約10年。アラフォーでなんか色々間違っていると思うんですが何事も経験なので、こうしてQiita記事も初めて書いてみました。では、何を作ったのか書きますね。と思ったんですがめんどくさいのでREADMEをほぼそのまま載せますね。これは何？ Web サイトリニューアルの際等に現行サイトに sitemap.xml が無く、サイト規模が全くわからない場合があります。そんな時に使うツール。任意の URL から a タグ href 属性を辿り、存在する URL（a タグリンクが繋がっている URL）をリスト化します。 puppeteer を使って a タグを巡り URL をリスト化、エクセルファイルとして出力 title,description,charset 等基本的なページ情報もついでに取得してエクセルファイル内に出力クロールした際の HTML コードもついでにテキストファイルとして出力 puppeteer 越しに headless chrome の描画結果 a タグを走査するので、js 等で出力されている a タグリンクも巡ることが可能 ※対象 URL にはそれなりのアクセス負荷がかかるので、サイト管理者の許可なく本ツールを使用しないでください実行方法下記で node パッケージインストール npm i conf.yaml を設定したうえで下記の様に実行 node salvage.js conf.yaml に記載の startUrl を起点として a タグリンクを辿り、url リストを作成する。URL リストはエクセルファイルとして出力されます。 conf.yaml 設定内容 startUrl クロールの起点となる URL の指定通常はサイトのトップページ等を指定する複数指定可能 allowDomain a タグを辿る際に許可するドメイン基本的には startUrl に指定した URL のドメインを指定する複数指定可能 basicAuthentication クロール対象サイトに BASIC 認証がかかっている際にコメントアウトを解除し使用 loadBlockFileExtention クロールをする際にロードをブロックするファイルクロール速度を高速化するために画像等の読み込みをブロックすることを推奨 emulateDevice UA 判定等でスマホ UA を使いたい場合等はコメントアウトして使用（https://github.com/puppeteer/puppeteer/blob/main/src/common/DeviceDescriptors.ts のデバイスを指定可能）コメントアウトした状態では puppeteer デフォルトの UA でアクセスする（chrome）結果出力 result ディレクトリ内に結果が出力されます出力例 result └── 20210407151539483 ├── htmlcode │ ├── https:__example.com_.txt │ ├── https:__example.com_business.html.txt │ ├── https:__example.com_en_.txt │ ├── https:__example.com_en_business.html.txt │ ├── : │ └── https:__example.com_about.html.txt └── result.xlsx result.xlsx の出力内容 url URL status クロールした際の HTTP ステータスコード conf.yaml の loadBlockFileExtention に指定された拡張子の URL は"SKIP"として出力 title title タグ内文言 description meta[name="description"]の content 値 keywords meta[name="keywords"]の content 値 canonical link[rel="canonical"]の href 値 viewport viewport 指定 charset document.charset の値おわりにそれなりにサーバ負荷かかると思うので、100ページ位のサイトでしか試せてない誰か実戦投入として大きめのサイトで試してみてほしい（もちろんサイト管理者に許可とったうえで）ソースコードはネット上の色んなとこからコピペしたりしているので、全然きれいに書けてない。誰か今どきなキラキラしたコードに書き換えてほしいあとスクショ撮ったり各ページで読み込んでるアセットファイルとかをまるっとダウンロードするツールとか作りたいなー

PuppeteerでサイトをクロールしてURLリストを作るツール

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？