Pythonスクレイピング【GCP - cloud functions

はじめに普段は、firebase cloud functionsでサーバー側の処理を記述しています。今回も、node環境のサーバーでスクレイピングを行なっていたのですが処理に時間がかかる・メモリが多く必要になるという理由でスクレイピングに関しては、python3で記述することにしました。ちなみに、nodeでのスクレイピングは下記のnpmを使用していました。 npm i puppeteer 下記システムは、こちらのサイトでも使用しています。 Pythonの記述・ディレクトリ構造今回は、GCPのcloud functionsの方に pythonのファイルをデプロイしたので、ディレクトリ構造の説明もしていきたいと思います。ディレクトリ構造ディレクトリ構造 pythonFunctions ├ main.py ├ getMetaFromSoup.py ├ requirements.txt ├ .gcloudignore └ README.md main.py[サンプルコード] main.pyはサーバー側で一番はじめに処理が実行されるファイルになります。関数【getMeta()】では、URLからHTMLファイルを読み込んでいます。 main.py # -*- coding: utf-8 -*- import requests import bs4 from flask import jsonify # import from getMetaFromSoup import getTitle, getDescription, getImage, getDomain def getMeta(request): # クエリ文字列を取得 if request.args and 'url' in request.args: request_name = request.args.get('url') url = request_name # URL html = requests.get(url) soup = bs4.BeautifulSoup(html.content, "html.parser") params = { "title": getTitle(soup), "description": getDescription(soup), "image": getImage(soup), "domain": getDomain(url), } # 必要に応じて変更を行なってください。 headers = { 'Access-Control-Allow-Origin': 'http://yapoyapo.com/' } return (jsonify(params), 200, headers) getMetaFromSoup.py[サンプルコード] 実際にスクレイピングを行なっているファイルになります。 ※入れた方がいいmeta情報があればご共有お願いします！ getMetaFromSoup.py from urllib.parse import urlparse # タイトルを取得 def getTitle(soup): title = soup.find('meta', attrs={'property': 'og:title'}) if (str(title) != 'None'): return title.get('content') title = soup.find('title') if (str(title) != 'None'): return title.text title = soup.find('meta', attrs={'name': 'twitter:title'}) if (str(title) != 'None'): return title.get('content') title = soup.find('h1') if (str(title) != 'None'): return title.text return '' # ディスクリプションを取得 def getDescription(soup): description = soup.find('meta', attrs={'property': 'og:description'}) if (str(description) != 'None'): return description.get('content') description = soup.find('description') if (str(description) != 'None'): return description.text description = soup.find('meta', attrs={'name': 'twitter:description'}) if (str(description) != 'None'): return description.get('content') description = soup.find('meta', attrs={'name': 'description'}) if (str(description) != 'None'): return description.get('content') # 画像を取得 def getImage(soup): image = soup.find('meta', attrs={'property': 'og:image'}) if (str(image) != 'None'): return image.get('content') image = soup.find('link', attrs={'rel': 'image_src'}) if (str(image) != 'None'): return image.get('href') image = soup.find('meta', attrs={'name': 'twitter:image'}) if (str(image) != 'None'): return image.get('content') image = soup.find('meta', attrs={'name': 'twitter:image:src'}) if (str(image) != 'None'): return image.get('content') image = soup.find('img') if (str(image) != 'None'): return image.get('href') # ドメインを取得 def getDomain(url): return urlparse(url).netloc requirements.txt[サンプルコード] requirements.txtでは、pipのバージョン管理を行なっています。ローカルPCのpipのバージョンはpip listで確認できます。 requirements.txt urllib3==1.26.4 beautifulsoup4==4.10.0 requests==2.25.1 .gcloudignore[サンプルコード] .gcloudignoreではサーバー側に必要のない情報を記載しています。 .gitignoreのような役割を担っています。 .gcloudignore README.md 最後に重要なファイルは・main.py ・requirements.txt になります。また、本記事で紹介した方法でこちらのサイトを運営していますので、ぜひ使ってみてください！

Pythonスクレイピング【GCP - cloud functions - サンプルコード付】

Trending Articles

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

レアル・マドリードアンセム「Hala Madrid y Nada Más」カナ歌詞と和訳とPV（デシマイムノ）

太刀用スキル＆予備知識【MHXX】

【名古屋風俗】素人ロリ専門店らぶりぃひより素人パイパンロリ系少女とDeepなエロ体験記【風俗口コミ】

天達武史が結婚した嫁画像は？出身高校や大学は？本名や年収って？

突撃！ビデオの鉄人

【藝大入試２０１８】音楽学部器楽科　１０６名が最終合格

梶浦郁乃(東邦高校元マネージャー)今現在OLで彼氏(藤島健斗)とは交際は続いている?

Succubus × Saint ～淫魔の宴と聖女の法悦～　レビュー

知人宅で金品奪った男５人　強盗致傷で逮捕

★彫だいタトゥー料金表★

TR-7500　修理

【嫌がらせ？】稲川会出所不明の怪文書が出まわる

新規加入ダンサーからのメッセージ（加藤大和）

糸数健一氏ら12人を除名　与那国防衛協会

【ネタバレ感想】「7人目のスタンド使い」その17

2016年2月12日号　愛媛信用金庫（2月1日付）

CTの希釈水制御の改善

死者のためのえびフライ―三浦哲郎の「盆土産」を読む