マイクロサービスアーキテクチャでは、サービス間の通信に失敗することがあります。ネットワークを介したリモートコールである以上、なんらかの異常が発生することは考慮に入れた上で設計をする必要があります。

本記事では REST API を使用した場合の API のリトライ方法について、いくつかのライブラリを使用して解説します。

リトライする条件

サービス間の通信に失敗しても、全てリトライするというわけにはいけません。何度リトライをしても必ず失敗するエラーに対しては無駄にリトライをしないようにしましょう。
RESTful な API では、4xx 系のエラーはリトライ不要です。4xx 系エラーは主にバリデーションエラーや認証エラーなど、クライアント側に問題があるリクエストであるため何度リトライしてもエラーが返却されます。

以下に代表的な HTTP ステータスコードを挙げます。REST API の考え方やステータスコードについては、REST API Tutorialが参考になります。

ステータスコード	説明
400 (Bad Request)	不正な形式のリクエスト、バリデーションエラーなど
401 (Unauthorized)	認証エラー、認証されずにリソースにアクセスした
403 (Forbidden)	認可エラー、指定したリソースに対する権限がない
404 (Not Found)	対象のリソース、パスが見つからない
500 (Internal Server Error)	システムエラー
503 (Service Unavailable)	サービスが一時的に利用できない
504 (Gateway Timeout)	タイムアウト、処理時間がかかりすぎている

一方、5xx 系のエラーを返却したサービスはリトライすることで復旧できる場合があります。レスポンスの HTTP ステータスコードを条件にして、リトライする可否を判断しましょう。

レスポンスコード以外にも、ネットワークの一時的な障害によりサービスに到達できなかった場合のエラーを考慮しましょう。ネットワーク障害の場合はリクエスト先のサービスからレスポンスコードが返却されないため、接続に失敗した旨の例外をキャッチしてリトライを実行することになります。

5xx Error を返す API

このようなマイクロサービスのエラーをハンドリングするコードを書くために、頻繁に障害が発生する API を作りました。以下からアクセスしてください。

https://instability.now.sh/

リクエストを送るとランダムに 5xx 系エラーを返します。

$ curl https://instability.now.sh
{"status":504,"message":"Gateway Timeout"}$ curl https://instability.now.sh
{"status":200,"message":"OK"}$ curl https://instability.now.sh
{"status":200,"message":"OK"}$ curl https://instability.now.sh
{"status":503,"message":"Service Unavailable"}$ curl https://instability.now.sh
{"status":504,"message":"Gateway Timeout"}

errorRateをクエリパラメータに指定することで障害発生率を調整できます。

$ curl https://instability.now.sh?errorRate=99   # 99% の確率でエラー{"status":500,"message":"Internal Server Error"}$ curl https://instability.now.sh?errorRate=2    #  2% の確率でエラー{"status":200,"message":"OK"}

POST リクエストを送信することも可能です。POST の場合はリクエストボディに errorRateを設定します。

$ curl -X POST -d'{ "errorRate": "20" }' https://instability.now.sh
{"status":500,"message":"Internal Server Error"}

詳しい API ドキュメントはこちらを参照してください。

リトライする方法

リトライでは以下の２つを考慮する必要があります。

リトライの間隔
リトライを何回繰り返すのか

リトライの間隔については、Exponential Backoff が良いでしょう。リトライするたびに指数関数的にその間隔を長くしていく方法です。再試行する度に、1 秒後、2 秒後、4 秒後と指数関数的に待ち時間を加えていきます。等間隔のリトライの場合、障害がおきているサービスに無駄なリクエストを発生させることになり、余計な負荷をかけてしまいます。Exponential Backoff のテクニックを使用すれば、リトライを繰り返すたびにその間隔が広がっていくのでこの問題を緩和できます。
この方法はクラウドやマイクロサービスの文脈では基本的なお作法です。AWS Solutions Architect ブログでも紹介されています。Exponential Backoff の方法にばらつき（Jitter）を加えた方法を紹介しています。

AWS Solutions Architect ブログ: Exponential Backoff And Jitter

リトライを何回繰り返すのかは難しい課題です。障害が発生したマイクロサービスの復旧時間に依存するところがあり、まずは 5 回などに設定しておき、運用を進めるにしたがって調整していくのが良いでしょう。

さて、今回はこの２つの考慮事項を node-fetch, request, got の各種ライブラリを使用して実装してみましょう。

node-fetch での実装例

node-fetchの fetch メソッドは Promise を返すため比較的シンプルに実装ができます。
ネットワークエラーの場合は待ち時間なしで即座にリトライをかけ、5xx 系エラーの場合は Exponential Backoff を行います。

importfetchfrom"node-fetch";exportdefaultasync()=>{consturl="https://instability.now.sh";constinit={method:"GET"};constoption={retry:{limit:5}};constresult=awaitretryFetch(url,init,option);returnresult;};constsleep=msec=>newPromise(resolve=>setTimeout(resolve,msec));constretryFetch=async(url,init,option)=>{const{retry}=option;for(leti=0;i<=retry.limit;i++){letres;try{res=awaitfetch(url,init);}catch(error){// ネットワークエラーの場合は即座にリトライconsole.log(error);continue;}if(res.status<500){// 5xx 系エラー以外の場合はレスポンスデータを返すreturnres;}// 5xx 系エラーの場合は数秒待ってからリトライ（Exponential Backoff）constsleepTime=2**i;awaitsleep(sleepTime*1000);}};

request での実装例

requestの request メソッドは Promise を返さないので取り扱いやすいように、薄くラップしましょう。
あとの手続きは node-fetchと同様です。

import*asrequestfrom"request";exportdefault()=>{constparam={url:"https://instability.now.sh",json:true};constoption={retry:{limit:5}};returnretryRequest(param,option);};constsleep=msec=>newPromise(resolve=>setTimeout(resolve,msec));constretryRequest=async(param,option)=>{const{retry}=option;for(leti=0;i<=retry.limit;i++){letres:{status:number;message:string};try{res=awaitrequestPromise(param);}catch(error){// ネットワークエラーの場合は即座にリトライconsole.log(error);continue;}if(res.status<500){// 5xx 系エラー以外の場合はレスポンスデータを返すreturnres;}// 5xx 系エラーの場合は数秒待ってからリトライ（Exponential Backoff）constsleepTime=2**i;awaitsleep(sleepTime*1000);}};// Promise を返すように薄いラッパーを作るfunctionrequestPromise(param):any{returnnewPromise((resolve,reject)=>{request.get(param,(err,req,body)=>{if(err){reject(err);}else{resolve(body);}});});}

got での実装例

gotは非常に軽量でリトライの仕組みも標準的に取り揃えているシンプルな HTTP クライアントライブラリです。Promise と StreamAPI にも対応しており、現代の API クライアントライブラリとしてはかなり優秀です。getClientメソッドでクライアントオブジェクトを生成し、あとは client.get(path)の形でリクエストを送ります。

importgotfrom"got";exportdefaultasync()=>{try{constprefixUrl="https://instability.now.sh/";constclient=getClient(prefixUrl);returnawaitclient.get("").json();}catch(error){console.log(error.response.body);}};constgetClient=(url:string)=>{constclient=got.extend({prefixUrl:urlretry:{limit:5,calculateDelay:delay=>{console.log(delay);// リトライ処理が発生した場合だけログを出力return1;}}});returnclient;};

リトライの間隔は 1 秒、2 秒、4 秒、8 秒と増えていくようで、Exponential Backoff の方法を取っているようです。got なかなか使い心地いいんじゃないでしょうか。

さいごに

マイクロサービス間のエラーハンドリングはAPIのリトライだけを考慮すれば良いわけではありません。
リトライをする上で、各サービスは冪等な処理が行われるようにしておかなければなりませんし、必要に応じてキャッシュやサービスブローカーを導入して耐障害性をあげるテクニックもあります。
今回はその中でも初歩の初歩であるAPIのリトライについて、実装を交えながら説明しました。これで少しでも初学者の助けになりますように。

不規則にエラーを返すWebAPIを使って、マイクロサービス間のリトライを実装しよう。

リトライする条件

5xx Error を返す API

リトライする方法

node-fetch での実装例

request での実装例

got での実装例

さいごに

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？