2021/4 末のクラウド移行後、私の担当しているインフラでは約 2,000 のインスタンスを運用しています。サーバの台数が多いということもあり、日々運用を行なっていく上で多種多様な問題に直面します。これまであたったことがない問題に直面し対応することもあり、我々インフラエンジニアは「なぜこの問題が起きたのか」「どのように対応すればいいのか」など都度考え対応する必要があります。そうして初めて直面した問題に対しても適切な対応が行われることで、大規模インフラにおける安定したサーバ運用が成り立っています。
本セッションでは、大規模インフラを運用していく上でクラウド移行したからこそ生じた問題を紹介します。この問題は CPU や MEMORY など目にみえる状態は異常ないが、サーバへのコネクションが新規に接続できなくなるといった問題であり、原因が大変気付きにくいものでした。また、この問題に対してどのような対応を施策したのか、対応に至るまでのプロセスを含めお伝えします。