【H-4】障害対応時の対処・コマンド

サーバー障害はサーバー、プログラム、ユーザー起因など様々な原因があります。
本章では、よくあるトラブル事例ごとに「まず確認すべきこと」を紹介します。原因切り分けの思考法も併せて身につけましょう。

ユースケース① サイトの表示異常

Webサイトが正常でない場合、まずは画面の状況から切り分けが可能です。

プログラミング言語・フレームワークのページが表示されている場合、プログラム側の起因である可能性が高くなります。

インフラエンジニアの場合は、フロント・バックエンドエンジニアにエスカレーションをしましょう。

NginxやApacheのウェルカムページが表示されている場合、プログラムがそもそも動いていないなどの原因が考えられます。

もしくは、ミドルウェアの設定に誤りがあるかもしれません。

HTTPレスポンスが表示されている場合は、以下を考えましょう。

400番台：クライアント側エラー
500番台：サーバー側エラー

500番台エラー、ずっと読み込み中など、サイトが表示されない場合は以下を調査します。
※ただし、サーバーがいつから起動しているか（安定しているか）、直近で設定変更作業があったかにより確認箇所は変わってきます。

sudo systemctl status httpd
sudo ss -ltnp | grep :80
sudo firewall-cmd --list-all

top
free -h
sudo tail -n 50 /var/log/httpd/access_log

top で httpd プロセスがCPUを占有していないか確認。アクセスログで特定IPからの集中攻撃（DoS）が疑われる場合も。
AWSを利用している場合は、CloudWatchでCPU・Memory・HTTPカウントなどがGUIで閲覧可能です。

df -h
du -sh /var/log/httpd/*
sudo logrotate -f /etc/logrotate.d/httpd

ディスク容量不足はパフォーマンス低下やサービス停止を引き起こす重大要因。定期的なログ管理が重要です。

障害対応は「まず何を疑うか」「どこから確認するか」が鍵です。以下の流れを意識しましょう。

この手順を習慣化することで、トラブル時の対応速度と精度が向上します。