zuntan02のはてなブログ

備忘録的なものです。時々職場の技術者ブログにも転記してますが、メインはこちらで。

【AWSゾーン障害】ボリュームが復旧しないのでスナップショットからボリュームを立て直してアタッチしなおしたメモ

2019/08/23午後のap-northeast-1aのゾーン障害(https://aws.amazon.com/jp/message/56489/)で、大体のサービスはMultiAZで問題なかったし、しばらくしたら自動復旧したんだけど、一台だけボリュームが破損したらしくて復旧してこなかった。
パーソナルヘルダッシュボード(マネージメントコンソールの上にあるベルアイコンからいける)で確認すると

On August 22 we experienced a cooling failure in a single Availability Zone in the Tokyo (AP-NORTHEAST-1) Region, which has caused one or more of your volumes listed in the 'Affected Resources' tab, to be inaccessible. The cooling failure resulted in hardware failure on one or more storage servers that store your volume(s). We are working to resolve the hardware failures; however, if you have the ability to restore your volume(s) from a recent snapshot, we recommend that you do so. Given the nature of the hardware failures, we anticipate that recovery will be prolonged as we work to replace the failed components in the affected servers.

Google翻訳

8月22日、東京(AP-NORTHEAST-1)リージョンの単一のアベイラビリティーゾーンで冷却障害が発生し、「影響を受けるリソース」タブにリストされている1つ以上のボリュームにアクセスできなくなりました。冷却障害により、ボリュームを保存する1つ以上のストレージサーバーでハードウェア障害が発生しました。ハードウェア障害の解決に取り組んでいます。ただし、最新のスナップショットからボリュームを復元できる場合は、復元することをお勧めします。ハードウェア障害の性質を考えると、影響を受けるサーバーの障害のあるコンポーネントを交換するために作業するため、復旧が長くなることが予想されます。

ってなってたので、デイリーでとってるスナップショットからの Amazon EBS ボリュームの復元を実施した。

■スナップショットからボリュームを作成

[スナップショット]で対象のスナップショットを選択
[アクション]-[ボリュームの作成]
(設定は旧のものと合わせた)

■ボリュームのデタッチとアタッチ

# デタッチ
https://console.aws.amazon.com/ec2/) にある Amazon EC2 コンソールを開きます。
ナビゲーションペインの [Volumes (ボリューム)] を選択します。
ボリュームを選択し、[Actions]、[Detach Volume] の順に選択します。
確認ダイアログボックスで、[Yes, Detach] を選択します。

やったこと
  • 上記手順に従い問題のサーバににアタッチされていた旧ディスクをデタッチ
  • 新ディスクをアタッチして起動

→エラー発生
Invalid value 'xxxxxxxxx' for instanceId. Instance does not have a volume attached at root (/dev/xvda)
→デフォルトで付与されるデバイスの設定が間違っていた
バイス:/dev/xvdaでアタッチしなおしたら起動した


以上