Облачные вычисления / Отчёт о причинах сбоя Amazon EC2

Amazon наконец-то опубликовала подробный отчёт о причинах сбоя в четверг 21 апреля, в результате которого одна из зон доступности на восточном побережье США почти полностью не работала в течение двух суток, а другие зоны в том же регионе глючили некоторое время.

Итак, первопричиной сбоя стала ошибка в сетевых настройках кластера Amazon Elastic Block Store (“EBS”) во время обычной работы по изменению масштабируемости. Сетевые настройки должны были увеличить ёмкость основной сети. Одним из стандартных этапов этой процедуры является снятие трафика с одного из перегруженных маршрутизаторов, чтобы сделать апгрейд. Трафик должен пойти в основную сеть. Но из-за ошибки изменение маршрутизации трафика произошло некорректно: вместо основной сети он пошёл в сеть низкой пропускной способности (в EBS используется две сети: основная для трафика и вторая для коммуникации EBS-узлов в кластере между собой и репликации).

Рубрика: Habr