AWS лежит 35 часов, максимально возможный аптайм за этот год упал уже ниже 99,607% — прим. пер., 22.04.2011, 23:06 МСК

21 апреля в 01:41 по тихоокеанскому времени произошёл серьёзный сбой в одном из дата-центров Amazon Web Services, «облака» для многих сайтов. Некоторые крупные проекты (Reddit, Quora, Foursquare) ушли в офлайн или сильно пострадали. Я уже видел кучу дезинформации с намёком на то, что проблемы пострадавших сайтов связаны только с ленью инженеров этих проектов, но в данном случае причина в другом. И вот почему.

У AWS две концепции относительно доступности: регионы (Regions) и зоны доступности (Availability Zones, AZ). Есть пять регионов: два в США (западное и восточное побережье), один в Европе (Ирландия) и два в Азии (Токио, Сингапур). В каждом регионе расположены несколько AZ, которые должны быть изолированы друг от друга и не иметь общей точки сбоя, кроме стихийного бедствия или чего-нибудь подобного масштаба.