Опечатка в команде привела к масштабному отказу облака Amazon


Недавний масштабный сбой облачного сервиса хранения данных AWS S3, продолжавшийся 11 часов, был вызван тем, что сотрудник Amazon Web Services допустил опечатку, выполнив команду отключения небольшого числа серверов системы тарификации, которая работала медленнее, чем должна была.

Из-за неверно введенного параметра произошло отключение большого количества серверов, поддерживающих критически важные системы S3. Результатом стал отказ S3 в регионе Amazon US-EAST-1 (Северная Вирджиния) и зависимых сервисов, включая Elastic Block Store, Lambda и механизм запуска новых экземпляров Elastic Compute Cloud.

Сбой повлиял на работу таких компаний, как Netflix, Reddit, Adobe и Imgur. По данным Apica, сайты более половины онлайн-магазинов из сотни самых крупных загружались медленнее обычного.

Для восстановления работоспособности S3 понадобился полный перезапуск ряда подсистем, но такая операция в Amazon не выполнялась уже несколько лет, а поскольку за это время облако существенно выросло, перезагрузка заняла больше времени, чем предполагалось.

Чтобы предотвратить повторение инцидента, в Amazon приняли ряд мер, в частности, изменили инструмент, ставший виновником сбоя, — теперь он будет анализировать возможные последствия ввода команд и выдавать соответствующие предостережения.




Январь 2019
Пн Вт Ср Чт Пт Сб Вс
« Дек    
 123456
78910111213
14151617181920
21222324252627
28293031  


Архивы



Яндекс цитирования

Яндекс.Метрика




© 1994 - 2019 Бизнес и Компьютер