Авария в дата-центре Яндекса
О происшествии с энергоснабжением центра обработки данных компании Яндекс. Яндекс опубликовал результаты предварительного расследования инцидента, который произошёл в воскресенье, 30 марта. В результате инцидента пострадал один из дата-центров компании. Это повлияло на работу Yandex Cloud и некоторых сервисов Яндекса. Предыстория. Дата-центр, где произошёл инцидент, подключён к национальным электросетям через ближайшую опорную подстанцию напряжением 220 кВ. Электроэнергия от подстанции поступает в дата-центр по двум независимым линиям напряжением 110 кВ. Опорная подстанция находится в управлении компании-оператора, а всё, что находится между ней и дата-центром — кабели, собственная подстанция дата-центра и другое силовое оборудование — находится в ведении Яндекса. Для питания всего дата-центра достаточно одной линии. Схема с двумя линиями, или лучами, обеспечивает защиту от перебоев с электричеством. Если что-то произойдёт на одном луче, дата-центр будет работать на втором. Ещё одно преимущество двух линий — возможность проводить профилактические работы на силовом оборудовании без отключения всего дата-центра. Что произошло. В 12:25 30 марта на опорной подстанции произошла авария. Подобные инциденты случались и раньше, но благодаря резервированию они не оказывали существенного влияния на работу дата-центра. Однако 30 марта произошёл беспрецедентный случай, так как в результате аварии обе линии, питающие дата-центр, были обесточены. Это произошло впервые за всю 15-летнюю историю эксплуатации объекта. Более того, насколько известно Яндексу, подобная авария такого масштаба — первая в истории подстанции, которая существует с 1960 года. В течение трёх часов, с 12:25 до 15:30, когда подача питания была восстановлена, единственным источником электроэнергии в дата-центре были дизель-генераторы. Благодаря им удалось сохранить работоспособность критически важных элементов инфраструктуры дата-центра, включая центры управления сетями и сервисы безопасности. Это позволило полностью восстановить работу дата-центра уже к полуночи. Если бы не было альтернативных источников питания, восстановление после аварии такого масштаба заняло бы несколько дней. Кого затронула авария. После выхода дата-центра из строя нагрузка была распределена между другими дата-центрами Яндекса. В течение короткого времени некоторые пользователи могли наблюдать небольшие проблемы в работе некоторых сервисов Яндекса, таких как Музыка и Лавка. Глобального сбоя не произошло, поскольку все сервисы Яндекса работают по схеме «минус один дата-центр», то есть они продолжают функционировать, даже если один из дата-центров компании полностью выходит из строя. В дата-центре также находится ru-central1-b — одна из трёх зон доступности платформы Yandex Cloud. Приложения клиентов Yandex Cloud, развёрнутые только в ru-central1-b, были недоступны всё время, пока шли восстановительные работы. Приложения, развёрнутые в нескольких зонах доступности, могли быть недоступны или работать с ошибками, пока нагрузка перераспределялась между другими дата-центрами. Какие меры примет Яндекс. События 30 марта показали, что двойной отказ питания в дата-центре — хотя и редкая, но возможная ситуация. Яндекс проведёт переоценку рисков, связанных с энергоснабжением дата-центра, и примет меры для минимизации последствий подобных отказов. Риск двойного отказа будет учтён в регламентах проведения «учений». Это регулярные мероприятия в дата-центрах, где команда эксплуатации отрабатывает действия в случае нештатных ситуаций. В системы управления дата-центром будут внесены изменения, которые позволят ускорить его «холодный старт» — восстановление после отказа питания. Yandex Cloud рассматривает возможность внедрения дополнительного резервирования в своих модулях, в том числе с использованием дизель-генераторов в качестве резервного источника питания. Кроме того, Yandex Cloud продолжит разрабатывать новые архитектурные решения и инструменты для обеспечения отказоустойчивости сервисов с мультизональной архитектурой. Один из таких инструментов — Zonal Shift. Он позволяет точечно управлять нагрузкой в сервисах с мультизональной архитектурой и уже доказал свою эффективность в условиях полного отказа дата-центра. Источник: www.yandex.ru
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ