Аварии в дата-центре

Небольшая подборка аварий в дата центрах в 2012 году.

Вода вместо дизеля

Ожидалось плановое отключение электричества. В дата-центр приходило две линии, владельцы ЦОДа заранее знали о ситуации, подготовились и провели все необходимые тесты. Всё что было нужно – просто перейти на дизели по стандартной процедуре.

Отключение произошло так, как и было задумано энергетиками: ИБП отработали штатно, ЦОД перешел на ДГУ. Через полтора часа кончилось топливо. Во время подкачки топлива ДГУ встали.

Почему? Оказалось, из-за перепадов температуры в топливных баках постоянно образовывался конденсат, образовавшаяся вода оседала на дно, откуда и всасывается топливо. Зачерпнув воды вместо дизеля, ДГУ и встали.

Результат — во время планового отключения компания получила аварийную остановку всего ЦОД примерно на 8 часов.

Пожар в дата-центре Shaw Communications

Возгорание в дата-центре Shaw Communications в Калгари, провинция Альберта (Канада) обернулось перебоями в работе городских служб и задержкой сотен операций в местных больницах.

Инцидент вызвал отказ основных и резервных систем, которые поддерживают ключевые общественные услуги. Государственные учреждения в свою очередь получили тревожный “звоночек”. Теперь чиновникам предстоит убедиться, что во всех дата-центрах, которые управляют работой аварийно-спасательных служб, есть системы восстановления и переключения при отказе, способные сохранять работоспособность в крайне неблагоприятной среде – “идеальный шторм невозможных событий”, которые совместно способны доказать несостоятельность плана борьбы со стихийными бедствиями.

Неисправность PDU

Iведский файлообменный веб-сайт The Pirate Bay («Пиратская бухта») целых два дня восстанавливался от аварии из-за неисправности блока распределения питания (PDU) в дата-центре, размещающем его сервера.

Облачный сервис Windows Azure забыл про високосный год

Облачный сервис Windows Azure забыл про то, что 2012 год – високосный. Связанный с датой баг сертификата безопасности был спровоцирован наступлением 29 февраля – эта дата появляется в календаре раз в четыре года.

Из-за данного инцидента клиенты Azure были лишены возможности управлять своими приложениями в течение 8 часов, при этом ряд сервисов Azure оказался недоступен для некоторых пользователей из североамериканского региона. “Эта проблема, как представляется, связана с механизмом расчета времени, который показал свою некорректность в разрезе високосного года”, сказал Билл Лэйнг из Microsoft.

Позже редмондовцы списали часть абонентской платы клиентов за сервисы, как того требует соглашение об уровне обслуживания (SLA).

4 часа без Википедии

В августе 2012 года многие из веб-сервисов вышли из строя вследствие повреждения кабеля рядом с одним из принадлежащих компании центров обработки данных.

«Отключение было связано с повреждением оптоволоконного кабеля возле нашего ЦОДа во Флориде», – написал в Твиттере один из сотрудников Wikimedia. Уже около 10 утра появилось другое сообщение, о том, что сайты вернулись в нормальный режим.

В 06:30 компания Wikimedia дала знать, что возникли некоторые технические неполадки, однако инженеры над ними работают. Около 10:30 утра лишь у Wikipedia остались проблемы с производительностью, всё остальное, судя по онлайн-статусу Wikimedia, работало нормально.

Комментарии

Ваше имя:

E-mail:  (на сайте не показывается)

Введите код с картинки: