Аварии в дата-центре
Небольшая подборка аварий в дата центрах в 2012 году.
Вода вместо дизеля
Ожидалось плановое отключение электричества. В дата-центр приходило две линии, владельцы ЦОДа заранее знали о ситуации, подготовились и провели все необходимые тесты. Всё что было нужно – просто перейти на дизели по стандартной процедуре.
Отключение произошло так, как и было задумано энергетиками: ИБП отработали штатно, ЦОД перешел на ДГУ. Через полтора часа кончилось топливо. Во время подкачки топлива ДГУ встали.
Почему? Оказалось, из-за перепадов температуры в топливных баках постоянно образовывался конденсат, образовавшаяся вода оседала на дно, откуда и всасывается топливо. Зачерпнув воды вместо дизеля, ДГУ и встали.
Результат — во время планового отключения компания получила аварийную остановку всего ЦОД примерно на 8 часов.
Пожар в дата-центре Shaw Communications
Возгорание в дата-центре Shaw Communications в Калгари, провинция Альберта (Канада) обернулось перебоями в работе городских служб и задержкой сотен операций в местных больницах.
Инцидент вызвал отказ основных и резервных систем, которые поддерживают ключевые общественные услуги. Государственные учреждения в свою очередь получили тревожный “звоночек”. Теперь чиновникам предстоит убедиться, что во всех дата-центрах, которые управляют работой аварийно-спасательных служб, есть системы восстановления и переключения при отказе, способные сохранять работоспособность в крайне неблагоприятной среде – “идеальный шторм невозможных событий”, которые совместно способны доказать несостоятельность плана борьбы со стихийными бедствиями.
Неисправность PDU
Iведский файлообменный веб-сайт The Pirate Bay («Пиратская бухта») целых два дня восстанавливался от аварии из-за неисправности блока распределения питания (PDU) в дата-центре, размещающем его сервера.
Облачный сервис Windows Azure забыл про високосный год
Облачный сервис Windows Azure забыл про то, что 2012 год – високосный. Связанный с датой баг сертификата безопасности был спровоцирован наступлением 29 февраля – эта дата появляется в календаре раз в четыре года.
Из-за данного инцидента клиенты Azure были лишены возможности управлять своими приложениями в течение 8 часов, при этом ряд сервисов Azure оказался недоступен для некоторых пользователей из североамериканского региона. “Эта проблема, как представляется, связана с механизмом расчета времени, который показал свою некорректность в разрезе високосного года”, сказал Билл Лэйнг из Microsoft.
Позже редмондовцы списали часть абонентской платы клиентов за сервисы, как того требует соглашение об уровне обслуживания (SLA).
4 часа без Википедии
В августе 2012 года многие из веб-сервисов вышли из строя вследствие повреждения кабеля рядом с одним из принадлежащих компании центров обработки данных.
«Отключение было связано с повреждением оптоволоконного кабеля возле нашего ЦОДа во Флориде», – написал в Твиттере один из сотрудников Wikimedia. Уже около 10 утра появилось другое сообщение, о том, что сайты вернулись в нормальный режим.
В 06:30 компания Wikimedia дала знать, что возникли некоторые технические неполадки, однако инженеры над ними работают. Около 10:30 утра лишь у Wikipedia остались проблемы с производительностью, всё остальное, судя по онлайн-статусу Wikimedia, работало нормально.
Дополнительные материалы
Оставить комментарий