Публикации   Каталог оборудования   Анализ климата регионов   О проекте AboutDC.ru

Возникновение сбоев в ЦОД

Опубликовано: 20.03.2013. AboutDC.ru

Если ключевые бизнес-процессы компании тесно связаны с работой дата-центра, понятия «крупный» или «малый» сбой, в каком-то смысле, теряют свою значимость. Даже небольшой (с точки зрения длительности или масштаба) сбой может негативно сказаться на доходах компании и на ее репутации. Возможно, вы готовы к серьезному сбою, но готовы ли вы к длительному простою оборудования?

Причины возникновения сбоев в ЦОД

Дата-центр является сложной системой с большим количеством внутренних связей, и для нормальной его работы требуется штатное функционирование множества подсистем. К сожалению, довольно часто одна небольшая ошибка или незначительное происшествие может привести к внезапному отказу всей системы.

Рассмотрим в качестве примера кнопку EPO (аварийное отключение питания): Какой-нибудь служащий может принять эту кнопку за механизм открытия дверей, что приведет к полному отключению питания на объекте. Другим примером может служить недавнее отключение сайта Wikipedia, связанное с обрывом оптоволоконного кабеля в дата-центре компании. Можно также вспомнить отключение Twitter во время олимпийских игр 2012 года в Лондоне, связанное с системным сбоем в ЦОД (и практически одновременным отказом резервной системы).

Таким образом, можно сделать вывод: для того, чтобы вывести из строя ЦОД, вовсе не требуется ураган, землетрясение, обрыв главной линии питания или хакерская атака. И если основные бизнес-процессы компании (к примеру, продажи через интернет) зависят от штатного функционирования дата-центра, каждая минута простоя приводит к потере прибыли. Более того, клиенты, которые хотят воспользоваться вашим сайтом или другими вашими услугами и получают сообщение об ошибке, могут уйти к конкуренту. В таком случае, вы лишаетесь не только прибыли, но и клиента как такового, что приводит к еще более существенным денежным потерям. И даже если клиенты могут нормально отнестись к остановке в работе сервиса, мало кто из них будет готов смириться с длительной недоступностью необходимых им функций.

Причины сбоев в работе сервисов: Далеко не всегда причиной возникновения сбоев является серьезное происшествие, которое уничтожает ваш бизнес. В качестве причины могут выступить незначительные неполадки в работе сетевой платы. С другой стороны, вполне может произойти стихийное бедствие регионального масштаба, которое не только уничтожит ваш ЦОД, но также приведет к повреждению близлежащих дорог, мостов и прочей инфраструктуры.

Подготовка к незначительным происшествиям

В мире не существует абсолютно надежных систем, и защита от дурака срабатывает далеко не всегда. Согласно теории вероятности, в дата-центре рано или поздно может произойти сбой, вне зависимости от реализованного уровня надежности. Разумеется, необходимо предпринять все возможные меры для предотвращения сбоев. К примеру, следует использовать избыточные компоненты во избежание ситуаций, когда отказ одного из элементов может стать причиной сбоя в работе ЦОД, но при этом нужно всегда иметь план на случай возникновения сбоя. Разница между «длительным» и «кратковременным» простоем оборудования зачастую не так уж существенна. Впрочем, это утверждение справедливо далеко не всегда.

К примеру, сбой в работе системы, при котором сервисы по-прежнему являются доступными, но крайне медленно загружаются, может быть даже хуже полномасштабного отключения системы. Вам должно быть известно, что такое медленная загрузка сайта: вы долго ждете, и потом в ярости закрываете рабочее окно. По этой причине, схема действий при небольшом сбое может ничем не отличаться от схемы действий при длительном отключении. Но как бы там ни было, следует уделять основное внимание обучению персонала, что позволяет минимизировать потенциальный ущерб для бизнеса. Вот несколько полезных советов:

  • Заблаговременное планирование: Возможно, это наиболее важный шаг для быстрого восстановления после сбоя (как небольшого, так и крупномасштабного). Если вы начинаете разработку плана действий уже после того, как произошел сбой, то оказываетесь в не слишком выгодном положении. Заранее назначьте человека, с которым нужно будет связаться в случае возникновения сбоя. Разработайте процедуры для выявления проблемы и ее последующего решения. Составьте список компаний, к которым вы будете обращаться в случае отказа тех или иных систем, к примеру, ИБП. Наконец, самое главное – грамотно организуйте всю полученную документацию и разместите ее в таком месте, к которому могут легко получить доступ все заинтересованные лица. Заблаговременное планирование позволяет вам быстро восстановить нормальное функционирование ЦОД и самого бизнеса.
  • Резервное копирование данных: Люди зачастую считают страховые услуги пустой тратой денег. Однако, когда происходит стихийное бедствие, страховка оказывается очень кстати. То же самое относится и к резервному копированию критически важных данных. Данная процедура кажется пустой тратой времени и денег ровно до того момента, пока не произойдет потеря данных. Вот здесь как раз и выясняется ценность резервного копирования. Однако, регулярное создание резервных копий должно выполняться в рамках штатного функционирования системы. Выполнять резервное копирование уже после того, как произошел сбой, как правило, не имеет смысла.
  • Развертывание систем мониторинга/управления инфраструктурой ЦОД:  Ключевым моментом для быстрого устранения неисправности является выяснение причин ее возникновения. Довольно сложно будет найти проблему, вооружившись фонарем и мультиметром. Необходимо иметь централизованный доступ к информации о состоянии системы, что позволяет быстро определить проблемные участки.
  • Анализ работы ЦОД при пиковой загрузке: Работа при максимальной или пиковой загрузке является наиболее удобным моментом для выявления потенциальных проблем прежде, чем они приведут к возникновению сбоя.

Заключение

Подготовка к устранению последствий кратковременного сбоя ничем не отличается от подготовки к крупномасштабному сбою. Кратковременное прекращение работы систем может практически никак не повлиять на работу бизнеса, но это не значит, что проблему не нужно решать, поскольку она может перерасти в нечто более серьезное. Небольшой сбой может также свидетельствовать о существовании более серьезных проблем, которые могут однажды привести к длительному простою оборудования. Но, в любом случае, необходимо быть готовым к возможным происшествиям. В вашем ЦОД может произойти сбой, но если вы заранее к нему подготовитесь, то сможете сохранить прибыль и репутацию в глазах клиентов. 

Комментарии

Ваше имя:

E-mail:  (на сайте не показывается)

Введите код с картинки:      

 

Каталог оборудования

 ИБП   Кондиционеры   Чиллеры 

HYIP (Хайп)

 About HYIP (о хайпах)   HYIP платит   HYIP скам   Обменники   Платёжные системы 

Компании

 DataCenterDynamics   Exsol (Эксол)   HTS   NVisionGroup   Union Group   Uptime Institute   UptimeTechnology   Ай-Теко   АйТи   АМТ-груп   Астерос   Аякс   ВентСпецСтрой   ДатаДом   Крок   Радиус ВИП   Термокул   Техносерв 

Оборудование

 Кондиционирование   Контроль доступа и безопасность   Мониторинг   Пожаротушение   Серверное оборудование   СКС   Фальшпол   Шкафы и стойки   Электроснабжение (ИБП, ДГУ) 

Пресса

 Connect - Мир связи   FOCUS   PC Week   ServerNews   Журнал сетевых решений / LAN   ИКС-Медиа 

Производители

 AEG   Chloride   Conteg   Delta Electronics   Eaton   Emerson Network Power   Green Revolution Cooling   HiRef   Hitec   Lampertz   Lande   LSI   Powerware   RC Group   Rittal   Schneider Electric   Stulz   Uniflair 

Рубрики

 Базовые станции   Интернет вещей   История   Криптовалюты   Мероприятия   Мобильный ЦОД   Обслуживание ЦОД   Опыт ЦОД   Суперкомпьютеры   Терминология   ЦОД в целом 

Доставим в Ваш телефон по этому списку игры головоломки.