Возникновение сбоев в ЦОД

Если ключевые бизнес-процессы компании тесно связаны с работой дата-центра, понятия «крупный» или «малый» сбой, в каком-то смысле, теряют свою значимость. Даже небольшой (с точки зрения длительности или масштаба) сбой может негативно сказаться на доходах компании и на ее репутации. Возможно, вы готовы к серьезному сбою, но готовы ли вы к длительному простою оборудования?

Ремонт замков профессиональными мастерами со стажем более 10 лет - Городская служба замков

Причины возникновения сбоев в ЦОД

Дата-центр является сложной системой с большим количеством внутренних связей, и для нормальной его работы требуется штатное функционирование множества подсистем. К сожалению, довольно часто одна небольшая ошибка или незначительное происшествие может привести к внезапному отказу всей системы.

Рассмотрим в качестве примера кнопку EPO (аварийное отключение питания): Какой-нибудь служащий может принять эту кнопку за механизм открытия дверей, что приведет к полному отключению питания на объекте. Другим примером может служить недавнее отключение сайта Wikipedia, связанное с обрывом оптоволоконного кабеля в дата-центре компании. Можно также вспомнить отключение Twitter во время олимпийских игр 2012 года в Лондоне, связанное с системным сбоем в ЦОД (и практически одновременным отказом резервной системы).

Таким образом, можно сделать вывод: для того, чтобы вывести из строя ЦОД, вовсе не требуется ураган, землетрясение, обрыв главной линии питания или хакерская атака. И если основные бизнес-процессы компании (к примеру, продажи через интернет) зависят от штатного функционирования дата-центра, каждая минута простоя приводит к потере прибыли. Более того, клиенты, которые хотят воспользоваться вашим сайтом или другими вашими услугами и получают сообщение об ошибке, могут уйти к конкуренту. В таком случае, вы лишаетесь не только прибыли, но и клиента как такового, что приводит к еще более существенным денежным потерям. И даже если клиенты могут нормально отнестись к остановке в работе сервиса, мало кто из них будет готов смириться с длительной недоступностью необходимых им функций.

Причины сбоев в работе сервисов: Далеко не всегда причиной возникновения сбоев является серьезное происшествие, которое уничтожает ваш бизнес. В качестве причины могут выступить незначительные неполадки в работе сетевой платы. С другой стороны, вполне может произойти стихийное бедствие регионального масштаба, которое не только уничтожит ваш ЦОД, но также приведет к повреждению близлежащих дорог, мостов и прочей инфраструктуры.

Подготовка к незначительным происшествиям

В мире не существует абсолютно надежных систем, и защита от дурака срабатывает далеко не всегда. Согласно теории вероятности, в дата-центре рано или поздно может произойти сбой, вне зависимости от реализованного уровня надежности. Разумеется, необходимо предпринять все возможные меры для предотвращения сбоев. К примеру, следует использовать избыточные компоненты во избежание ситуаций, когда отказ одного из элементов может стать причиной сбоя в работе ЦОД, но при этом нужно всегда иметь план на случай возникновения сбоя. Разница между «длительным» и «кратковременным» простоем оборудования зачастую не так уж существенна. Впрочем, это утверждение справедливо далеко не всегда.

К примеру, сбой в работе системы, при котором сервисы по-прежнему являются доступными, но крайне медленно загружаются, может быть даже хуже полномасштабного отключения системы. Вам должно быть известно, что такое медленная загрузка сайта: вы долго ждете, и потом в ярости закрываете рабочее окно. По этой причине, схема действий при небольшом сбое может ничем не отличаться от схемы действий при длительном отключении. Но как бы там ни было, следует уделять основное внимание обучению персонала, что позволяет минимизировать потенциальный ущерб для бизнеса. Вот несколько полезных советов:

  • Заблаговременное планирование: Возможно, это наиболее важный шаг для быстрого восстановления после сбоя (как небольшого, так и крупномасштабного). Если вы начинаете разработку плана действий уже после того, как произошел сбой, то оказываетесь в не слишком выгодном положении. Заранее назначьте человека, с которым нужно будет связаться в случае возникновения сбоя. Разработайте процедуры для выявления проблемы и ее последующего решения. Составьте список компаний, к которым вы будете обращаться в случае отказа тех или иных систем, к примеру, ИБП. Наконец, самое главное – грамотно организуйте всю полученную документацию и разместите ее в таком месте, к которому могут легко получить доступ все заинтересованные лица. Заблаговременное планирование позволяет вам быстро восстановить нормальное функционирование ЦОД и самого бизнеса.
  • Резервное копирование данных: Люди зачастую считают страховые услуги пустой тратой денег. Однако, когда происходит стихийное бедствие, страховка оказывается очень кстати. То же самое относится и к резервному копированию критически важных данных. Данная процедура кажется пустой тратой времени и денег ровно до того момента, пока не произойдет потеря данных. Вот здесь как раз и выясняется ценность резервного копирования. Однако, регулярное создание резервных копий должно выполняться в рамках штатного функционирования системы. Выполнять резервное копирование уже после того, как произошел сбой, как правило, не имеет смысла.
  • Развертывание систем мониторинга/управления инфраструктурой ЦОД:  Ключевым моментом для быстрого устранения неисправности является выяснение причин ее возникновения. Довольно сложно будет найти проблему, вооружившись фонарем и мультиметром. Необходимо иметь централизованный доступ к информации о состоянии системы, что позволяет быстро определить проблемные участки.
  • Анализ работы ЦОД при пиковой загрузке: Работа при максимальной или пиковой загрузке является наиболее удобным моментом для выявления потенциальных проблем прежде, чем они приведут к возникновению сбоя.

Заключение

Подготовка к устранению последствий кратковременного сбоя ничем не отличается от подготовки к крупномасштабному сбою. Кратковременное прекращение работы систем может практически никак не повлиять на работу бизнеса, но это не значит, что проблему не нужно решать, поскольку она может перерасти в нечто более серьезное. Небольшой сбой может также свидетельствовать о существовании более серьезных проблем, которые могут однажды привести к длительному простою оборудования. Но, в любом случае, необходимо быть готовым к возможным происшествиям. В вашем ЦОД может произойти сбой, но если вы заранее к нему подготовитесь, то сможете сохранить прибыль и репутацию в глазах клиентов. 

Теги:
#Опыт ЦОД

Оставить комментарий

Ваше имя:
E-mail:
(Не обязательно)
Текст комментария:
Введите код с картинки:  

Дополнительные материалы

ПРОФЕССИОНАЛЬНОЕ обучение проектированию систем вентиляции и кондиционирования

Можно ли зимой включать кондиционер на обогрев

Вытяжка в стену: как подобрать и правильно сделать своими руками

3 способа сделать увлажнитель воздуха для квартиры и дома своими руками

Всё самое важное про турбодефлекторы: что такое, принцип работы, внешний вид, как подобрать

Вентиляция в квартире: самое полное руководство простым языком

Встраиваемая вытяжка на кухне: важные нюансы по устройству и подключению

Вытяжка в дачном туалете: как сделать правильно своими руками