Теория вероятностей: резервирование и время безотказной работы ЦОД

Данная статья - первая в своём роде и посвящена применению теории вероятностей для сравнения различных схем резервирования оборудования в ЦОД, вычислению достигаемого времени безотказной работы, а также финансовым рискам.

Известно, что каждое оборудование имеет такие характеристики, как ресурс, время безотказной работы и средняя длительность простоя за год использования. Также заметим, что уровни надежности ЦОД (Tier), являясь одной из основных характеристик ЦОД, зависят от времени простоя за год. Это неспроста: именно от длительности простоя зависит успешность бизнеса компании и её непредвиденные убытки.

Итак, при построении ЦОД вкладывают деньги для реализации той или иной схемы резервирования с целью сократить время простоя и, следовательно, сократить и убытки от простоев. Всегда ли оправдываются эти вложения? Всё зависит от схемы резервирования. Именно по этому критерию будет разделен последующий материал.

Схема резервирования отсутствует: N

В данном случае ни одна система не резервируется (Tier I) и простой каждой единицы оборудования означает простой всего ЦОД. Общий простой ЦОД за год составляет 28.8ч (Коэффициент отказоустойчивости 99,671%). Эта схема была характерна для ЦОД 60-70х годов прошлого века и полностью изжила себя к настоящему моменту по причине предельной убыточности: сегодня убытки компании от пары часов простоя если и не превышают стоимость дополнительной (резервной) единицы оборудования, то как минимум равны ей.

Схема резервирования N+1

Схема резервирования N+1 наиболее распространена на сегодняшний день. Согласно ей, к N рабочим единицам добавляется одна резервная. Здесь всегда важно правильно определить значение N. Рассмотрим этот аспект, условно приняв, что штатный простой одной единицы оборудования составляет S0 часов в год (вероятность отказа равна P0=S/(24ч/дн•365дн)=S/8760).

Очевидно, если N=0, то время простоя в год S(N=0)=S0, а вероятность отказа P(N=0)=S/8760= P0.

Если N=1, то вероятность отказа соответствует случаю, когда одновременно не работают обе единицы оборудования. P(N=1)=P1=P0•P0, S(N=1)=S1=P0•P0•8760.

При N≥2 система неработоспособна, если одновременно отключилось не менее двух любых единиц оборудования. Таким образом, в случае N=2 должны отключиться (1 и 2), (2 и 3), (1 и 3) единицы оборудования (вероятность каждого события равна P1=P0•P0) при условии работоспособности третьей единицы (вероятность 1-P0) или все три (1, 2 и 3) вместе (вероятность равна P0•P0•P0). Получаем следующую вероятность отказа системы: P2=3•P0•P0•(1-P0)+P0•P0•P0.

Для N=3 имеем три случая отказа:

  • вышли из строя любые две единицы оборудования (шесть вариантов с вероятностью P1=P0•P0 каждый) при условии работоспособности оставшихся двух единиц (вероятность (1-P0)•(1-P0)),
  • вышли из строя любые три единицы оборудования (четыре варианта вероятностью P0•P0•P0 каждый) при условии работоспособности оставшейся единицы (вероятность 1-P0),
  • вышли из строя все четыре единицы оборудования (вероятность P0•P0•P0•P0).

Итоговая вероятность P3=6•P0•P0•(1-P0)•(1-P0)+4•P0•P0•P0•(1-P0)+ P0•P0•P0•P0.

Существует и общая формула для любого N, состоящая из N слагаемых. Однако, заметим, что, ввиду малости P0, первое слагаемое наиболее велико, а остальные практически не дают вклада в итоговую вероятность. Таким образом, немного потеряв в точности можно сократить число слагаемых до одного - первого. Тогда:

P1=P0•P0,

P2≈3•P0•P0•(1-P0),

P3≈6•P0•P0•(1-P0)•(1-P0),

............

P(N)≈С(N+1,2)•P0²•(1-P0)N-1, где C(2,N+1) - количество вариантов выборки 2 элементов из N+1 (на языке комбинаторики: сочетание из N+1 по 2), С(N+1,2) = (N+1)! / (2!•(N+1-2)!) = (N+1)! / (2•(N-1)!) = N•(N+1)/2. Итак,

P(N)≈N•(N+1)•P0²•(1-P0)N-1/2; S(N)=P(N)•8760.

Рассмотрим применение полученных формул на примере.

Пример №1. Штатный простой оборудования в год составляет 20 часов (данная цифра не случайна, а вполне обоснованна, см. здесь). Каков будет простой оборудования без резервирования и при схеме резервирования N+1 с различными N?В данном случае S0=20, P0=20/8760=0.0023=0.23%. Используя формулу для P(N) заполняем таблицу 1:
Конфигурация Вероятность отказа, % Время простоя за год, ч
1 0.23% 20
1+1 0.0005% 0.046
2+1 0.0016% 0.137
3+1 0.0031% 0.273
4+1 0.0052% 0.454
5+1 0.0077% 0.679

Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Однако, вероятность отказа и время простоя растет с ростом N, т.е. с ростом общего числа элементов в системе, причем чем дальше, тем быстрее. Тем самым выполняется принцип "чем сложнее система, тем она менее надежна".

При N≤7 (а именно это самый распространенный вариант) можно принять, что увеличение числа рабочих единиц оборудования на одно увеличивает время простоя на 10 минут в год.

Также интересно, что в этом примере вероятность отказа при N=30 сравняется с конфигурацией без резерва.

По данным Berkeley Internet Week 2000 Contingency Planning Research, приблизительные потери, которые могут быть вызваны простоем продолжительностью в 1ч на предприятиях различных типов в США составляют (таблица 2):

Тип предприятия Стоимость часа простоя
Биржевые транзакции Несколько млн. долл.
Авторизация кредитных карт (банки) $2 000 000
Amazon $180 000
Бронирование билетов на самолеты $89 000
Резервирование (отелей, автомобилей и т.п.) $41 000
Банкоматы $14 000

Поэтому разница между конфигурациями 1+1 и 3+1 для компании по бронированию билетов может обойтись более, чем в $20 000 (увеличение времени простоя на 13.6 минут в год).

Схема резервирования 2N

Согласно схеме резервирования 2N каждый элемент системы дублируется аналогичным. Предполагается, что всё оборудование входит в состав одной системы (а не 2 системы по N элементов в каждой, т.е. 2 системы, каждая из которых не имеет резерва. Очевидно, что этот случай характеризуется низкой доступностью, а потому не рекомендуется и не рассматривается).

Система считается неработоспособной в случае выхода из строя (N+1) единицы оборудования. Для вероятности отказа можно получить следующие формулы:

P1=P0•P0,

P2≈4•P0³•(1-P0),

P3≈15•P04•(1-P0)²,

............

P(N)≈С(2N,N+1)•P0N•(1-P0)N-1, где C(2N,N+1) - количество вариантов выборки N+1 элементов из 2N (сочетание из 2N по N+1), С(2N,N+1) = 2N! / ((N+1)!•(N-1)!). Итак,

P(N)≈2N!•P0²•(1-P0)N-1/((N+1)!•(N-1)!); S(N)=P(N)•8760.

Рассмотрим применение полученных формул на примере.

Пример №2. Каков будет простой оборудования без резервирования и при схеме резервирования 2N при S0=20ч? Используя формулу для P(N) заполняем таблицу 3:
Конфигурация Вероятность отказа, % Время простоя за год
1 0.23% 20ч
1+1 0.0005% 0.046ч=164сек
2+2 4.7•10-6% 1.5сек
3+3 4.0•10-8% 0.013сек
4+4 3.5•10-10% 0.0001сек
5+5 2.9•10-12% 0.000001сек

Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Причем с повышением N отказоустойчивость возрастает, а длительность простоя падает в среднем в 100 раз при увеличении N на единицу. Этим свойством схема резервирования 2N принципиально отличается от N+1.

Схема резервирования 2(N+1)

Данная схема соответствует Tier IV. Здесь предполагается, что имеется система со схемой N+1, полностью зарезервированная аналогичной. Именно такой подход декларирует Tier IV.

Система неработоспособна, если вышли из строя 2 единицы оборудования в одной системы и 2 - в другой. Другими словами, система неработоспособна, когда неработоспособны обе входящие в неё системы. А про них мы ведь уже всё знаем! Итак, вероятность отказа схемы 2(N+1) равна вероятности отказа схемы N+1, помноженной на себя же.

P2(N+1)(N)=PN+1(N)² S2(N+1)(N)=P2(N+1)(N)•8760.

Пример №3. Каков будет простой оборудования без резервирования и при схеме резервирования 2N при S0=20ч? Используя формулу для P(N) заполняем таблицу 4:
Конфигурация Вероятность отказа, % Время простоя за год
1 0.23% 20ч
2(1+1) 2.7•10-9% 0.0009сек
2(2+1) 2.4•10-8% 0.008сек
2(3+1) 9.7•10-8% 0.03сек
2(4+1) 2.7•10-7% 0.08сек
2(5+1) 6.0•10-7% 0.2сек

Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования 2(N+1), чем при N+1 и тем более при отсутствии резерва вовсе. Время простоя при схеме 2(N+1) ничтожно, но оно возрастает с увеличением N.

Общая таблица отказоустойчивости различных схем резервирования

N Схемы резервирования
N N+1 2N 2(N+1)
Вероятность отказа Длительность простоя Вероятность отказа Длительность простоя Вероятность отказа Длительность простоя Вероятность отказа Длительность простоя
1 0.23% 20ч 0.0005% 0.046ч 0.0005% 0.046ч=164сек 2.7•10-9% 0.0009сек
2 0.46% 39.9ч 0.0016% 0.137ч 4.7•10-6% 1.5сек 2.4•10-8% 0.008сек
3 0.68% 59.7ч 0.0031% 0.273ч 4.0•10-8% 0.013сек 9.7•10-8% 0.03сек
4 0.90% 79.5ч 0.0052% 0.454ч 3.5•10-10% 0.0001сек 2.7•10-7% 0.08сек
5 1.13% 99.1ч 0.0077% 0.679ч 2.9•10-12% 0.000001сек 6.0•10-7% 0.20сек
6 1.35% 118.6ч 0.0108% 0.948ч 2.5•10-14% 0.8•10-8сек 1.2•10-6% 0.37сек
7 1.58% 138.1ч 0.0144% 1.261ч 2.1•10-16% 0.7•10-10сек 2.1•10-6% 0.65сек
8 1.80% 157.5ч 0.0185% 1.618ч 1.9•10-18% 0.6•10-12сек 3.4•10-6% 1.08сек
9 2.02% 176.7ч 0.0230% 2.018ч 1.7•10-20% 0.5•10-14сек 5.3•10-6% 1.67сек
10 2.24% 195.9ч 0.0281% 2.460ч 1.4•10-22% 0.5•10-16сек 7.9•10-6% 2.49сек

Сравнение: N+1 vs 2N vs 2(N+1)

Самым главным различием между схемой резервирования 2N и схем N+1 и 2(N+1) является тот факт, что с повышением числа рабочих единиц оборудования (т.е. с повышением N) обе последние схемы ухудшают доступность системы в целом, а 2N - увеличивает её, причем очень быстрыми темпами (снижая время простоя в 100 раз при росте N на единицу).

Но следует помнить, что схемы N+1 и 2N, в отличие от 2(N+1) не резервируют систему в целом, а потому не исключают опасность аварии на участке между зарезервированными элементами системы.

Наконец, третий вывод заключается в том, что используя схему N+1 не желательно принимать N выше 6-8.

Комментарии

Ваше имя:

E-mail:  (на сайте не показывается)

Введите код с картинки: