Теория вероятностей: резервирование и время безотказной работы ЦОД
Данная статья - первая в своём роде и посвящена применению теории вероятностей для сравнения различных схем резервирования оборудования в ЦОД, вычислению достигаемого времени безотказной работы, а также финансовым рискам.
Содержание статьи:
Хотите научиться проектировать? Учебный центр AboutDC приглашает на обучение:
- Курс А1. Вентиляция: с нуля до первого проекта
- СТАРТ 15 апреля 2024: Курс А1.1 - Кондиционирование с нуля до первого проекта. Сплиты, мульти-сплиты, разводка канальников, VRF
- Курс А2. ID-диаграмма. Расчет бассейнов и центральных кондиционеров
- Курс А3. Системы холодоснабжения: расчет чиллеров, фанкойлов, насосов и трасс
- Курс А4. Охлаждение ЦОД. Прецизионные кондиционеры. Фрикулинг
Известно, что каждое оборудование имеет такие характеристики, как ресурс, время безотказной работы и средняя длительность простоя за год использования. Также заметим, что уровни надежности ЦОД (Tier), являясь одной из основных характеристик ЦОД, зависят от времени простоя за год. Это неспроста: именно от длительности простоя зависит успешность бизнеса компании и её непредвиденные убытки.
Итак, при построении ЦОД вкладывают деньги для реализации той или иной схемы резервирования с целью сократить время простоя и, следовательно, сократить и убытки от простоев. Всегда ли оправдываются эти вложения? Всё зависит от схемы резервирования. Именно по этому критерию будет разделен последующий материал.
Схема резервирования отсутствует: N
В данном случае ни одна система не резервируется (Tier I) и простой каждой единицы оборудования означает простой всего ЦОД. Общий простой ЦОД за год составляет 28.8ч (Коэффициент отказоустойчивости 99,671%). Эта схема была характерна для ЦОД 60-70х годов прошлого века и полностью изжила себя к настоящему моменту по причине предельной убыточности: сегодня убытки компании от пары часов простоя если и не превышают стоимость дополнительной (резервной) единицы оборудования, то как минимум равны ей.
Схема резервирования N+1
Схема резервирования N+1 наиболее распространена на сегодняшний день. Согласно ей, к N рабочим единицам добавляется одна резервная. Здесь всегда важно правильно определить значение N. Рассмотрим этот аспект, условно приняв, что штатный простой одной единицы оборудования составляет S0 часов в год (вероятность отказа равна P0=S/(24ч/дн•365дн)=S/8760).
Очевидно, если N=0, то время простоя в год S(N=0)=S0, а вероятность отказа P(N=0)=S/8760= P0.
Если N=1, то вероятность отказа соответствует случаю, когда одновременно не работают обе единицы оборудования. P(N=1)=P1=P0•P0, S(N=1)=S1=P0•P0•8760.
При N≥2 система неработоспособна, если одновременно отключилось не менее двух любых единиц оборудования. Таким образом, в случае N=2 должны отключиться (1 и 2), (2 и 3), (1 и 3) единицы оборудования (вероятность каждого события равна P1=P0•P0) при условии работоспособности третьей единицы (вероятность 1-P0) или все три (1, 2 и 3) вместе (вероятность равна P0•P0•P0). Получаем следующую вероятность отказа системы: P2=3•P0•P0•(1-P0)+P0•P0•P0.
Для N=3 имеем три случая отказа:
- вышли из строя любые две единицы оборудования (шесть вариантов с вероятностью P1=P0•P0 каждый) при условии работоспособности оставшихся двух единиц (вероятность (1-P0)•(1-P0)),
- вышли из строя любые три единицы оборудования (четыре варианта вероятностью P0•P0•P0 каждый) при условии работоспособности оставшейся единицы (вероятность 1-P0),
- вышли из строя все четыре единицы оборудования (вероятность P0•P0•P0•P0).
Итоговая вероятность P3=6•P0•P0•(1-P0)•(1-P0)+4•P0•P0•P0•(1-P0)+ P0•P0•P0•P0.
Существует и общая формула для любого N, состоящая из N слагаемых. Однако, заметим, что, ввиду малости P0, первое слагаемое наиболее велико, а остальные практически не дают вклада в итоговую вероятность. Таким образом, немного потеряв в точности можно сократить число слагаемых до одного - первого. Тогда:
P1=P0•P0,
P2≈3•P0•P0•(1-P0),
P3≈6•P0•P0•(1-P0)•(1-P0),
............
P(N)≈С(N+1,2)•P0²•(1-P0)N-1, где C(2,N+1) - количество вариантов выборки 2 элементов из N+1 (на языке комбинаторики: сочетание из N+1 по 2), С(N+1,2) = (N+1)! / (2!•(N+1-2)!) = (N+1)! / (2•(N-1)!) = N•(N+1)/2. Итак,
P(N)≈N•(N+1)•P0²•(1-P0)N-1/2; S(N)=P(N)•8760.
Рассмотрим применение полученных формул на примере.
Конфигурация | Вероятность отказа, % | Время простоя за год, ч |
---|---|---|
1 | 0.23% | 20 |
1+1 | 0.0005% | 0.046 |
2+1 | 0.0016% | 0.137 |
3+1 | 0.0031% | 0.273 |
4+1 | 0.0052% | 0.454 |
5+1 | 0.0077% | 0.679 |
Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Однако, вероятность отказа и время простоя растет с ростом N, т.е. с ростом общего числа элементов в системе, причем чем дальше, тем быстрее. Тем самым выполняется принцип "чем сложнее система, тем она менее надежна".
При N≤7 (а именно это самый распространенный вариант) можно принять, что увеличение числа рабочих единиц оборудования на одно увеличивает время простоя на 10 минут в год.
Также интересно, что в этом примере вероятность отказа при N=30 сравняется с конфигурацией без резерва.
По данным Berkeley Internet Week 2000 Contingency Planning Research, приблизительные потери, которые могут быть вызваны простоем продолжительностью в 1ч на предприятиях различных типов в США составляют (таблица 2):
Тип предприятия | Стоимость часа простоя |
---|---|
Биржевые транзакции | Несколько млн. долл. |
Авторизация кредитных карт (банки) | $2 000 000 |
Amazon | $180 000 |
Бронирование билетов на самолеты | $89 000 |
Резервирование (отелей, автомобилей и т.п.) | $41 000 |
Банкоматы | $14 000 |
Поэтому разница между конфигурациями 1+1 и 3+1 для компании по бронированию билетов может обойтись более, чем в $20 000 (увеличение времени простоя на 13.6 минут в год).
Схема резервирования 2N
Согласно схеме резервирования 2N каждый элемент системы дублируется аналогичным. Предполагается, что всё оборудование входит в состав одной системы (а не 2 системы по N элементов в каждой, т.е. 2 системы, каждая из которых не имеет резерва. Очевидно, что этот случай характеризуется низкой доступностью, а потому не рекомендуется и не рассматривается).
Система считается неработоспособной в случае выхода из строя (N+1) единицы оборудования. Для вероятности отказа можно получить следующие формулы:
P1=P0•P0,
P2≈4•P0³•(1-P0),
P3≈15•P04•(1-P0)²,
............
P(N)≈С(2N,N+1)•P0N•(1-P0)N-1, где C(2N,N+1) - количество вариантов выборки N+1 элементов из 2N (сочетание из 2N по N+1), С(2N,N+1) = 2N! / ((N+1)!•(N-1)!). Итак,
P(N)≈2N!•P0²•(1-P0)N-1/((N+1)!•(N-1)!); S(N)=P(N)•8760.
Рассмотрим применение полученных формул на примере.
Конфигурация | Вероятность отказа, % | Время простоя за год |
---|---|---|
1 | 0.23% | 20ч |
1+1 | 0.0005% | 0.046ч=164сек |
2+2 | 4.7•10-6% | 1.5сек |
3+3 | 4.0•10-8% | 0.013сек |
4+4 | 3.5•10-10% | 0.0001сек |
5+5 | 2.9•10-12% | 0.000001сек |
Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования N+1, чем при отсутствии резерва вовсе. Причем с повышением N отказоустойчивость возрастает, а длительность простоя падает в среднем в 100 раз при увеличении N на единицу. Этим свойством схема резервирования 2N принципиально отличается от N+1.
Схема резервирования 2(N+1)
Данная схема соответствует Tier IV. Здесь предполагается, что имеется система со схемой N+1, полностью зарезервированная аналогичной. Именно такой подход декларирует Tier IV.
Система неработоспособна, если вышли из строя 2 единицы оборудования в одной системы и 2 - в другой. Другими словами, система неработоспособна, когда неработоспособны обе входящие в неё системы. А про них мы ведь уже всё знаем! Итак, вероятность отказа схемы 2(N+1) равна вероятности отказа схемы N+1, помноженной на себя же.
P2(N+1)(N)=PN+1(N)² S2(N+1)(N)=P2(N+1)(N)•8760.
Конфигурация | Вероятность отказа, % | Время простоя за год |
---|---|---|
1 | 0.23% | 20ч |
2(1+1) | 2.7•10-9% | 0.0009сек |
2(2+1) | 2.4•10-8% | 0.008сек |
2(3+1) | 9.7•10-8% | 0.03сек |
2(4+1) | 2.7•10-7% | 0.08сек |
2(5+1) | 6.0•10-7% | 0.2сек |
Вывод: Вероятность отказа и время простоя на порядок ниже при использовании схемы резервирования 2(N+1), чем при N+1 и тем более при отсутствии резерва вовсе. Время простоя при схеме 2(N+1) ничтожно, но оно возрастает с увеличением N.
Общая таблица отказоустойчивости различных схем резервирования
N | Схемы резервирования | |||||||
---|---|---|---|---|---|---|---|---|
N | N+1 | 2N | 2(N+1) | |||||
Вероятность отказа | Длительность простоя | Вероятность отказа | Длительность простоя | Вероятность отказа | Длительность простоя | Вероятность отказа | Длительность простоя | |
1 | 0.23% | 20ч | 0.0005% | 0.046ч | 0.0005% | 0.046ч=164сек | 2.7•10-9% | 0.0009сек |
2 | 0.46% | 39.9ч | 0.0016% | 0.137ч | 4.7•10-6% | 1.5сек | 2.4•10-8% | 0.008сек |
3 | 0.68% | 59.7ч | 0.0031% | 0.273ч | 4.0•10-8% | 0.013сек | 9.7•10-8% | 0.03сек |
4 | 0.90% | 79.5ч | 0.0052% | 0.454ч | 3.5•10-10% | 0.0001сек | 2.7•10-7% | 0.08сек |
5 | 1.13% | 99.1ч | 0.0077% | 0.679ч | 2.9•10-12% | 0.000001сек | 6.0•10-7% | 0.20сек |
6 | 1.35% | 118.6ч | 0.0108% | 0.948ч | 2.5•10-14% | 0.8•10-8сек | 1.2•10-6% | 0.37сек |
7 | 1.58% | 138.1ч | 0.0144% | 1.261ч | 2.1•10-16% | 0.7•10-10сек | 2.1•10-6% | 0.65сек |
8 | 1.80% | 157.5ч | 0.0185% | 1.618ч | 1.9•10-18% | 0.6•10-12сек | 3.4•10-6% | 1.08сек |
9 | 2.02% | 176.7ч | 0.0230% | 2.018ч | 1.7•10-20% | 0.5•10-14сек | 5.3•10-6% | 1.67сек |
10 | 2.24% | 195.9ч | 0.0281% | 2.460ч | 1.4•10-22% | 0.5•10-16сек | 7.9•10-6% | 2.49сек |
Сравнение: N+1 vs 2N vs 2(N+1)
Самым главным различием между схемой резервирования 2N и схем N+1 и 2(N+1) является тот факт, что с повышением числа рабочих единиц оборудования (т.е. с повышением N) обе последние схемы ухудшают доступность системы в целом, а 2N - увеличивает её, причем очень быстрыми темпами (снижая время простоя в 100 раз при росте N на единицу).
Но следует помнить, что схемы N+1 и 2N, в отличие от 2(N+1) не резервируют систему в целом, а потому не исключают опасность аварии на участке между зарезервированными элементами системы.
Наконец, третий вывод заключается в том, что используя схему N+1 не желательно принимать N выше 6-8.
Дополнительные материалы
Комментарии читателей
Васильченко Павел Викторович
Здравствуйте.
Прошу сообщить, материал изложенный в статье взят из каких-то стандартов? Можете сообщить названия, номера? Предполагаю, что это зарубежные нормы, что-то вроде IEEE или ANSI/TIA ?
Оставить комментарий