Исследование предельных рабочих температур ЦОД

На протяжении последних пяти лет происходил постоянный рост рабочих температур в дата-центрах. Крупнейшие компании-операторы ЦОД повышали используемые ими значения настолько быстро, что рекомендации Aмериканского общества инженеров по нагреванию, охлаждению и кондиционированию воздуха (ASHRAE) превратились из текущего руководства в постоянно меняющийся индикатор, отражающий внедряемые в дата-центрах изменения. Ответом ASHRAE стало повышение рекомендуемого предела рабочих температур с 25 до 27°С (рабочая температура ЦОД может быть повышена). Это было разумным шагом, но многие считали, что увеличение было произведено слишком поздно и являлось слишком незначительным. Ранее ASHRAE объявила, что планируется очередное повышение предельных рабочих температур, но не было объявлено, насколько значимым оно будет (ASHRAE: предельная рабочая температура ЦОД может быть повышена).

Многие дата-центры работают стабильно даже в случае превышения последнего рекомендованного ASHRAE температурного предела в 27,2°С. К примеру, еще в 2009 году компания Microsoft объявила, что по крайней мере один из принадлежащих ей дата-центров не использует выделенную систему охлаждения и работает при температуре воздуха 35°С на входе в сервер.

Для оценки эффективности работы ЦОД часто применяется коэффициент эффективности использования энергии (PUE). Он определяется, как отношение мощности, поступающей на предприятие, к мощности, реально потребляемой ИТ-оборудованием (серверы, системы хранения данных, сети). Строго говоря, PUE ничего не говорит нам об эффективности работы серверов. Однако, изучив общую эффективность работы дата-центра, можно сделать вывод, что механические системы охлаждения крайне негативно влияют на ее величину.

Существует целый ряд инновационных решений, позволяющих бороться с потерями мощности в механических системах. Многие их этих решений уже прекрасно работают, многие имеют большой потенциал, однако, ни одно решение не обеспечивает такой экономии, как простое повышение температуры воздуха на входе сервера. Очевидно, что чем проще система охлаждения, тем меньше затраты, и чем выше входная температура, тем дольше ЦОД может работать за счет естественного кондиционирования (экономия на воздушном охлаждении) без использования систем охлаждения воздуха.

Повышение рабочей температуры имеет свои недостатки: во-первых, высокие потери на полупроводниках; во-вторых, увеличение скорости вращения серверных вентиляторов, что повышает затраты, связанные с перемещением воздуха; в-третьих, рост вероятности выхода серверов из строя. Я измерял потери на полупроводниках, и не смотря на то, что они отрицательно влияют на эффективность работы, оказываемый ими эффект является крайне незначительным даже при высоких входных температурах. Негативный эффект, связанный с повышением скорости вращения вентиляторов, более ощутим, но может быть минимизирован за счет применения различных целевых значений температуры для разных серверов и использования более эффективных схем охлаждения. Если сервер разрабатывается с учетом повышенной входной температуры, то вентиляторы должны быть настроены соответствующим образом и не должны вращаться слишком быстро. Это вопрос проектирования серверов. Хорошее конструкторское решение не увеличивает расход энергии при повышении рабочей температуры. Гораздо страшнее третий фактор: увеличение вероятности выхода серверов из строя.

Страх перед повышением вероятности отказа оборудования является основным фактором, тормозящим рост допустимых рабочих температур в ЦОД. Согласно часто цитируемому отчету, частота выхода электроники из строя удваивается с повышением рабочей температуры на 10°С.  Этот довод очень часто используется военными, представителями NASA и разработчиками коммерческой электроники. Я уверен, что данное исследование было проведено грамотно, но оно проводилось очень давно и не предполагало анализа инфраструктуры крупных ЦОД. На его основе был сделан вывод о линейной зависимости между температурой и вероятностью выхода электроники из строя.

Полученная линейная модель является удобным инструментом, но она явно не отражает реальную ситуацию во всем диапазоне возможных рабочих температур. Известно, что при низкой температуре доминируют модели отказа, не связанные с температурным режимом. Вероятность выхода из строя при 16°С вовсе не в 2 раза ниже, чем при 26°С.  По мере повышения рабочей температуры стоит ожидать нелинейного роста вероятности. Нас интересует излом на графике кривой характеристики, позволяющий определить, в какой точке рост вероятности отказа начинает перекрывать преимущества, связанные с увеличением входной температуры. Знание того, что эмпирическое правило, предсказывающее двойной рост вероятности каждые 10°С, неверно, ничего нам не дает. Как же обстоит ситуация в действительности?

Достоверные данные сложно получить по двум причинам: во-первых, никто не хочет платить за проведение эксперимента – в случае выхода серверов из строя бизнес может потерять до нескольких сотен миллионов долларов; во-вторых, те компании, где используются высокие рабочие температуры, и у которых есть соответствующие данные, не слишком охотно делятся ими, поскольку эти данные имеют серьезную экономическую ценность.

Есть интересный статья от Datacenter Knowledge под названием «Что дальше? Горячие сервера с "педалями газа"» (не обращайте внимания на заголовок – автор статьи Рич Миллер всего лишь хочет привлечь внимание читателя). В статье присутствует ряд интересных мыслей на тему работы при высоких температурах. Наибольшую ценность представляет высказывание Судобха Бапата, бывшего Вице-президента по контролю за энергоэффективностью компании Sun Microsytems:

Возьмем дата-центр, расположенный в пустыне. Судобх Бапат рассказал анекдот о компании-операторе ЦОД, расположенного на Среднем Востоке, которая хотела провести исследование вероятности отказа оборудования в случае, если рабочая температура на объекте будет составлять 45°С.

Исследование дало прогноз годовой вероятности выхода из строя в 2,45% при 20°С с последующим повышением на 0,36% с каждым дополнительным градусом. Таким образом, температуре 45°С будет соответствовать годовая вероятность выхода из строя 11,45%. «Даже в случае замены 11% серверов каждый год, компания сэкономит на кондиционировании столько денег, что решено было продолжать развитие проекта», - заявил Бапат. «Компания повысит рабочую температуру до 45°С за счет экономии на воздушном охлаждении, и сделано это будет на Среднем Востоке».

Данное исследование привлекло мое внимание по ряду причин. Первая и основная причина в том, что была произведена оценка вероятности отказа при 45°С, и было решено, что, не смотря на высокую вероятность, использование повышенной рабочей температуры имеет смысл. Сообщается, что компания согласна платить повышением вероятности выхода из строя за отказ от использования дополнительных систем охлаждения. Вторым интересным моментом является то, что была отмечена более высокая вероятность выхода из строя в случае повышения температуры на 15°С, чем предсказывалось в отчете MIL-HDBK-217F (Американский военный стандарт расчета надежности для электронных компонентов).

Впрочем, был отмечен линейный рост вероятности с повышением температуры, как и предсказывалось в отчете. Я почти уверен, что рост вероятности между 40 и 45°С был гораздо выше, чем между 25 и 30°С. Я не верю в линейную зависимость между вероятностью выхода из строя и температурой по причине доступной информации о вероятности при низких рабочих температурах. Многие ЦОД повысили рабочую температуру с 20 до 25°С и не заметили серьезного роста вероятности отказа оборудования. Некоторые дата-центры произвели повышение с 25 до 30°С и не обнаружили предсказанного роста в 1,8%, но отметили, что информации для того, чтобы делать выводы, пока не достаточно.

Линейная завсимость явно не прослеживается в широком диапазоне температур. Но я все же нахожу полученную информацию крайне интересной в отношении двух аспектов: во-первых, был отмечен рост вероятности выхода из строя около 9% при повышении температуры с 20 до 45°С; во-вторых, не смотря на высокую вероятность, было принято решение работать при данной температуре. В статье не указано, является ли полученная вероятность отказа пожизненной или годовой. Если предположить, что это годовая вероятность, многие клиенты не примут столь высокий показатель. Однако, полученные данные представляют интерес, и приятно видеть первый общедоступный отчет от оператора, осуществившего исследование и пришедшего к результату, отвечающему его требованиям и требованиям клиентов.

В качестве общего вывода можно отметить, что текущая линейная модель роста вероятности выхода из строя ошибочна и не способна дать надежный результат в интересующем нас температурном диапазоне. Существует крайне мало общедоступной информации на эту тему, группы, подобные ASHRAE, не поспевают за изменениями, и вполне возможно, что специалист по охлаждению будет далеко не первым, кто предложит остановить агрессивное охлаждение ЦОД. В целом, не смотря на отсутствие информации, повышение рабочих температур сулит огромные экономические и экологические преимущества, так что прогресс в данной области будет продолжаться. Я жду того момента, когда возможность эффективной и надежной работы при высоких температурах станет критическим фактором, влияющим на решение о приобретении серверов. Будем продолжать работу в данном направлении.

Джеймс Гамильтон, сотрудник Amazon Web Services по направлению энергоэффективности, надежности и расширения ЦОД

Комментарии

Ваше имя:

E-mail:  (на сайте не показывается)

Введите код с картинки: