При проектировании центров обработки данных (ЦОД) необходима глубокая проработка вопросов интеграции элементов, энергопотребления, охлаждения для обеспечения эффективного функционирования. Процессы построения и эксплуатации регулируются строгими нормативами по безопасности и управлению рисками, предполагающими высокие стандарты для предотвращения инцидентов.
Обязательными элементами для эффективного функционирования в случае инцидентов на ЦОД является минимизация времени простоя, внедрение резервирования, разработка планов восстановления для непрерывной работы. Системы подлежат обязательной сертификации и аудиту для подтверждения соответствия.
Аналоги или импортозамещение?
Последние два года рынок инженерных систем ЦОД подвергся сильному стрессу. Произошел массовый уход западных вендоров, чье оборудование составляло основу действующих и строящихся ЦОД. аренда ЦОД в России подорожала на 20–25%. Возникла задача перехода на новые решения в кардинально изменившихся условиях.
Рынок столкнулся со сверхзадачей, которую снова можно сравнить с вызовами авиастроения – перейти на новые компоненты, найти других поставщиков, что приводит к изменению финансовых и логистических условий, требует большого количества дополнительного документооборота.
Несомненно, уход западных компаний создал почву для выхода на российский рынок производителей из стран Азиатско-Тихоокеанского региона, Турции и Израиля. Качество их оборудования не уступает европейским и американским конкурентам. Однако необходимо учитывать, что оборудование для инженерной инфраструктуры ЦОД – это, как правило, не устройства plug and play. Надежность такой системы будет в первую очередь определяться правильным монтажом и профессиональным запуском оборудования. Для примера приведу статистику выхода из строя климатических систем (рис. 1).
Анализ статистических данных показывает, что доля отказов оборудования, вызванных непрофессиональным монтажом и нарушением требований производителя при установке, составляет 57% – это весьма значительная величина.
Таким образом, представляется целесообразным в первую очередь ориентироваться на компании, уже вставшие на путь импортозамещения и обладающие собственным инженерным потенциалом и налаженным сервисом.
В настоящее время в России таких компаний пока немного, однако они существуют и продолжают развиваться. Я бы отметил такие компании, как NoTherm, C3 Solutions, "ВАЙБОС", "Рефкул", "Парус Электро", "Связь инжиниринг", "Сайбер Электро" и др.
Причины инцидентов в ЦОД и как их избежать
Тут кстати вспомнить афоризм Эдуарда Севруса: "Всякое неприятное событие неожиданно, даже если к нему готовились".
Человеческий фактор играет существенную роль в возникновении инцидентов и проблем с надежностью в центрах обработки данных, являясь одной из основных причин сбоев в их работе. Этот фактор становится особенно критичным в период перемен, поскольку любые изменения требуют от персонала выхода из зоны привычного функционирования и освоения нового оборудования и процедур. Это затрагивает все этапы жизненного цикла ЦОД, от проектирования до эксплуатации. но есть и другие факторы. Среди частых причин простоя ЦОД:
- отказ системы ИБ (25%);
- киберпреступность (22%);
- случайная человеческая ошибка (22%);
- отказ системы кондиционирования (11%);
- погодные условия (10%);
- отказ генератора (6%).
По данным Uptime Institute, 70% сбоев в работе центров обработки данных может быть прямо или косвенно связано с человеческим фактором.
Для сохранения преемственности и надежности ЦОД необходим тщательный подход к выбору нового оборудования и поставщиков, с опорой на российские компании, обладающие инженерным потенциалом и сервисной инфраструктурой.
Понимая факторы, приводящие чаще всего к простоям ЦОД, можно сформулировать несколько моментов, на которые важно обратить внимание на всех этапах построения и эксплуатации систем.
- На этапе проектирования важно вносить изменения, тщательно проверив ТТХ и документацию нового оборудования. Нередки случаи проектирования инфраструктуры по строительной документации без посещения объекта. Даже небольшие изменения на этапе строительства могут повлиять на проекты.
- На этапах реализации и эксплуатации критически важна документация и профессиональная локализация интерфейсов во избежание ошибок персонала.
- Для минимизации влияния человеческого фактора нужно уделить внимание обучению, разработке процедур и ролей, проверкам, аудиту и мониторингу. Отдельно стоит рассмотреть создание цифровых двойников ЦОД.
- Важно обеспечить надежность систем охлаждения. Это включает такие шаги, как формулирование грамотного ТЗ, проектирование систем с учетом всех факторов, профессиональный монтаж и настройку, регулярное обслуживание.
Управление управлением. "Ключ к преобразованию лежит в понимании"
В настоящее время решения по управлению инфраструктурой центров обработки данных (DCIM) внедряются во все большем количестве ЦОД. ЦОД превращается в крайне динамичную среду, эффективное управление которой требует комплексных систем, охватывающих как ИТ-инфраструктуру, так и инженерные системы.
В ряде крупных ЦОД создаются цифровые двойники, содержащие информацию о физической инфраструктуре, конфигурации, ресурсах и операционной деятельности конкретного ЦОД. Применение цифровых двойников в современных условиях крайне актуально и значительно упрощает переходные процессы. уход ведущих западных вендоров решений DCIM поставил перед службами эксплуатации задачу выбора новых платформ. С учетом требований по импортозамещению ПО новые системы управления должны быть внесены в единый реестр российских программ.
На данный момент на рынке присутствуют отечественные разработчики, такие как Инфосистемы Джет, NetPing, СДИ Софт, Энвижн Груп и др. Среди них я бы выделил компанию "СДИ Софт", так как, помимо DCIM-модуля, она предлагает высокотехнологическое решение для документирования инженерной, ИТ- и телеком-инфраструктуры.
Заключение
Для сохранения преемственности и надежности ЦОД необходим тщательный подход к выбору нового оборудования и поставщиков, с опорой на российские компании, обладающие инженерным потенциалом и сервисной инфраструктурой.
Особое внимание следует уделить минимизации влияния человеческого фактора за счет повышения квалификации персонала, внедрения процедур и систем контроля. Перспективным направлением является создание цифровых двойников ЦОД на базе отечественных решений для управления инфраструктурой. Это позволит оптимизировать процесс адаптации к новым условиям функционирования инженерных систем ЦОД.