Мечта любого руководителя - функционирующее вне зависимости от обстоятельств IT-пространство предприятия. Но невозможно заставить системы работать вообще без перерывов. К этому можно лишь постоянно стремиться.

Любой крупный сбой в IT-инфраструктуре компании влечет крупные потери, и не только денежные. Можно распрощаться с информацией, клиентами, деловой репутацией. И поскольку форс-мажор невозможно предотвратить, к нему нужно готовиться. От "враждебных сил" можно защититься с помощью средств информационной безопасности ("Ф." № 21 от 05.06.06). В остальных случаях компания должна думать об обеспечении непрерывности деятельности в условиях уже свершившегося форс-мажора.

Несмотря на техногенные катастрофы, например отключение электричества в Москве в мае 2005 года, российские компании разворачивают специальные IT-проекты только когда индивидуально прочувствуют всю "прелесть" вынужденного безделья. "Пока гром не грянет, мужик не перекрестится", - так в целом характеризует отношение отечественных бизнесменов к вопросам непрерывности Сергей Головин, заместитель генерального директора NVision Group. Иногда "громом" становится не только форс-мажор, но и сертификация IT-инфраструктуры конкурента на соответствие стандартам ISO 17799-2002, NIST, COOP, HIPAA в области информационной безопасности и непрерывности.

Надежность используемых информационных систем можно оценить в зависимости от времени их простоя. Специалисты оценивают его в процентах. Удовлетворительным считается уровень в 99,9%, или "три девятки", что соответствует простою не менее восьми часов в год. "Четыре девятки"- меньше часа, а "пять девяток"- чуть больше полминуты в год. Последнего уровня непрерывности достигают лишь data-центры IBM, HP, а также силовых ведомств, например ФСБ.

Масштабная зависимость. У предприятий различных отраслей и размера подход к обеспечению непрерывности бизнеса различен. Малый бизнес обычно довольствуется источниками бесперебойного питания (ИБП), которые дают несколько минут на корректное завершение работы без потери информации после отключения электроэнергии. Иное видение проблемы у крупных организаций, чья деятельность держится на IT, например финансовых, транспортных или телекоммуникационных компаний. Они обычно достигают уровня "трех девяток". Это достигается за счет ряда мер. Сначала определяются наиболее уязвимые места бизнес-процессов, составляется карта рисков. Сразу становится видна степень их влияния на жизнеспособность предприятия. Затем выясняется вероятность возникновения рисков и принимается решение о методах защиты. Например, финансовым институтам крайне важно сохранить целостность информации - отсюда первостепенное внимание к центрам обработки и системам хранения данных. Для медиков особую роль играет бесперебойное электропитание, поэтому в больницах обычно устанавливаются электрогенераторы. Далее составляется план непрерывности бизнеса - перечень действий сотрудников и программа реакции инфраструктуры в зависимости от вида наступившего форс-мажора. "Хотя в России даже у крупных компаний зачастую нет оформленного плана обеспечения непрерывности бизнеса, - говорит Сергей Головин. - Надежность обеспечивается отдельными техническими решениями и количественно никак не оценивается". Наиболее распространенными критическими точками IT-инфраструктуры являются электропитание, серверная комната и коммуникации.

Основной принцип непрерывности бизнеса - резервирование. Оно начинается с обеспечения гарантированного энергоснабжения. Это не только довольно распространенные системы и источники бесперебойного питания, но и дизельные или газовые электрогенераторы. Существует два стандартных подхода к выбору ИБП. "Концепция централизованной защиты предполагает установку в здании единого мощного источника бесперебойного питания, поддерживающего работу критичных для компании пользователей, - рассказывает Андрей Воробьев, технический директор компании АРС в России и странах СНГ. - Концепция распределенной защиты предполагает обеспечение каждого индивидуальным ИБП небольшой мощности". Какие-то советы здесь давать сложно, но все более оптимальным подходом становится индивидуальный подбор комплексных систем.

При выборе критичных потребителей важно дистанцироваться от стандартного подхода. "Например, не принято обеспечивать бесперебойное электроснабжение принтеров и копировальных машин, - поясняет Андрей Воробьев. - Но порой отключение одного принтера, печатающего накладные на отгрузку готовой продукции, может нанести ущерб не меньший, чем отключение корпоративной ERP-системы". Обычно резервная схема электроснабжения вводится в действие автоматически специальной системой управления на основании показаний датчиков.

Комната-"сердце". Наиболее важный фактор непрерывности - жизнестойкость центра обработки данных (ЦОД). Согласно исследованиям немецкой страховой компании Gerling, после остановки серверных информационных систем компания может просуществовать в зависимости от отрасли от 5,5 дня для страховщиков до 12 часов для производственных предприятий с безостановочным технологическим процессом. По истечении этого срока реанимация бизнеса невозможна. А по данным исследовательской компании Gartner, 43% предприятий не смогли продолжить деятельность после потери данных.

Специализированные организации рекомендуют организовать резервное хранение информации в сочетании с дублированием аппаратных узлов. Для этого используются RAID-технологии (Redundant Array of Inexpensive Disks, или избыточный массив недорогих дисков. - "Ф."). Они бывают нескольких уровней, предлагают несколько последовательностей для записи данных и обладают разными степенями надежности. Для удешевления резервного копирования можно сохранять данные на магнитную ленту. С аппаратной точки зрения желательно использовать кластеры - объединение серверов с помощью программного обеспечения. Это оборудование гарантирует сохранение работоспособности при отказе одного из узлов системы.

Один из критериев - тепловыделение оборудования. За последнее десятилетие оно выросло на порядок из-за увеличения "плотности" размещаемого оборудования. "Раньше в серверный шкаф помещалось не более десятка серверов общим электропотреблением и соответственно тепловыделением до 3 кВт, - говорит генеральный директор DataDome Андрей Павлов. - Теперь никого не удивит серверная стойка, потребляющая 20-30 кВт". Соответственно должны быть решены проблемы непрерывного охлаждения и энергоснабжения.

При строительстве серверных комнат компании руководствуются рекомендациями, изложенными в специализированных документах. "Стандарты TIA/EIA-569 и 942 вполне соответствуют требованиям современной аппаратуры, - рассказывает Андрей Павлов. - К сожалению, мало кто с ними знаком. Также существуют отечественные устаревшие строительные нормы СН 512-78, описывающие строительство машинных залов для мэйнфреймов. Эти документы и порой горький опыт компаний становятся основой корпоративного подхода". При построении системы непрерывности для data-центра требуется учесть более 200 параметров. В идеале ЦОД должен быть защищен от пожара с помощью системы газового пожаротушения на базе датчиков раннего обнаружения огня, оборудован сигнализацией (это относится ко всем помещениям компании), иметь заземление и грозозащиту, систему кондиционирования. Предприятиям, владеющим ценной конфиденциальной информацией, неплохо организовать систему мониторинга и централизованного управления инженерной и телекоммуникационной инфраструктурой ЦОДа, оборудовать серверную комнату системами доступа и видеонаблюдения, защититься от электромагнитных помех, взрыва, взлома, а заодно и затопления. Структурированная кабельная система (СКС) data-центра должна строиться на оборудовании ведущих производителей. Излишне говорить, что все системы полностью резервируются. В результате температура серверного помещения находится в пределах +18-24° по Цельсию, влажность - 30-55% и запыленность - не более 0,0001 г на кубометр. Электромагнитные помехи не превосходят 3 В/м во всех диапазонах рабочих частот. Для некоторых видов оборудования и креплений ограничивается вибрация.

Компании-вендоры разработали унифицированный подход к строительству ЦОДов. Клиентам предлагаются модульные интегрированные системы. Достаточно их немного настроить, и получается готовое решение "под заказчика". В результате в несколько раз увеличивается скорость строительства серверных комнат. А вот индивидуальное строительство крупного data-центра, начиная от проектирования и заканчивая тестовой эксплуатацией, может занять от одного года и больше. ЦОДы, как и прочие элементы обеспечения непрерывности бизнеса, могут резервироваться. "В России пока нет отраслевых требований, обязывающих крупные организации использовать больше одного резервного центра обработки данных, - говорит Борис Гермашев, руководитель департамента по работе с корпоративными заказчиками EMC России и СНГ, - но практически во всех крупных организациях в телекоммуникационной, транспортной и финансовой отраслях разрабатываются решения, подразумевающие консолидацию всех данных, информации и бизнес-приложений в трех взаимно резервных ЦОДах". Кстати, на этом можно немного сэкономить: страховые компании снижают ставки страхования бизнеса, если на предприятии действуют меры по поддержанию непрерывности.

Реабилитация. Но даже если приняты все перечисленные меры, данные все равно могут быть повреждены. Информация, сосредоточенная в data-центрах, накапливается годами. В случае ее потери приходится обращаться к компаниям, специализирующимся на восстановлении данных. "От корпоративных пользователей в основном поступают жесткие диски и системы хранения данных на основе лент и RAID-массивов, - рассказывает глава российского филиала Ontrack Data Recovery Анатолий Рассоленко. - Такие системы предназначены для обеспечения целостности и безопасности информации. Но нередко происходит утеря данных на них вследствие ошибок администраторов, программного обеспечения, а также стихийных бедствий и хакерских атак. В результате, полагаясь исключительно на резервную копию, клиенты сталкиваются с полной потерей данных". Несмотря на то что существуют специальные программы для восстановления данных, компании предпочитают пользоваться услугами лабораторий. Одна из причин - при физических повреждениях ПО бессильно.

После восстановления данных нужно уничтожить содержимое поврежденных носителей. Можно воспользоваться программными решениями, которые ликвидируют информацию со скоростью 5-10 ГБ в час. Или аппаратурой быстрого стирания данных с магнитных носителей. Правда, в этом случае их дальнейшее использование исключается.

Есть контакт. Важное направление обеспечения непрерывности бизнеса - сети передачи голоса, видео и данных. Их значение трудно переоценить, особенно для территориально распределенных структур, ориентированных на оказание услуг. Например, банк при нарушении связи с банкоматами из-за бездействия начинает терять прибыль от операций. Мало того, кто-то из клиентов может попросту отказаться от его услуг. В первую очередь предприятие должно учитывать надежность телекоммуникационной инфраструктуры своего оператора связи. По словам Сергея Мишенкова, технического директора компании АСВТ, важнейшим элементом является топология сетей, позволяющая повысить устойчивость к разрушению составляющих элементов и возможность "обойти" вышедшие объекты телекоммуникационной инфраструктуры.

Не существует типового подхода к построению "внутренних" систем связи. "Современные IP-решения позволяют учитывать уникальные требования заказчика, в том числе и по резервированию, - поясняет руководитель департамента Siemens Communications в России Ян Свобода. - Какое-то подобие унификации могут накладывать требования местных регулирующих органов, однако стандартизацией в полном смысле слова это назвать сложно". Но в любом случае существуют общеизвестные риски, которые необходимо учесть. Например, вторжения, взломы или попросту отказы. К проблемам непрерывности также относятся низкая работоспособность сети и ее неквалифицированное обслуживание. Соответственно в идеальной телекоммуникационной структуре должны быть созданы защищенные каналы связи (VPN или Virtual Private Networking), установлены межсетевые экраны, антивирусы и антиспамовые решения, система управления доступом. Должны быть предусмотрены альтернативные маршруты доступа, продублирована архитектура сети. Опять же создаются сценарии на случай аварии, иногда с использованием средств удаленной диагностики. Обязательно ведется мониторинг состояния телекоммуникаций. Венчает этот набор продублированная система управления сетью.

Производители телекоммуникационного оборудования также стремятся упростить обеспечение работоспособности сети. Как и при строительстве серверных комнат, заказчикам предлагается дискретный подход к проектированию. Сочетание компонентов с различной функциональностью позволяет создавать индивидуальные гибкие решения. Такой подход также повышает эффективность, управляемость и интеграционные возможности структуры.

Интересный вариант обеспечения непрерывности - создание "резервного" офиса, который с очень небольшой задержкой может принять на себя функции управления предприятием. Идеальной структурой, способной осуществлять моментальную преемственность, можно считать сеть центров управления полетами Роскосмоса. В любой момент управление спутником может быть передано в "соседний" ЦУП. Конечно, для коммерческих предприятий такая "маневренность" нехарактерна, однако некоторые организации держат на всякий случай запасной офис и способны возобновить работу на новом месте спустя день после остановки бизнеса.

Анатолий Рассоленко, глава российского филиала Ontrack Data Recovery:

- Обычно для сохранности данных предлагается использовать методы резервного копирования. Но не предусматривается случай, когда из строя выходит и запасная система. На самом деле не существует ни одного способа, который обеспечил бы 100-процентную уверенность в сохранности информации. Для таких ситуаций нужно предусмотреть дополнительную возможность восстановления данных.

Андрей Воробьев, технический директор компании АРС в России и странах СНГ :

- Невысокая эксплуатационная готовность системы обеспечения непрерывности бизнеса часто объясняется разделением бюджетов и ответственности. Например, в компании идеально спроектирована система кондиционирования, используется самая современная схема резервирования ИБП, внедрены новейшие серверные технологии. Но на практике из-за несогласованности проектов и различия приоритетов у людей, ответственных за разные части системы, показатели готовности законченного комплекса намного ниже ожидавшихся. Избежать несогласованности позволяет применение комплексных решений.

Борис Гермашев, руководитель департамента по работе с корпоративными заказчиками EMC России и СНГ:

- Топ- и IT-менеджмент по-разному оценивают защищенность бизнеса. По нашим данным, в США более 52% CIO считает, что их организации потеряют данные в случае масштабной катастрофы. С ними согласны лишь 14% руководителей. В России сложилась аналогичная ситуация. Поэтому при проектировании системы для обеспечения непрерывности сперва определяется текущий уровень IT-защиты и его соответствие бизнес-требованиям. Это позволяет привести руководство к единому мнению. Все бизнес-процессы ранжируются по двум параметрам - время восстановления приложения после аварии и допустимый объем потери данных.

Юрий Грозин, вице-президент по IT-сервисам интегратора "Сибинтек":

- Для обеспечения надежности и непрерывности на уровне не менее "трех девяток" необходимо разместить критичные для бизнеса IT-системы на площадке аутсорсингового data-центра, построенного с использованием кластерных технологий. Затем организовать мониторинг работоспособности оборудования в режиме 24x7x365 и его восстановление в течение заданного промежутка времени. Более дорогой вариант - создание собственных серверных помещений и резервных вычислительных центров.

Сергей Хюннинен, руководитель серверного направления и систем хранения данных Desten Computers:

- В структурированную серверную систему наряду с мощными центральными серверами должны входить машины рабочих групп и различные специализированные серверы, например почтовый или контроллер домена. Необходимо построить data-центр в виде территориально распределенного кластера, устойчивого к сбоям. При общении удаленных филиалов через общедоступные средства связи особенно актуально применять шифрование данных. Кроме того, в структурированную серверную систему легко интегрируются средства обеспечения безопасности, например видеонаблюдение.

Алиса Мельникова, директор по работе с финансовыми организациями ISG:

- Топ-менеджмент интересует достижение определенных показателей эффективности. Поэтому подход к обеспечению непрерывности не должен сводиться к решению отдельных задач, например реформированию бизнес- или IT-стратегии, управлению рисками, интеграции. Достичь цели поможет привлечение управляющей компании. Поначалу она проведет необходимые изменения. А в дальнейшем обеспечит эксплуатацию, в том числе с использованием аутсорсинга.

Сергей Грищенко, руководитель группы технических экспертов Symantec в России и СНГ:

- Любая система, обеспечивающая непрерывность, должна строиться на основе требований бизнеса. Одна грань - это система, у которой нет возможности простаивать ни секунды. Например, система платного телевидения по заказам с формируемыми пользователями наборами программ, или биржи. Для функционирования в таком режиме необходимо использовать самые мощные решения, существующие в индустрии. Другая грань - системы не столь требовательные ко времени восстановления после сбоя. Здесь можно остановить свой выбор на локальной кластеризации или ограничиться системой архивирования/восстановления с поддержкой промежуточных дисковых копий.

Сергей Головин, заместитель генерального директора NVision Group:

- Обеспечение непрерывности бизнеса представляет собой сочетание организационных мер и техники. В такой системе должно быть обеспечено резервирование всех составляющих инфраструктуры, оценена надежность установленного оборудования. Необходимо также определить устойчивость IT-среды в случае уничтожения оборудования из-за "человеческого" фактора, природных катаклизмов (пожара или затопления), поломок технического характера, внешних криминальных факторов. Обязательно должен проводиться мониторинг состояния инфраструктуры.

Андрей Павлов, генеральный директор DataDome:

- Для подсчета инвестиций в непрерывность необходимо ранжировать вероятность возникновения аварий и убытки от их последствий. Составить разумный перечень рисков и систем, которые способны их нивелировать. В частности, грамотно обустроенная серверная комната может спасти компанию от потери информации, простоя или порчи оборудования. Необходимо определить приемлемую степень надежности систем, то есть допустимое время их ежегодного простоя. На основе этих данных рассчитывается стоимость мероприятий по поддержанию непрерывности бизнеса.

Ян Свобода, руководитель департамента Siemens Communications в России:

- Для непрерывного функционирования коммуникационной сети советую уделять особенное внимание качественному проектированию и механизмам QoS (Quality of Service - набор механизмов, исключающих узкие места в инфраструктуре. - "Ф."). Такой подход позволяет быстро "шунтировать" любые отказы с помощью автоматического ввода в действие аварийных сценариев работы, управления сетью, удаленной диагностики и восстановления после отказов.

Источник: Финансовая Россия

Дизайн и поддержка: Silicon Taiga

Обратиться по техническим вопросам