Disaster Recovery (аварийное восстановление) — это сервис восстановления ИТ-систем и данных после сбоя любого уровня. Как правило, предлагается облачными провайдерами как отдельная услуга или включается в состав крупного решения. Условно можно разбить на три составляющие: резервная площадка, программные решения и план восстановления.
Причины востребованности Disaster Recovery
Чем активнее компания использует ИТ-инфраструктуру, тем выше становится зависимость от её работоспособности. Сбои напрямую влияют на доходы организации, её репутацию. Они также негативно сказываются на эффективности сотрудников и комфорте клиентов. Поэтому компании тратят много ресурсов, чтобы снизить риск неполадок в работе инфраструктуры.
Помимо стабильности также необходимо обеспечить быстрое восстановление систем после сбоя. Чем скорее всё заработает, тем меньше негативных последствий для компании. Для этого существуют решения Disaster Recovery — системы аварийного восстановления ИТ-инфраструктуры после сбоя.
Disaster Recovery является частью плана обеспечения непрерывности бизнеса. Его идея в том, что компания должна работать, несмотря на внутренние сбои, кибератаки, другие инциденты. А в случае аварии — не потерять ценные данные и быстро восстановить работоспособность.
Для аварийного восстановления необходима параллельная IT-инфраструктура, которая будет использоваться для хранения данных и шаблонов виртуальных машин либо выступит в роли вспомогательной системы, которая возьмёт на себя рабочие задачи на время инцидента.
Чаще всего Disaster Recovery предлагают облачные провайдеры. Компании-клиенту предоставляются облачные мощности, на которых можно расположить резервную информационную систему (ИС). Основная же располагается в другом ЦОД. Между системами настраиваются каналы связи, чтобы данные одновременно поступали в основную и резервную ИС.
Важно понимать, что аварийное восстановление как сервис (DRaaS) отличается от бэкап-решений. Основная задача системы резервного копирования — сохранность данных в случае аварии. Disaster Recovery же отвечает за сокращение времени простоя ИТ-систем. Бэкап не даёт компании возможность продолжить работу на резервной платформе, пока будет восстанавливаться работоспособность основной. Услуга DRaaS гарантирует, что у компании будет площадка, идентичная основной, которая сможет сохранить непрерывность бизнес-процессов.
Ключевые параметры аварийного восстановления
У решений Disaster Recovery есть два основных параметра, которые влияют на стоимость катастрофоустойчивой системы и размер ущерба в случае инцидента: RTO и RPO.
RTO (recovery time objective) — период времени, за который ИТ-система должна восстановиться. Если RTO составляет четыре часа, то инфраструктура заработает не позже, чем за этот срок. Если RTO несколько секунд, то пользователи могут даже не заметить, что система «падала». Часть решений аварийного восстановления поддерживают автоматическое переключение трафика на резервную инфраструктуру. Это позволяет нивелировать последствия аварии, сделав их незаметными для пользователей. Длительность RTO определяется потребностями бизнеса. Например, сайту с маленьким трафиком большой RTO не повредит, а для крупного онлайн-магазина 2-3 часа RTO — это серьёзные убытки.
RPO (recovery point objective) — период времени, за который могут быть утеряны данные в результате аварии. Заявленные три часа RPO означают, что после восстановления системы могут быть утеряны данные не более чем за три часа до инцидента. А при RPO в несколько секунд сохранятся почти все данные, что особенно критично для банков, крупных девелоперов и других организаций, которым нельзя терять данные даже за минуту. Величина RPO влияет на частоту создания копий IT-инфраструктуры.
Очевидно, что стоимость решения Disaster Recovery будет тем дороже, чем меньше RTO/RPO. Подбирайте модель аварийного восстановления, стоимость которой не превышает размер убытков в случае простоя. Необходим баланс между затратами на катастрофоустойчивость и убытками из-за инцидента с учётом времени восстановления бизнес-процессов и объёма утерянных данных.
Что такое Disaster Recovery Plan
Disaster Recovery Plan (DRP) — это план аварийного восстановления всех ИТ-систем после катастрофы (который в идеале никогда не должен понадобиться). Представляет собой документ с детальным описанием всех действий по устранению последствий аварии и восстановлению данных. В плане указаны роли и обязанности ответственных сотрудников, последовательность предпринимаемых ими действий.
На каком этапе развития компании требуется DRP, сказать непросто. Можно сформулировать этот критерий следующим образом. Disaster Recovery Plan требуется компании, когда:
- Остановка сервера/приложения или потеря базы данных влечёт за собой значительные финансовые, репутационные или иные потери;
- В штате имеется полноценный IT-отдел со своим бюджетом;
- Есть реальная возможность выделить средства на полноценное или хотя бы частичное резервирование на случай возникновения аварии.
Если потеря БД за день ничего не меняет, а ИТ-отдел месяцами может ждать комплектующих к старому серверу, DRP вряд ли потребуется. Хотя этот документ способен выручить в трудной ситуации.
Основная цель Disaster Recovery Plan: создание пошаговой инструкции с указанием времени на выполнение отдельных процедур. С помощью плана компания:
- Сможет быстрее восстановить ИТ-инфраструктуру после сбоя;
- Сможет обеспечить работу критически важных процессов во время простоя основной площадки;
- Сможет сохранить важные данные компании.
План аварийного восстановления состоит из нескольких разделов. В первую очередь это цели разработки плана, факторы риска, список критически важных сервисов.
Целью DRP может являться:
- Подготовка сотрудников. Важно, чтобы в критической ситуации они не растерялись, а действовали чётко по инструкции.
- Сохранение работоспособности. Восстановление работы сервисов в короткий срок и сохранение данных.
- PR-контакты. Правильное взаимодействие со СМИ, клиентами партнёрами в момент аварии играет важную роль.
- Соблюдение стандартов. В ходе аварийного восстановления важно соблюдать корпоративные стандарты, чтобы избежать хаоса.
Факторы риска показывают, какие процессы требуют особого внимания в процессе аварийного восстановления. В документе прописываются действия по устранению этих рисков. Например, проверка корректности создания бэкапов, работы каналов резервной связи, тестирование резервной инфраструктуры, проверка наличия нужного оборудования.
Список критически важных сервисов определяет очерёдность процессов восстановления. Чем критичнее процесс, тем быстрее нужно восстановить его работоспособность. Режим аварийного восстановления предполагает, что критические сервисы переносятся на резервную платформу. Поэтому даже при серьёзном инциденте их работоспособность должна сохраняться. Но если и с резервной площадкой что-то не так, работы по восстановлению начинаются с наиболее критичных систем.
DRaaS от Cloud4Y
Корпоративный облачный провайдер Cloud4Y предлагает три модели аварийного восстановления:
- Backup. Резервное копирование данных осуществляется по схеме Active – Passive. RTO/RPO зависят от объёма данных, по срокам — от 1 часа. Модель подходит всем типам бизнеса, для которых срок восстановления некритичен, а также допускаются небольшие потери данных.
- VM Replication. Осуществляется репликация данных на удалённую площадку (Active – Standby). RTO/RPO составляют от 30 /15 минут соответственно. Вариант подходит для веб-платформ, e-commerce, BigData. Базовая отказоустойчивость SLA составляет 99.982%, обеспечивается непрерывность бизнес-процессов, упрощённый failover и failback, Near-CDP для любого виртуализованного приложения.
- SyncCluster. Синхронное зеркаливание данных по схеме Active – Active. RTO/RPO составляют от 30 секунд/от 0 секунд соответственно. Вариант подходит для банков, крупных ИТ-компаний, госучреждений, BigData. Репликация обеспечивается на уровне СХД. Отказоустойчивость SLA составляет 99.99%, гарантируется защита даже от природных катаклизмов. Расстояние между дублирующими ЦОД составляет 10 км.
Использование облачных решений Disaster Recovery проще с точки зрения организации и управления, а также дешевле, чем построение собственной инфраструктуры. Используя услугу DRaaS от Cloud4Y, вы гарантируете себе возможность вернуться к привычному функционированию в срок, установленный договором. Проработка схем взаимодействия, подключения и маршрутизации занимает немного времени, поэтому интегрировать решения аварийного восстановления может компания любого уровня.