Повышение отказоустойчивости инфраструктуры

Чтобы IT-инфраструктура не преподносила неприятных сюрпризов, нужно не только правильно спроектировать и настроить её. Также важно предусмотреть и заранее нивелировать возможность рисков. Добиться повышенной отказоустойчивости систем. О некоторых способах добиться этого мы сегодня и расскажем.

Кто занимается вопросом отказоустойчивости

Заботы по обеспечению отказоустойчивости инфраструктуры обычно возлагаются на ИТ-отдел компании. Но если часть или даже вся инфраструктура находится в облаке, то многие вопросы решает провайдер.

Например, он отвечает за резервирование каналов, работу устройств бесперебойного электропитания, обслуживание стоек в серверной и т. д. Отказоустойчивость может закладываться и в готовые сервисы, когда пользователь работает с приложением, а подкапотными делами рулит технический отдел облачного провайдера.

Конечно, на стороне клиента тоже может проводиться работа по обеспечению отказоустойчивости компьютерных систем. Причём важно, чтобы это выполнялось со знанием дела, а не для галочки. Например, был кейс, когда компания разместила все критические сервисы на одном сервере в хорошем дата-центре, а сбой произошёл в одном из дисков. От таких рисков, в которых нет вины провайдера и дата-центра, никто не застрахован.

Но предупредить или хотя бы минимизировать последствия можно. Например, если компания запросит у провайдера распределение сервисов на несколько локаций. Это повысит отказоустойчивость, ведь даже если упадёт один сервер, заработает резервный.

Такие возможности предоставляют только крупные провайдеры, у которых есть возможность размещать данные клиентов в разных ЦОД. Например, Cloud4Y недавно открыл доступ в турецкий дата-центр, да и на территории России есть несколько ЦОД. Это позволяет повысить уровень отказоустойчивости инфраструктуры за счёт провайдера.

Получить консультацию об облачных сервисахЗаказать звонок

Отказоустойчивость на разных уровнях инфраструктуры

Повышать отказоустойчивость можно на трёх базовых уровнях.

Уровень региона. Упрощённо — это локация дата-центра. Регион подбирается так, чтобы на него не влияли возможные неурядицы другого региона. Например, если в нашем московском дата-центре случится ЧП, ЦОД из Санкт-Петербурга это никак не затронет. Но географическая удалённость не означает наличие задержкек. Высокопроизводительные каналы связи помогают распределённой инфраструктуре работать с допустимым уровнем задержек. Региональное деление обеспечивает высокую отказоустойчивость систем, а также делает возможной услугу Disaster Recovery.

Уровень зоны доступности. В одном регионе может работать несколько ЦОД. Например, в Москве на Коровинском шоссе и на улице 8 марта. Между собой эти зоны доступности связаны при помощи оптоволокна, — линии, зарезервированной на физическом уровне. Про оптическое кольцо высокой доступности Cloud4Y и другие методы обеспечения надёжной связи между дата-центрами рассказали в этой статье. Вкратце — дата-центры отлично взаимодействуют между собой, и при этом не имеют единой точки отказа.

Как повысить отказоустойчивость инфраструктуры

Уровень пула. Под этим уровнем понимается наполнение отдельного ЦОД, то есть набора серверов, которые обладают технической или логической связью между собой. Например, это могут быть серверы одной серии одного вендора, расположенные на разных этажах дата-центра. Получается, что каждая серверная — независимый мини-ЦОД с отдельными коммуникациями. Размещение критических сервисов в разных пулах повышает их отказоустойчивость. Например, защищает от сбоя сетевого оборудования или локальных сбоев электропитания.

Физический уровень обеспечения отказоустойчивости инфраструктуры

Если говорить о более конкретных решениях для построения отказоустойчивых систем, можно перечислить следующие.

Отказоустойчивость энергоснабжения. Каждый элемент облака запитывается от двух независимых линий. Система АВР исключает резкие скачки питания, переключая нагрузку между основным и резервным каналом.
Резервирование ресурсов. Ресурсы резервируются на другом хосте, который может располагаться где угодно. И если мастер-сервер сбоит, то ВМ запускаются с резервного сервера, а облако продолжает работать без простоя.
Миграция в момент техобслуживания. Если возникает потребность в техническом обслуживании оборудования, производится бесшовная автоматическая миграция на другой хостинг. Это никак не затрагивает инфраструктуру компании и не влияет на работу облачных серверов.

Можно вспомнить ещё два интересных метода реализации отказоустойчивости. Первый предполагает нормальное функционирование систем в случае любой неисправности. Сбой не влияет на время отклика или пропускную способность — производительность не нарушается. Второй предполагает плавный спад производительности. Принцип простой — влияние сбоя на инфраструктуру пропорционально его значимости. Лёгкие проблемы почти никак не скажутся на производительности, и уж тем более не приведут к отказу системы.

Повышение отказоустойчивости с помощью WAF

Существует стереотип, что межсетевые экраны грубовато работают, блокируя под корень порты, адреса и протоколы в попытке остановить вредоносный трафик. Из-за этого уязвимыми становятся важные «нормальные» сервисы.

WAF (Web Application Firewall) — это более продвинутое решение, которое не позволяет злоумышленникам находить уязвимости в сервисах и использовать их. Коэффициент ложных срабатываний WAF не превышает 0,01%, да ещё он умеет находить уязвимости в коде и предлагать способы их ликвидации.

Такой файрволл обеспечивает более надёжную защиту веб-приложений. А значит, уровень отказоустойчивости инфраструктуры тоже становится выше.

Если вы хотите знать больше о том, как провайдер обеспечивает высокий уровень отказоустойчивости инфраструктуры, напишите нам в чат или позвоните менеджерам Cloud4Y. Мы готовы ответить на возникшие вопросы.