Ошибки при обновлении и тестировании приложений, кибератаки, сбои в работе ПО или «железа» — ни одна система не застрахована от нарушения работоспособности. Быстрое восстановление возможно только при условии подготовки задолго до инцидента. Но, даже если этого не было сделано, всё равно есть шанс вернуть данные.
Существуют проверенные методы восстановления, которые помогут минимизировать потери и быстро вернуть всё в рабочее состояние. Обеспечить безопасность данных и систем на виртуальной машине (ВМ) можно с помощью различных способов, включая как резервное копирование, так и решения другого уровня. Рассказываем о пяти из них и о том, в каких ситуациях они могут наиболее эффективно помочь.
Способ 1. Восстановление ВМ целиком из резервной копии
Резервная копия ВМ — это копия содержимого виртуальной машины, которая изолирована от основной ВМ. Согласно правилу «3-2-1», для надежного хранения и защиты данных следует иметь три резервные копии, которые нужно хранить на двух различных устройствах, причем одна из копий должна находиться вне офиса или дома, например,
в облаке.
В случае сбоя виртуальной машины, хранилища или потери данных
восстановить ВМ можно как из полной (Full), так и из инкрементальной (Increment) резервной копии. В обоих случаях восстановить ВМ можно либо в исходную виртуальную машину с прежним именем и настройками, либо в новую, а также на последнее состояние или на любую точку восстановления.
Мы в Т1 Облако рекомендуем регулярно тестировать возможность восстановления данных и ВМ из бэкапов. Это можно делать раз в месяц или квартал — в зависимости от требований бизнеса. Важно помнить, что проверка (валидация) резервной копии и проверка возможности восстановления данных из бэкапа — две разные вещи. Кстати, проверка возможности восстановления данных позволит узнать, сколько времени займет восстановление, чтобы рассчитать время и стоимость простоя ИТ-системы. Полезно: Резервные копии подходят для долгосрочного хранения, не зависят от исходной ВМ, а файлы в резервной копии доступны не только для чтения, но и для изменения. Чем больше резервная копия, тем дольше по времени будет длиться процесс восстановления ВМ.
Когда эффективно: вирус, кибератака, катастрофа, уничтожение или повреждение данных.
Способ 2. Восстановление из снапшотов (снимков) виртуальных машин
Для защиты данных виртуальных машин можно использовать и снапшоты (snapshot). Это точная копия состояния виртуальной машины на определённый момент времени, включая данные, настройки, память и состояние дисков. Она позволяет в любой момент вернуть систему к сохраненной конфигурации. Важно понимать, что снапшот — это не резервная копия, а средство быстро и удобно вернуть ВМ в то состояние, в котором машина находилась до обновления ОС или установки нового ПО.
Восстановление из снапшотов виртуальных машин — один из самых быстрых способов оперативно вернуть работоспособность системы после сбоя. У такого способа есть три важных преимущества:
Быстрое восстановление: Файлы снапшотов обычно хранятся на той же дисковой подсистеме, что и диск, для которого был создан снимок. Это гарантирует практически мгновенное
восстановление состояния ВМ из снапшота.
Минимальное время простоя: особенно важно для критически важных бизнес-приложений.
Автоматизация и оркестрация: снапшоты часто
интегрируются в системы резервного копирования и управления катастрофоустойчивостью. Такие «слепки» снимаются автоматически через определенные промежутки времени и объединяются в единую систему управления.
Полезно: В процессе работы можно создавать множество снимков. Однако если таких файлов становится много, то они могут занимать много места и влиять на производительность ВМ. Рекомендуется удалять ненужные снапшоты.
В Т1 Облако также реализована возможность снапшотов: они размещаются на специально предназначенных для этого местах хранения данных провайдера, что повышает надежность и гибкость всей системы. Это позволяет запускать виртуальные машины прямо из снимка, так что можно быстро восстановить работу. Подобный подход может быть критически важен онлайн- и офлайн-ретейлерам, телеком-операторам, банкам и страховым компаниям, у которых SLA на восстановление обычно не дольше 5–10 минут. Когда эффективно: для восстановления после сбоев по причине обновления ОС, установки патчей, тестирования приложений; для выполнения потенциально небезопасных операций с возможностью быстрого отката
Способ 3. Репликация данных на резервный сайт (Active-Active DR)
Active-Active Disaster Recovery — это архитектура, при которой две (или более) площадки работают одновременно, обслуживая пользователей и синхронно реплицируя данные друг друга. Если случается сбой на одной площадке, то вторая полностью берёт на себя обработку трафика и выполнение бизнес-логики, продолжая работу без прерывания сервисов для пользователей. Такой подход хорош с точки зрения не только обеспечения отказоустойчивости и почти нулевого простоя, но и распределения нагрузки, например, по глобальным регионам.
Для реализации Active-Active DR используются различные технологии, включая репликацию виртуальных машин. Это позволяет создать точные копии в облачном сервисе, синхронизировать их и быстро восстановить работу на резервной площадке. Копии также можно хранить в независимых друг от друга ЦОДах в разных локациях.
Этот подход требует дополнительных ресурсов и архитектурной проработки: нужны тщательное планирование и настройка, механизмы разрешения конфликтов при одновременных изменениях данных на разных площадках.
Кроме того, поддерживать две или более активных площадки дороже, чем одну, но экономически это всё равно оправдано, если минуты простоя грозят бизнесу многомиллионными убытками. Подробнее об этом подходе можно почитать в другой нашей
статье.
Если вам требуется реализовать Active-Active Disaster Recovery, то обращайтесь в Т1 Облако за консультацией: опытные специалисты ответят на все интересующие вас вопросы и помогут реализовать оптимальное решение для вашего проекта. Когда эффективно: при продолжительном отключении электроснабжения в дата-центре, повреждении канала магистральных интернет-провайдеров, землетрясении, пожаре, наводнении или падении метеорита.
Способ 4. Восстановление данных в режиме Just-in-Time (JIT)
Just-in-Time Recovery — способ восстановления, при котором доступ к данным или сервисам из резервной копии предоставляется по мере запроса, а не после полного завершения. Идея аналогична концепции JIT в производстве: не всё сразу, а ровно столько, сколько нужно — и когда необходимо. Пользователь получает доступ к востребованным данным сразу, пока все остальные файлы бэкапа восстанавливаются в фоновом режиме.
Чтобы реализовать этот сценарий, компании нужно подготовить инфраструктуру, выбрать подходящее ПО и внедрить регламент работы. В первую очередь, нужно использовать системы резервного копирования с функцией монтирования резервных копий, поддерживающие подключение образов как виртуальных дисков, например
«Кибер Бэкап Облачный» (intent-based networking). Это позволит «поднять» необходимые файлы или данные прямо из бэкапа и дать пользователям к ним доступ.
В сервисе резервного копирования Т1 Облако есть функционал для восстановления данных (Instant Recovery), когда нужно быстро возобновить работу пользователей с файлами, пока идет процесс восстановления резервной копии. При необходимости можно искать файлы в резервных копиях с помощью функции поиска.
Некоторые СРК поддерживают гранулярное восстановление (Granular Recovery) отдельных файлов/папок без необходимости развёртывать целиком ВМ или ее виртуальный диск. В Т1 Облако можно через единый веб-интерфейс управления быстро вытащить несколько файлов и скачать их или положить в исходную виртуальную машину в оригинальное месторасположение. Это позволяет, например, восстановить отдельные хранилища, базу данных, почтовые ящики и даже отдельные письма из резервной копии ВМ с почтовым сервером. Когда эффективно: когда нужно срочно получить отчеты для бухгалтерии, записи в базе данных или электронные письма, а времени ждать, пока восстановится вся система, нет.
Способ 5. Восстановление из изолированных облачных архивов
Когда происходит не просто сбой, а серьёзный инцидент — например, кибератака, массовое заражение вирусом-шифровальщиком или физическое уничтожение инфраструктуры — организация нуждается в надёжной точке возврата, полностью изолированной от продуктивной среды. Для такой ситуации подойдет архивный пул хранения, который не участвует в повседневной работе, хранится независимо в зашифрованном виде и регулярно проверяется на доступность.
В Т1 Облако реализована возможность использовать ленточные накопители, которые позволяют сжимать резервные копии. Ленточная библиотека расположена в наших дата-центрах, а по запросу клиента мы можем передавать такие архивы ему на хранение во внутренний контур. Эти копии нельзя случайно или умышленно повредить изнутри инфраструктуры, они хранятся с версионностью и поддерживают юридически значимое хранение, например, для 1С, ИСПДн, отраслевых систем в страховании, телекоме, госуправлении и финансовом секторе.
Кроме того, клиенты Т1 Облако могут воспользоваться репликацией резервных копий в другой дата-центр в рамках инфраструктуры облачного провайдера. Если с данными или первым дата-центром что-то произойдет, то есть возможность восстановить данные из бэкапа во втором.
Ленточная библиотека подойдет компаниям, которым важна стоимость хранения и не так важна оперативность восстановления всех данных и инфраструктуры, например, когда допустим даунтайм в 24-48 часов. А вот компаниям, которым важно получить бэкап всей своей инфраструктуры за секунды, подойдут высокопроизводительные MVNe-накопители с повышенной емкостью.
Когда эффективно: подход с архивным пулом – это резерв на случай катастрофы. Он дает возможность вернуть систему к «чистой» точке, не затронутой атакой, пусть и с задержкой в несколько часов, а также потерей самых свежих данных. Но в условиях полной компрометации — это иногда единственный шанс на восстановление.
Заключение
Чтобы дополнительно повысить
защиту данных и систем, рекомендуется сочетать сразу несколько способов для восстановления данные после сбоя. Но ни один метод не спасёт, если он не протестирован заранее. Оптимально проводить квартальные стресс-тесты с участием отдела информационной безопасности, инфраструктуры и бизнеса — чтобы убедиться, что план восстановления работает не только на бумаге. Кроме того, важно обращать внимание на то, чтобы все логины и пароли от системы резервного копирования были защищены
многофакторной аутентификацией.