Пароль:

Москва
22:36

Декабрь 2006

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

26 декабря 2006
более, чем 10 лет назад

Ваши данные «задыхаются» 22:19

(источник Connect!)

Как обеспечить эффективное хранение растущего объема корпоративных данных

Алексей Назарбаев
системный архитектор TopS BI


Современный центр обработки данных (ЦОД) состоит из тысяч взаимодействующих компонентов – серверов, элементов систем хранения (дисков, контроллеров, ленточных накопителей и т. д.), сетевых элементов (маршрутизаторов, хост-контроллеров, адаптеров) и пр. Для управления сложной инфраструктурой data-центра применяются специальные инструменты, и чем больше в нем разнородных компонентов, тем больше таких инструментов приходится использовать.

По оценкам компании IDC, увеличение объемов хранимых и обрабатываемых данных составляет более 70% в год. Как действовать в такой ситуации? Наращивать и усложнять инфраструктуру data-центра, вводя дополнительные инструменты управления? Однако в условиях лавинообразно нарастающего объема корпоративных данных это приведет к повышению расходов на системы хранения и обслуживание ИТ-инфраструктуры, к увеличению времени резервирования и восстановления информации, усложнению процессов управления инфраструктурой и размещения данных.

Альтернативный подход основан на простой идее: не все данные имеют одинаковую ценность для бизнеса. Кроме того, ценность информации изменяется с течением времени (см. рисунок).

http://defann.cyberflash.ru/files/ilm_value.JPG/normal
Рисунок. Изменение ценности информации с течением времени

Размещением данных в хранилище можно управлять, выбирая параметры хранения, адекватные ценности информации. Решение этой задачи – цель концепции управления жизненным циклом информации – ILM (Information Lifecycle Management). ILM-ориентированный data-центр автоматически размещает данные, исходя из требований бизнеса к защищенности и доступности информации, с учетом ее ценности и актуальности, а также минимизации расходов на хранение.

Как управлять информацией

Прежде всего, необходимо осознать, что главное в data-центре – информация.

Второй важный момент: данные ≠ информация. Информация имеет определенный смысл и бизнес-ценность. Данные – это набор байтов, сами по себе они не несут никакой семантической нагрузки. Акцент должен быть смещен
с управления данными на управление информацией. Это даст возможность учитывать роль тех или иных категорий информации в бизнесе компании и обеспечивать соответствующий уровень сервиса хранения.

Для этого в концепции ILM предлагается использовать дополнительные процессы и сущности:
  • процесс классификации информации, который призван снабдить данные адекватной семантикой перед их размещением в системе хранения;
  • процесс размещения информации в системе хранения в соответствии с ее ценностью, направленный на минимизацию стоимости хранения;
  • целевой показатель уровня сервиса (Service Level Objective, SLO), определяющий уровень ключевых характеристик (надежности, доступности и др.), который должен обеспечиваться инфраструктурой хранения. SLO связывают с категориями (классами) информации в соответствии с их ценностью;
  • политики (policies) – набор правил, задающих необходимые действия по размещению информации в течение ее жизненного цикла.
Как это должно работать?

Поступающая информация классифицируется, с классами информации связываются определенные SLO, на основании которых интегрированный в инфраструктуру хранения механизм управления размещает информацию согласно заданным политикам. Таким образом, информация, которая должна быть легко доступна, попадет в высокопроизводительные системы хранения, а та, что не является критически важной для бизнеса, разместится в недорогих хранилищах. При этом инструменты управления постоянно отслеживают ценность и статус информации и перемещают ее в адекватные системы хранения согласно политикам и SLO. На определенном этапе жизненного цикла информация может стать ссылочной, устареть или повторно использоваться. В первом случае механизм управления передаст ее в архив, во втором – просто удалит, а в третьем – заново классифицирует и свяжет с другим SLO.

Пусть данные «вздохнут свободнее»

Полная реализация концепции ILM в data-центре – длительный, сложный и в чем-то даже болезненный процесс. Поэтому начинать следует с частных решений, которые максимально быстро дадут ощутить выгоду от применяемого похода. Кроме того, успешные частные решения позволят легче реализовать переход на ILM-стратегию в будущем.

Внедрение подходов ILM стоит начинать с формирования ярусной инфраструктуры хранения (tiered storage infrastructure), которая строится из систем хранения нескольких типов, существенно различающихся, по крайней мере, по одному из следующих критериев: стоимость, производительность, емкость и функциональность. Разные категории данных, с разными требованиями к характеристикам хранения, связывают с разными, наиболее адекватными для каждой категории, хранилищами. Таким образом, минимизируется стоимость хранения информации при обеспечении требуемого уровня сервиса.

Создание ярусной инфраструктуры не предполагает большого количества уровней систем хранения. Иногда достаточно трех уровней: высокопроизводительной системы хранения, недорогой емкой системы и системы для резервирования данных.

С созданием ярусной инфраструктуры связана потребность в средствах управления структурированной информацией. Это программные продукты, осуществляющие миграцию данных по уровням хранения. Например, продукт EMC DiskXtender способен автоматически переносить часть файловой системы на другую систему хранения, осуществляя ее связь с «родительской» файловой системой. Приложение, работающее с этими данными, продолжает функционировать в обычном режиме.

Другой продукт – HP RIM for Databases (а также семейство продуктов EMC DatabaseXtender) осуществляет аналогичные действия с таблицами баз данных, что позволяет минимизировать стоимость хранения, снизить нагрузку на СУБД, сократить время резервирования/восстановления, улучшив при этом показатели непрерывности бизнеса.

Существуют также средства для управления неструктурированной информацией, такой, например, как электронная почта. Продукт EMC EmailXtender обеспечивает адекватное размещение в системах хранения почтовых сообщений Microsoft Exchange и Lotus Notes/Domino.

Аналогичные задачи решаются и при управлении ссылочной информацией. Ссылочная информация – это документы, электронные сообщения и пр., используемые для подготовки других документов, отчетов либо в качестве справочных данных. Главное отличие такой информации – статичность: ссылочная информация не изменяется. Кроме того, множество нормативных актов, как государственных, так и внутрикорпоративных, могут регламентировать сроки хранения подобной информации (например, для документов финансовой отчетности или данных биллинга).

Идеальным решением для управления ссылочной информации является электронный архив, выполненный в виде программно-аппаратного комплекса (Content Addressed Storage, CAS) и интегрированный с необходимыми бизнес-приложениями. Одно из таких решений – продукт EMC Centera. CAS-системы позволяют находить документы по содержимому, индексируя их при размещении в хранилище. Можно организовать архив документов, удовлетворяющий нормативные требования по срокам хранения, обеспечивающий защиту информации, устраняющий дублирование документов и соответствующий концепции ILM. Архивация неактивной информации может существенно сократить время резервирования/восстановления данных.

Начав с частных решений, можно подготовить почву для дальнейшего развития ILM в организации и превращения data-центра в информационно-центричный, обеспечив при этом снижение стоимости хранения данных, строгое соблюдение нормативных актов, исключение дублирования информации, достижение необходимых характеристик сервиса хранения.

Читать комментарии

Кейворды: ILM,

Соседние заметки:
Guy Kawasaki. Defensibility (ru) / Беззащитные данные