Пароль:

Москва
07:21

Февраль 2007

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

24 февраля 2007
более, чем 10 лет назад

Беззащитные данные 17:53

В голове крупных бизнес-потребителей ИТ произошло наконец-то смещение акцента с бизнес-приложений на данные, обрабатываемые этими приложениями. А в словосочетании «центр обработки данных» теперь заслуженно выделяют третье слово, а не второе. Вместе с пониманием главной роли данных в бизнесе пришёл и панический страх их утери. Ведь по статистике IDC, в случае продолжительного отсутствия доступа к оперативным данным большинство компаний ожидает банкротство.

Существует два принципиально разных подхода к обеспечению надёжности хранения данных. Первый – это резервное копирование. С резервированием связаны два главных понятия – RPO (recovery point objective) и RTO (recovery time objective). RPO – это момент времени, в который система содержала данные, соответствующие резервной копии. RTO – это время, занимаемое процессом резервирования/восстановления. Естественно, что с ростом объёма корпоративных данных, RTO растёт пропорционально объёму данных, а RPO возникают всё реже и реже. А значит, самые свежие, самые ценные данные становятся наиболее уязвимыми, и их объём при этом возрастает.

Второй подход – это «data is always there», то есть защита данных непосредственно в системе хранения, в момент их попадания туда. А это означает real time RPO и стремящееся к нулю RTO. Этот подход усиленно продвигается грандами систем хранения данных (в частности, компанией EMC). Самый популярный способ обеспечения защиты по предложенной концепции – RAID (redundant array of independent disk; кстати, ранее вместо слова «independent» фигурировало «inexpensive», что для современных fibre channel дисков вряд ли применимо). Принцип действия заключается в объединении нескольких дисков в группу и хранении в ней данных и избыточной информации. Думаю, нет особого смысла рассказывать про уровни RAID, поскольку нас сейчас интересует самый популярный уровень – 5.

В RAID5 группе данные сохраняются «размазанными» по всем дискам, также «размазанными» сохраняются и коды коррекции – информация, требующаяся для восстановления данных. Её избыточность для RAID5 составляет менее 25% от общего объёма группы (и падает с увеличением количества дисков в группе). RAID5 построен таким образом, что группа выдерживает отказ одного диска единовременно.

Казалось бы, при такой технологии хранения, данные действительно always there. Давайте посмотрим насколько «always». Тонкий момент здесь заключается в том, что группа выдерживает отказ только одного диска в один момент времени. Даже если вы моментально заменяете этот диск, группе требуется определённое время для того, чтобы восстановить на этот диск данные и коды коррекции (rebuild). Данные, естественно, при этом доступны, но если во время проведения процедуры rebuild произойдёт отказ ещё одного диска, то группа будет разрушена. Чем больше дисков в группе и чем больше объём каждого диска, тем более частым будет отказ одного из них, и тем больше времени требуется на rebuild. Вплоть до того, что RAID5 группа из большого количества недорогих объёмных дисков может полностью разрушаться несколько (3-4 раза) раз за год!

Решение этой проблемы во введении двойной коррекции, RAID6 или RAID5 DP. Такая группа выдерживает отказ уже двух дисков в один момент времени (как мы выяснили выше, «момент» для больших групп довольно продолжительное время процедуры rebuild). Отказ двух дисков подряд событие не частое. Теоретически, для групп менее 20 ТБ уровень RAID6 обеспечивает на 2 порядка лучшую защиту данных (время до потери данных) для дисков со средними параметрами, чем RAID5.

Практика заставляет усомниться в теории вероятности: выход из строя второго диска в момент rebuild весьма вероятен. Особенно это касается систем, находящихся под серьёзной рабочей нагрузкой. Влияют на это два фактора. Во-первых, процедура rebuild на продуктивной системе серьёзно нагружает диски, количество операций чтения/записи значительно увеличивается на уже сильно нагруженной системе. Во-вторых, при современном уровне микроэлектроники, диски выходят с конвейера похожими друг на друга как клоны; соответственно, и такой важный параметр, как время наработки на отказ (MTBF), у них практически одинаков. Таким образом, один из дисков, достигший предельного времени работы, приводит к повышенной нагрузке на всю группу, более быстрому, чем в обычных условиях, исчерпанию ресурса остальных дисков и, как следствие, повышенной вероятности отказа ещё одного диска. Этакое веерное отключение.

Производители систем хранения борются с этим как могут. Например, IBM при заказе системы хранения поставляет диски различных производителей и различных партий, для того чтобы внести неоднородность в MTBF дисков и уменьшить вероятность одновременного отказа двух дисков в группе. Однако, концепцию data is always there это не спасает. И наряду с защитой данных in-place продолжает использоваться и резервное копирование. Что, кстати, также не обеспечивает 100% защиты данных от аппаратного сбоя…

Держите это в уме: ваш бизнес уязвим, как и ваши данные. Абсолютная защита данных невозможна, но используя комбинированный подход к защите данных, надёжные устройств и полным резервированием систем хранения вероятность потери корпоративных данных можно минимизировать.



Кейворды: ILM, storage

Соседние заметки:
Ваши данные «задыхаются» / Мир изменился