Восстановление данных в России и СНГ
Малая Пироговская, 18, офис 406
Пн-Пт 9:00 - 21:00, Сб-Вс 9:00 - 17:00
Круглосуточный телефон

Про RAID массивы, серверы и сетевые хранилища

Почему RAID 6 перестанет работать в 2019 году?

Несколько лет назад я предупреждал, что RAID 5 перестанет работать в 2009 году. Конечно, поставщики сетевых хранилищ не рекомендуют RAID 5. Они в настоящее время рекомендуют RAID 6, который защищает от отказов двух дисков в массиве. Но в 2019 году даже RAID 6 не будет защищать ваши данные. Вот почему.

RAID 6 = (RAID 5)2

Я писал, что и RAID 6 будет иметь ограниченный срок службы:

…RAID 6 через несколько лет даст вам не больше защиты, чем RAID 5 сегодня. Это не вина RAID 6. Наоборот, это из-за увеличения емкости дисков и неизменного количества неустранимых ошибок чтения.

Еще в декабре 2009 года инженер SUN, флэш архитектор и ZFS разработчик Адам Левенталь сделал анализ ожидаемого срока службы RAID 6 в качестве надежной стратегии защиты данных. Он опубликовал его в журнале ACM в статье “Тройная четность RAID и далее”, выдержки из которой я использую в этой статье.

Хорошая новость: Левенталь обнаружил, что уровень защиты RAID 6 будет так же хорош до 2019 года, как раньше был RAID 5.

Плохая новость: Левенталь предполагал, что диски являются более надежными, чем они есть на самом деле. Так что времени может быть даже меньше, если производители дисков не включатся в игру. И еще одна хорошая новость: одна из компаний уже имеет такой диск – и я скажу, кто это.

Суть проблемы

RAID массив – это контроллер (или программа), который объединяет группу дисков в один большой диск с помощью математических формул. Контроллер добавляет на диски дополнительные блоки контрольных сумм, таким образом чтобы потеря одного или двух дисков не приводила к потере информации (здесь и далее речь идёт о массивах RAID 5 и 6, а не RAID 0, 1 или 10). Контрольные суммы позволяют восстановить данные с выпавших из массива дисков, а при замене диска – реконструировать его содержимое.

Проблема с RAID 5 в том, что жесткие диски имеют ошибки чтения. В SATA дисках по спецификации допускается коэффициент неисправимых ошибок чтения (URE) на уровне 1014. Это означает, что один раз на 1014 бит диск просто не сможет прочитать данные.

1014 бит = 100000000000000/8/512 секторов = 24 414 062 500 секторов

реальный размер 2тб диска = 3 907 029 168 секторов

Когда в RAID 5 массиве из 7 дисков SATA по 2 ТБ один жесткий диск выходит из строя, у вас остается 6 дисков по 2ТБ. И пока контроллер RAID будет делать rebuild, весьма вероятно случится ошибка чтения (URE). После этой ошибки реконструкция RAID массива становится невозможна.

Вероятность того, что ребилд закончится успешно: (1 – 1 /(24 414 062 500)) ^ (6*3 907 029 168) ≈ 0,38

Итого существует 62% вероятность потерять данные из-за неисправимой ошибки чтения в массиве RAID5 из семи SATA дисков с одним сбойным диском.

RAID 6

RAID 6 решает эту проблему путем создания второй контрольной суммы. Вы можете потерять один диск, поймать ошибку чтения URE и все равно успешно пройти rebuild.

Вероятность того, что ребилд RAID6 на 7 SATA дисках закончится успешно: ((1 – 1 /(24 414 062 500)) ^ (6*3 907 029 168))+(1-(1 – 1 /(24 414 062 500)) ^ (6*3 907 029 168))*((1 – 1 /(24 414 062 500)) ^ (5*3 907 029 168)) ≈ 0,66

 

В чем проблема?

Проблем несколько:

  • Долгое время восстановления массива (rebuild time). По мере роста емкости жестких дисков, увеличивается и время ребилда. Диск с данными со скоростью вращения 7200 оборотов в минуту пишет в среднем около 115 Мб/сек – и скорость записи снижается по мере наполнения диска – получается около 5 часов минимум, чтобы восстановить неисправный диск. Но большинство массивов не могут позволить ребилд на максимальной возможной скорости восстановления, поэтому на ребилд обычно уходит в 2-5 раз больше времени.
  • Больше скрытых ошибок. Корпоративные массивы используют фоновые процедуры проверки (disk scrubbing), чтобы найти и исправить возможные ошибки диска, прежде чем они дадут о себе знать. Но, так как объем дисков увеличивается, то и disk scrubbing занимает больше времени. В большом массиве диск может месяцы не проверяться, а это означает больше ошибок при ребилде массива.
  • Зависимость между сбоями дисков. Сторонники RAID предполагали, что отказы дисков – это независимые события. Но многолетний опыт показал, что это не так: сбой одного диска в массиве делает сбой другого диска намного более вероятным.

Упрощаем: большие диски = дольше rebuild + больше скрытых ошибок -> больше шансов сбоя RAID 6.

Надежность RAID с одинарной и двойной четностью Прогноз Левенталя относительной надежности RAID с одинарной и двойной четностью

К 2019 году RAID 6 будет не более надежным, чем RAID 5 является сегодня.

Выводы

Для корпоративных пользователей этот вывод будет полезной информацией. В то время как тройная четность в массивах решит проблему защиты данных, придется идти на значительные компромиссы.

Рассмотрим 21-дисковый массив. Нужна неделя только на ребилд массива, так что в среднем массив всегда работает в ограниченном режиме восстановления (degraded rebuild mode). Полный переход на 2.5″диски? Функциональное устаревание текущих массивов стоимостью миллионы долларов?

Обычные пользователи могут расслабиться. Домашний RAID является изначально плохой идеей,  лучше делайте чаще резервные копии с диска на диск и используйте сервисы онлайн бэкапа ценных данных.

И последний момент, Левенталь в своих расчетах использовал коэффициент ошибок дисков 10^16. Это верно для небольших, быстрых и дорогих корпоративных жестких дисков, но большинство обычных дисков SATA2 имеют коэффициент ошибок URE на порядок меньше – 10^14. За одним исключением: модель дисков WD20EADS серии Caviar Green от компании Western Digital по спецификации имеет коэффициент URE 10^15.

9 February 2016

Как наверняка добить данные на массиве RAID-10

Попытка самостоятельно восстановить данные в массиве RAID 10 может привести к полной потере информации. Обычно это происходит из-за ошибочных действий системных администраторов. О каких ошибках идет речь? Об этом ниже.

Как теряется информация с массивов RAID-10

Надежность массивов RAID-10 определяется избыточностью, созданной последовательностью зеркальных дисков. Однако созданная зеркалами избыточность иногда играет злые шутки. Смотрите сами: из-за особенностей массива при выходе из строя даже половины дисков RAID-10 данные могут сохраниться. Зато при отказе всего двух из них вы можете потерять всю информацию с массива. Это происходит, если выпадают диски, составляющие зеркало.

Избыточность создает еще одну ловушку для владельцев серверов с массивом RAID-10. Вы можете не заметить выхода из строя одного диска из зеркала. Например, это происходит, если сисадмин неправильно настроил или не настроил мониторинг, или из-за некорректной работы RAID-контроллера. Проблема в том, что вы можете долго эксплуатировать сервер, не замечая проблему. При выпадении второго диска из зеркала вся информация с массива становится недоступной.

Ура, я знаю, как сломать RAID-10

Существует еще много ситуаций, в которых теряются данные с RAID-10, среди них:

  • Программный сбой RAID-контроллера.
  • Поломка или некорректная замена контроллера.
  • Некорректная настройка или отсутствие мониторинга.
  • Аппаратная неисправность критичного количества дисков.
  • Рассинхронизация массива с последующим выходом из строя актуального участника.
  • Повреждения файловой системы, ошибочное удаление информации, форматирование дисков.
  • Другие ошибки сисадмина. Например, удаление или изменение конфигурации (некорректное расширение массива или замена участников) или некорректные попытки восстановить данные.

При потере данных у экспертов сохраняется возможность восстановить всю или большую часть информации. Однако часто владельцы серверов совершают фатальные ошибки, которые приводят к безвозвратной утрате данных. Это происходит, когда некомпетентные пользователи пытаются самостоятельно вернуть работоспособность оборудованию.

Устройство RAID10 массива

Что делать, чтобы полностью потерять данные с массива RAID-10

Как сказано выше, нужно попробовать самостоятельно восстановить данные, не имея достаточной компетенции. При восстановлении можно ошибиться, что безусловно приведет к безвозвратной утрате доступа к информации.

Рассмотрим основные ошибки:

  • Попытка восстановления данных без диагностики массива. Когда вы приходите к врачу с болью в животе, он не хватается сразу за скальпель, а расспрашивает и осматривает вас, делает анализы, чтобы понять, как вас можно лечить, а как нельзя. Такая же ситуация с восстановлением RAID-10: вы должны поставить диагноз, чтобы знать, какие процедуры будут эффективными, а какие уничтожат массив.
  • Проверка дисков и исправление ошибок до анализа содержимого дисков. Эти действия могут внести изменения в информацию на дисках, что часто приводит к полной утрате данных.
  • Некорректные действия с аппаратной частью: перестановка дисков, извлечение дисков до отключения машины от питания, подключение винчестера к другому оборудованию, вскрытие дисков. Такая практика часто оборачивается изменениями в конфигурации RAID-массива или физическими повреждениями носителей, после которых восстановить информацию невозможно.
  • Замена контроллера или инициализация при несинхронизированном массиве и без резервной копии. В этом случае контроллер может не определить правильную конфигурацию, что приведет к потере данных.
  • Попытка восстановления данных контроллером. Из-за некорректной работы микропрограммы можно разрушить массив при ребилде. Контроллер вместо записи актуальных данных на чистый диск обнуляет носитель со свежей информацией.
  • Ошибочная операция с массивом. Если сисадмин вместо ребилда запускает инициализацию или синхронизацию, это приводит к повреждению или полной потере информации.
  • Попытка восстановления с помощью функции make online при выходе из строя диска. Эта операция может привести к полной утрате данных сама по себе, так как процесс некорректного ребилда или инициализации может запуститься в фоновом режиме. А если после такой команды вы сами запустите инициализацию или ребилд, то наверняка получите фатальный для массива результат.

Вы можете потерять массив даже в результате безобидной операции. Например, информация может стать недоступной после простой перезагрузки системы. Поэтому при внештатных ситуациях никогда не выполняйте необдуманных действий с RAID-10.

Как видите, полностью добить массив RAID-10 несложно. Достаточно допустить ошибку при попытке восстановить информацию. Что же делать, чтобы не потерять важные данные?

Что делать, чтобы восстановить данные с массива RAID-10

Существует также безопасный метод, которым пользуются профессионалы – так называемое «софтовое восстановление RAID-массива». Его принцип заключается в работе с дисками только на чтение и использование простых, но вместе с тем гибких программных средств для правильной сборки виртуального RAID-массива.

На нашем сайте вы можете познакомиться с инструкцией по работе с массивом RAID5. В ней описаны случаи, когда можно справиться с восстановлением данных собственными силами, кроме того, в этом материале вы найдете много другой полезной информации.

17 January 2016

Когда использовать RAID 50

Что обычно знают о RAID 5? Отличный универсальный представитель RAID-массивов, имеющий некоторые ограничения в отношении емкости.

При использовании стандартных RAID-контроллеров (Adaptec, LSI и т.п.) максимальное количество дисков в RAID 5 составляет 32.  Сейчас уже есть по-настоящему большие диски (HGST 10tb, полезная ёмкость равна 9313 Гигабайт/ 9,1 Терабайт). Взяв 32 таких диска по 10 Тбайт, получим RAID 5  с 281,8 Тбайт полезного объема.  При этом объем, равный одному из дисков RAID 5, будет потрачен на контрольные суммы для обеспечения отказоустойчивости.

Такого объема домашний сервер интересует немногих. Однако с огромными массивами архивных, статистических и крупномасштабных данных все активнее работают компании, поэтому не исключено, что кому-то потребуется и такой монстр.

восстановление сервера HP ProLiant Gen9

Даже если взять более реальный вариант, когда крупный сервер создают из меньших дисков, потому что большие слишком дороги, принципы создания такого сервера останутся теми же.

Обратимся к проблемам  массива на 32 диска по 10 Тбайт.

Основные вопросы связаны с построением (build) и восстановлением (rebuild) RAID. Рассмотрим некоторые показатели для контроллера, работающего с дисками такого объема в подобном массиве.

  • Размер блока данных (на диск, так называемого малого страйпа) — 256 Кбайт.
  • Количество блоков на одном диске — 38 146 972.
  • В большой блок (большой страйп, проходящий через все диски массива) входит 32 элемента по 256Кбайт (8 Мбайт).
  • Для записи одной контрольной суммы RAID-массиву нужно будет прочитать данные с 31 диска, просчитать контрольную сумму и записать на 1 диск — по блокам.
  • Умножаем на 38 миллионов блоков.

Нагрузка на диски получается очень высокой – из-за этого повышается вероятность выхода из строя еще одного диска и всего массива.

Проблема в том, что в операции задействованы все 31 диск. С одной стороны, это неплохая потоковая скорость чтения, с другой — длительное перестроение. Чтобы перестроить массив за 24 часа, диски должны считывать/записывать данные со скоростью как минимум 115 Мбайт/с. И хотя сейчас диски SATA и SAS уже близки к таким показателям считывания, до  соответствующей скорости записи весьма далеко, поэтому на перестройку уйдет гораздо больше суток.

Если в процессе перестройки RAID 5 откажет еще один диск – придётся обращаться в компанию по восстановлению данных.

Выход – организация RAID 50 — комбинации массивов RAID 5, объединенных в RAID 0.

восстановление данных RAID 50 массива

 

Рассмотрим принципы работы такого массива. В стандартном RAID 0 из группы единичных дисков формируют быстрый массив, где отдельные диски выступают его участниками.  При этом каждый из них ничем не защищен — RAID 0 не предусматривает отказоустойчивости, которая реализуется двойным хранением блоков данных в RAID1/RAID10 или контрольными суммами в RAID5/RAID6. Если один из дисков выйдет из строя, результатом станет отказ всего массива.

В массиве RAID 50 каждый из участников RAID 0 верхнего уровня представляет собой массив RAID 5. Поэтому при отказе диска участник не выходит из строя, как в случае с RAID 0, а просто работает  немного медленнее, поскольку массив  меняет статус на «degraded».

Приведенные выше расчеты остаются теми же для отдельных дисков, зато количество дисков в большом блоке массива становится существенно ниже (как минимум наполовину), поэтому возрастает скорость во всех зонах.

Почему-то считается, что участников верхнего уровня для массивов  RAID 10, 50 и 60 может быть только два. На самом деле, в  указанных конфигурациях RAID это  количество выбирается  — 2, 3, 4. Как правило, чем их больше, тем лучше.  С этой информацией вернемся к  конфигурации на 32 диска.

Вместо того, чтобы собирать 32 диска в один массив RAID 5, создадим RAID 50 из двух RAID 5 по 16 дисков с RAID 0 верхнего уровня. Общая емкость будет на один диск меньше, зато существенно вырастут и производительность, и скорость перестроения.

Покажем это. На практике оказывается, что 32 дисков слишком много для эффективной работы алгоритма RAID 5. По скорости такой вариант уступает  оптимальному – RAID 5 на 8–16 дисков. Поэтому RAID 5 на 16 дисков всегда быстрее той же конфигурации на 32 диска. А у нас теперь два массива RAID 5, объединенных в один.

Преимуществ сразу несколько. При перестроении RAID (при отказе диска) задействованы только 16 из 32 дисков. Вторая половина RAID 50 (еще 16 дисков в массиве RAID 5) в процессе не участвует. Поэтому перестроение идет намного быстрее, а производительность массива в целом не страдает так, как в случае с RAID 5 из 32 дисков.

Недостатки  RAID 50 по сравнению с единым большим массивом RAID 5: при двух участниках массива верхнего уровня  теряется объем еще одного диска.

серверная комната

Анализируя конфигурации RAID 50/60, опираемся на математику. Рассмотрим несколько вариантов.  

RAID 50 с тремя участниками на 32 диска – не реализуется. Оптимальный вариант RAID 50 на трех участников— 30 дисков (3 участника по 10). Полезная емкость составит 27 дисков, зато массив будет (а) быстрее и (б)  весьма быстрее в перестроении, чем любая из рассмотренных выше конфигураций.

RAID 50 на 32 диска с четырьмя участниками – реализуется.   4 диска придется выделить под контрольные суммы. При этом каждый массив RAID 5 (каждый участник) будет иметь 8 дисков и отличную скорость.Система обладает  фантастической производительностью. Нет претензий и к скорости перестроения, а ее влияние на сервер сведено до минимума. Недостатки – стоимость выше, а емкость чуть ниже.

Итак, RAID 50 — это всегда компромисс: чем больше участников верхнего уровня, тем выше затраты и меньше емкость, зато заметно растет производительность. (Что с 32 дисками сделал бы автор ? Массив RAID 50 на 30 дисков и 3 участника, а два последних диска оставил бы в качестве  резервных  с горячей заменой).

Ответим на вопрос, вынесенный в заголовок. Насколько и когда целесообразно использование RAID 50? RAID 50 на большом количестве дисков большого объема – надежней, чем RAID 5, и экономичней, чем RAID 10.

4 August 2015

Восстановление RAID с помощью R-Studio

В статье «Восстановление RAID 5» мы писали, что если RAID-массив «развалился» одномоментно, а не «умирал долго и мучительно», все диски при этом исправны и все это не содержало критически важной информации, можно попробовать восстановить данные самостоятельно. Здесь рассмотрим, как это сделать с помощью программы R-Studio.

Примеры наиболее подходящих для этого ситуаций: сломался RAID-контроллер или материнская плата с RAID’ом на борту, а также случаи внезапного перехода массива в статус «failed» при том, что диски все по отдельности видятся, но почему-то теперь не включены в массив.

Итак. Шаг первый. Подключаем все диски к ПК с WinXP и выше таким образом, чтобы они отдались в систему как отдельные устройства. То есть мы не включаем их ни в какие RAID-массивы и вообще не используем для этого RAID-контроллеры. Стараемся правильно использовать свои знания о порядке дисков в массиве и сделать все так, чтобы диски определились по порядку. Это желательно, чтобы в дальнейшей работе нам было проще не ошибиться. И чем дисков больше, тем это желательней. Наверняка подключение двух – пяти дисков никого не затруднит. А вот подключить, к примеру, 10 дисков как отдельные устройства – уже не такая простая задача. Вот как может подготавливаться сборка 15-тидискового массива.

Подключение 15 HDD в систему, через SAS-контроллер без функции RAID

Согласен, что зрелище не для слабонервных. :)

Не забудьте к этому добавить носитель (или несколько), на котором должны уместиться восстановленные данные. Или вам должно быть доступно какое-то сетевое хранилище.

Для простоты предположим, что нам нужно восстановить данные с 3-х дискового RAID5 с одним NTFS разделом на весь массив. Делаем мы это на ПК, подключенном в сеть с доступным дисковым пространством достаточного объема.

Шаг второй. Загружаем ОС. Убеждаемся, что все диски определились и готовы для работы.

Шаг третий. Узнаем настройки RAID-массива. Например, с помощью RAID Reconstructor. Если вам известны настройки вашего массива, то этот шаг можно пропустить.

Шаг четвертый. Запускаем R-Studio, конечно, я говорю о легально приобретенной зарегистрированной версии. В верхнем меню выбираем «Create Virtual Block RAID».

Создание виртуально RAID-массива

Добавляем в наш виртуальный RAID участников. Это можно сделать либо кликнув на область дисков массива правой кнопкой мыши и выбрав в контекстом меню «Add …», либо путем перетаскивания мышью нужных дисков из левой части рабочего поля в правую. При этом соблюдаем правильный порядок дисков массива.

Если ошиблись с порядком, используем «Move Up», «Move Down», «Remove» и так далее.

Шаг пятый. Настраиваем наш RAID. Для этого вводим настройки: «RAID Type», «Block Size» и «Block Order».

Настройка виртуального RAID-массива

Выбрав значения всех полей, кликаем правой кнопкой мыши на получившийся массив и в контекстном меню выбираем «Refresh».

Применение настроек Виртуального RAID-массива

Если мы все сделали правильно, а массив перед тем, как развалиться, не получил значительных логически разрушений, появятся разделы, доступные для восстановления.

Если это не так, пробуем найти ошибку и исправить ее. Не забываем про «Refresh». Если вы убеждены в правильности сборки RAID-массива и у вас есть обоснованные подозрения, что раздел(ы) мог(ли) получить логическое разрушение, то используем сканирование и работаем с этим массивом, как с обычным диском с логической проблемой.

Шаг шестой. Нам везет – у нас появился раздел NTFS с правильными границами. Открываем его и видим свои данные. На этом этапе ярким признаком того, что мы все сделали правильно, служит отсутствие ошибок в логе при открытии раздела с десятками тысяч файлов. С трудом сдерживая радость, мы выделяем нужные данные и восстанавливаем их с помощью R-Studio в специально подготовленное для этого место.

Сохранение результатов в R-Studio

Шаг седьмой. Проверяем полученный результат. Открываем файлы, убеждаемся, что все целое. При этом внимание уделяем файлам значительно больше размера блока RAID’а (В идеале от нескольких Mb), важным и наиболее актуальным. Если все хорошо, перестаем сдерживать радость.

Если данные восстанавливаются битыми или вовсе отсутствуют, скорей всего что-то сделано неправильно. Наверное, ваш RAID-массив недостаточно прост для домашней сборки и вам следует обратиться к профессионалам по восстановлению данных.

 

Вячеслав Мочалов, 16 февраля 2012 года

 

При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.

30 October 2014

Восстановление RAID 5

У вас пропали данные с RAID5 массива? Повреждена конфигурация или файловая система? Сломался контроллер или вышли из строя сразу несколько жестких дисков массива? Случилась другая проблема с данными на RAID5?

Обращайтесь в компанию DATARC — мы профессионально занимаемся восстановлением данных с RAID массивов и систем хранения данных любых конфигураций. У нас есть всё необходимое оборудование, а главное — опыт, который позволяет нам решать любые проблемы от неисправных жестких дисков до поврежденных файловых систем. 

[Фотогалерея]

Специалисты по восстановлению данных:

[Специалисты]

Схема работы

[Как_Мы_Работаем]

Восстановление RAID5 – одна из самых восстребованных наших услуг, так как RAID-массивы 5-го уровня и по сей день остаются, пожалуй, самыми популярными среди владельцев серверов и хранилищ данных. Что ж, они действительно имеют свои преимущества: повышенная производительность, отказоустойчивость, относительно невысокая стоимость дискового пространства. Зачастую достоинства RAID 5 настолько преувеличивают, что считают его хранилищем данных, рабочим сервером и бэкапом – все в одном. А вот это уже ошибка. Именно она и становится предпосылкой к возникновению серьезных проблем, которые будут описаны в этой статье.

Как устроен RAID5

RAID 5 – это набор дисков от 3-х и более, объединенный в единую дисковую систему, где данные пишутся поблочно на все диски. При этом контрольные суммы, обеспечивающие отказоустойчивость RAID5, распределяясь равномерно по всем дискам, пишутся циклически по определенному алгоритму. Все, кто знаком с основами матлогики, наверняка помнят простейшую операцию «сложение по модулю 2» (Исключающее «ИЛИ», XOR). Именно она лежит в основе алгоритма расчета контрольных сумм и позволяет «на лету» пересчитывать содержимое любого отсутствующего диска массива, используя данные и контрольные суммы, хранящиеся на остальных дисках. Суммарно под избыточность расходуется пространство, равное объему одного из дисков RAID5. Соответственно для записи данных будет доступно пространство, равное (n-1)*V, где n – это количество дисков в массиве, а V – объем минимального из них, в Гб. Например, RAID5 на трех дисках по 100 Гб может уместить до 200 Гб данных. RAID5 на 24-х двухтеррабайтниках – это хранилище на 46 Тб. В том и другом случае избыточность равна одному диску. А значит, и продолжать работать массив сможет, если лишится только одного своего участника.

 raid 5 parity scheme

Подобная система реализуется либо с помощью RAID-контроллера (тогда мы говорим об аппаратном RAID5), либо средствами операционной системы – софтовый RAID. В частности большое распространение получили Linux’овые средства RAID, использующиеся во множестве различных внешних сетевых хранилищах.

RAID-массивы 5-го уровня будут отличаться друг от друга:

  • Количеством и размером дисков
  • Порядком дисков
  • Размером блока массива
  • Алгоритмом (порядком) записи блоков с данными
  • «Узором» контрольных сумм
  • Наличием/отсутствием смещений и разрывов в записи данных
  • Наличием /отсутствием областей со служебной информацией RAID’а

и прочими деталями.

Причины потери данных на RAID

И все-таки тысячи людей уже столкнулись с потерей данных, на RAID5. Причин тому масса.

Простая «логика»

Во-первых, RAID5 подвержен всем бедам, которые мы называем логическими проблемами: удаление, исчезновение или повреждение файлов/папок, повреждения файловых систем, действие вирусов и так далее. Думаю, всем ясно, что избыточность RAID 5 совершенно никак не уменьшает вероятность таких проблем. Здесь почти нет никакой специфики, связанной с тем, что носителем является RAID5. Почти! Есть исключения, о которых скажу позже. В любом случае, если вы точно знаете причину потери – удалили, поймали вирус, неудачно поэкспериментировали с границами разделов и т.д. – это «логика». И методы решения таких проблем схожи с работой на обычном HDD или даже flash. Можно использовать средства восстановления данных при софтовых проблемах, в том числе и общедоступные, например r-studio. Главное – выполнять все предосторожности:

  • Ничего не менять на проблемных разделах, не копировать, не создавать, не редактировать данные, не устанавливать программы (в том числе и для восстановления данных), не запускать checkdisk, fsck и прочих сканирований.
  • Данные восстанавливать на другой носитель.

Силы природы: огонь, вода и гравитация

Во-вторых, RAID5 так же, как и любой другой носитель подвержен внешним воздействиям:

Внешние хранилища роняют. Последний пример – такое хранилище, пострадавшее в ходе геологоразведочной экспедиции.
Серверы, бывает, горят. Их тушат, заливают водой. Один из последних примеров – пожар в серверной крупного банка.

Сгоревший жесткий диск

Мы его теряем

В-третьих, ломаются RAID-контроллеры. Горят материнские платы с RAID’ом «на борту», «слетают» системы, управляющие софтовым массивом. Иногда может идти речь не о полной поломке оборудования, а о каком-то кратковременном сбое, в результате которого массив «развален», хотя все устройства по отдельности выглядят вполне рабочими.

Человеческий фактор

В-четвертых, мы, люди, иногда можем делать совершенно необъяснимые вещи. Перечислю некоторые действия, на мой взгляд, граничащие с саботажем: вынимаем/переставляем диски массива, сбрасываем конфигурации RAID-массива, удаляем/пересоздаем RAID, «чиним» его checkdisk’ом и так далее. Все это приводит к потере данных.

Классика

В-пятых, пожалуй, классическая ситуация именно для RAID5. Массив теряет более одного участника. При этом не важно, диски действительно выходят из строя или по каким-либо причинам выбрасываются контроллером из RAID’а – получают статус offline. Иногда это может быть из-за нестабильной работы HDD (например, сбой SMART или bad-блоки). Иногда – сбой в работе RAID-контроллера. Диски полностью исправны, и что именно «не понравилось» контроллеру, не ясно. Часто к подобным последствиям приводят внезапные потери питания или скачки напряжения.

Как происходит восстановление RAID5

Для восстановления данных на RAID5 можно избрать один из двух основных путей.

  • Самостоятельное восстановление RAID5.

Область применения моих советов по самостоятельному восстановлению довольно узка – я опишу, какими средствами, можно самостоятельно восстановить «развалившийся» RAID5 в случае, если все диски исправны, массив «развалился внезапно», то есть одномоментно, и ваш RAID не содержал жизненно важных данных.

Софтовое восстановление RAID5

Итак, раз все диски исправны, то вам не составит труда подключить их к ПК таким образом, чтобы они отдались в систему как отдельные устройства. То есть мы не используем для этого RAID-контроллеры, а подключаем «напрямую» по SATA/SAS/IDE/FC/SCSI и так далее. Если у вас возникают проблемы на этом этапе, продолжать не стоит.

И действительно, далеко не всегда вы будете обладать необходимыми для этого условиями и оборудованием. Например, одно только подключение 24-х HDD к одному ПК таким образом, чтобы они отдались в ОС отдельными устройствами – не самая простая задача.

Не производите никаких изменений содержимого дисков: не инициализируйте их, не создавайте и не форматируйте разделов, не пытайтесь обратиться к существующим логическим дискам. Лучше всего, чтобы вы подключали не оригиналы дисков, а их посекторные копии. Во-первых, неосторожное изменение содержимого дисков не распространится на исходник. Во-вторых, дальнейшие манипуляции могут происходить в интенсивном, неблагоприятном для диска-исходника режиме. И если предположить, что у него возможны какие-то проблемы со стабильностью работы (например, бэдблоки), вы своими софтовыми экспериментами запросто ухудшите его физическое состояние.

Итак, диски отдались в систему. Теперь с помощью таких программ, как r-studio или UFS-explorer можно эмитировать правильную работу RAID-контроллера и получить доступ к данным. Для этого нужно с помощью этих программ создать виртуальный RAID, в правильном порядке добавить в него необходимые диски и выставить такие свойства как «Алгоритм» и «Размер блока».

Сборка RAID5 с помощью R-Studio

Получается, порядок дисков, алгоритм и размер блока нужно знать. Если вам они неизвестны – то следует попытать счастье с программой RAID Reconstructor. Она может помочь найти самые простые алгоритмы и распространенные размеры блока на небольшом количестве дисков с самыми распространенными файловыми системами.

Определение алгоритма RAID5 с помощью RAID Reconstructor

Основная проблема при использовании подобных средств будет заключаться в их негибкости и неуниверсальности. Другими словами, на практике крайне низкий процент RAID5 можно восстановить подобными средствами «в домашних» условиях. Либо RAID Reconstructor не способен в допустимое время правильно определить алгоритм и размер блока, либо такой алгоритм вовсе не запрограммирован в этих утилитах, либо есть особенности (смещения, разрывы и пр.), которые учесть непрофессионалу крайне сложно.

Если данные средства не дали вам доступа к данным, то лучше обратиться к профессионалам.

Аппаратное восстановление RAID5

Этот подход никак иначе, чем шаманским, не назовешь. Он базируется на авантюризме исполнителя, большой удаче и вере в лучшее будущее. Заключается в попытке «обмануть железо» и заставить вернуть утраченный доступ к данным. При этом выполняются примерно следующие шаги:

  • Нумерация дисков массива
  • Посекторное клонирование всех дисков и последующая работа с клонами
  • Подключение дисков к RAID-контроллеру в правильном порядке.

А вот дальше море вариантов. Каждый контроллер может совершенно по-разному реагировать на такие «подлоги». Может, что-то спросить, а может запустить какой-нибудь процесс, ничего не спрашивая. Пожалуй, каждой линейке основных производителей RAID-контроллеров можно было бы посвятить отдельную статью, если бы я хотел описать все возможные тактические удары. Поэтому здесь ограничусь стратегией.

Необходимо либо вернуть массив к прежнему состоянию, добившись того, чтобы клоны были восприняты как родные и никакие настройки массива не слетели, либо пересоздать массив заново, но в точности с теми же настройками. Их нужно знать точно! Не «по умолчанию…», не «наверное, так было», не «позвонили бывшему сисадмину, а он вспомнил…». Любое несоответствие полностью аннулирует все шансы.

При этом очень важно, чтобы при создании массива не уничтожились данные. А именно так и будет в подавляющем большинстве случаев. В общем-то, чтобы знать точно, надо четко представлять принципы работы не только RAID5, а именно этого RAID-контроллера. Иначе процесс вероятностный. И чтобы увеличить вероятность успеха нужно избегать любых действий контроллера над всем массивом. Если контроллер дает такую возможность, не следует проводить инициализации массива. Если ее не избежать, то хотя бы ограничьтесь «быстрой» инициализацией. Также надо быть уверенным, что инициализация не ведется в backgroud’е. Это можно понять по индикации дисков либо из утилиты RAID-контроллера. При этом даже быстрая инициализация зачастую обнуляет значимые области на дисках. По этой причине, отдавшись в систему, такой массив может быть еще и логически разрушенным. Это можно преодолеть либо вернув недостающие сектора на место (мы же работаем с копиями, а у нас еще есть неизмененный оригинал), либо воспользоваться R-studio. Если все прошло удачно – вы получите целые данные. Если же информация не восстановилась или восстанавливается битой, скорей всего где-то допущена ошибка. И время потрачено зря. Но огорчаться не стоит. Все-таки этот исход и был наиболее вероятным. Для того чтобы такую процедуру произвести правильно, все-таки требуются глубокие знания и большой опыт. Без них описанный стратегический план крайне тяжело выполнить без сбоев в каких то тактических мелочах. Если есть подозрения, что именно пошло не так, можно повторить все шаги сначала.

Напомню, что все эти рекомендации по самостоятельному восстановлению RAID5 применимы на практике только в случае, если все диски исправны, массив «развалился» внезапно и ваш RAID не содержал важных данных.

Дело в том, что неисправности одного и более дисков массива, или сбои, растянутые во времени, полностью меняют картину и требуют совершенно иного еще более сложного плана действий.

Ну и конечно, здравомыслящий человек не станет экспериментировать с важными данными. Это уже совершенно точно работа профессионалов. Я искренне убежден, что каждый должен заниматься своим делом. Дело системного администратора или просто ответственного пользователя – не допустить наступления самой проблемы, когда может потребоваться восстановление данных. Думаю, это достигается настройкой автоматического, регулярного резервного копирования на внешние носители и проверкой его выполнения. Если же дошло до восстановления данных, лучшим решением будет обратиться к специалистам соответствующего профиля.

  • Восстановление RAID5 в специализированной лаборатории восстановления данных

Так как же будут восстанавливать RAID5 в специализированном сервисном центре? Во-первых, никаких шаманских подходов. То есть исключается сборка на RAID-контроллере.

Парадокс это или нет? Наши специалисты восстановили тысячи RAID-массивов, повидав при этом всякое. И если б сборка на RAID-контроллере была бы единственно доступным вариантом восстановить данные, то и с этой задачей они наверняка бы справились. Помог бы колоссальный опыт и осторожность профессионалов, а также техническая оснащенность лаборатории. Конечно, все диски были бы корректным образом клонированы в посекторные образы. Были бы учтены все особенности работы данного RAID-контроллера, и правильным образом устранены все его деструктивные воздействия на данные. Если бы пришлось, то «тренировались бы на кошках». То есть для изучения особенностей RAID-контроллера собрали бы тестовый RAID5 на других дисках. Аналогичным же образом «развалили» его, а затем восстановили. И, тем не менее, специалисты так не поступают. Да, вероятность того, что даже при таком методе восстановления профессионал что-то испортит, крайне низка. Но, во-первых, она все-таки существует и она больше нуля. Во-вторых, есть другие более безопасные способы восстановления RAID5.
Другой участник этого парадокса – IT-специалист начального или среднего уровня (не специалист по восстановлению RAID), имея в разы меньше шансов на успех, все-таки гораздо более полон оптимизма. И поэтому мы часто видим массивы с такими вот печальными историями.

Итак, мы не станем рисковать и проводить подобные опыты с дисками из RAID-массива с важными данными.

Порядок восстановления RAID5 по шагам:

  • Внимательно выслушиваем показания «потерпевшего». Зачастую они очень важны для выдвижения и подтверждения гипотез о составе RAID’а и картины произошедшего.
  • Тестируется физическое состояние дисков и определяется круг допустимых операций.
  • Исправные диски подключаем к системе, минуя все возможные RAID-контроллеры, исключая какие-либо редактирования их содержимого.
  • В HEX-редакторе производится анализ содержимого дисков. Находятся контрольные точки (MBR, boot-сектора, заголовки файловых систем, границы разделов), позволяющие подтвердить или опровергнуть информацию о составе и уровне RAID-массива. Да, бывают ситуации, когда RAID5 на шести дисках оказывается пятидисковым массивом с hot-spare или, например, совокупностью страйпов и зеркал. Мы сталкивались с тем, что RAID5 оказывался просто несколькими независимыми дисками, которые клиент считал разделами своего надежного хранилища. Но бывало и такое, что RAID0 из двух дисков оказывался деградированной пятеркой. То есть RAID5 лишился одного своего участника еще год или два назад и в таком состоянии достался нынешнему владельцу. «Массив из двух дисков, суммарный объем разделов равен сумме дисков. Ну конечно же это страйп!» :)
  • Выяснив общую картину пазла, приступаем к его сборке. Конечно, мозаика лучше всего собирается по частям каких-либо структурированных узнаваемых цепочек достаточной длины. Это может быть файловая таблица или данные некоторых типов. Чем больше опыт специалиста, тем больше у него возможностей найти на дисках участки, пригодные к подобному анализу. На этом этапе можно определить величину блоков данных, их порядок следования и «узор» контрольных сумм. Также можно разобраться с наличием смещений и разрывов в размещении данных на HDD.
  • Выясняем, достаточно ли нам содержимого исправных дисков. Если нет, то восстанавливаем неисправные. При этом нам важно получить их полный посекторный образ.
  • Если теперь всего хватает, то можно приступить к самой софтовой сборке. То есть программными средствами имитируется работа RAID-контроллера по правильному алгоритму, на правильном составе дисков. То есть мы выстраиваем диски в нужном порядке (при этом исключаем лишние), и задаем все параметры алгоритма. Какой софт при этом использовать – не принципиально. Для большей части случаев запросто сгодится все та же R-Studio, позволяющая собрать из одного и того же набора дисков десятки тысяч различных RAID’ов, где правильным будет один.
  • Возможно, что даже при всех исправных (или восстановленных) дисках мы можем недосчитаться каких-то блоков данных. Эта «недостача», как правило, имеет циклических характер и является последствием каких-то некорректных процедур: инициализации, Rebuild’ы, пересборки RAID и так далее – неквалифицированные попытки аппаратного восстановления RAID или «неправильное» поведение оборудования в нештатной ситуации. В ряде случаев такие блоки можно получить путем пересчета из определенного набора блоков других дисков. Такие случаи с RAID5 – высшая математика восстановления данных даже для самых опытных специалистов. Для восстановления таких массивов требуется программирование собственных алгоритмов, для обработки данной конкретной ситуации. То есть разработка средств восстановления RAID5 в ряде случаев ведется для восстановления текущего заказа.

Даже среди специализирующихся на восстановлении данных компаний далеко не все справятся с подобными задачами.

  • Иногда такие массивы могут поступать в «полуживом» состоянии. То есть после пересборки или ребилда клиент увидел, к примеру, поврежденный раздел или частично поврежденные данные. Это тот самый, обещанный выше, случай, который выделяет «софтовые» проблемы на RAID5, по сравнению с остальными носителями. Особенность таких логических проблем в том, что они вовсе не логические с точки зрения целостности разделов, файлов и папок. Они являются следствием разрушения логики массива. И совершенно недопустимо продолжать работать с таким разделом или пытаться исправлять на нем ошибки какими-то сканирующими утилитами. Единственным шансом в такой ситуации будет признание некорректной сборки массива и обращение к профессионалам. Может, они еще могут что-то исправить.

Классический пример или как не надо делать

К сожалению, иногда «недостачи» нужных блоков нечем возмещать. Самым, пожалуй, классическим примером такой ситуации может служить следующая картина. Пятидисковый RAID5 уже долгое время работает без одного диска. Кстати, очень часто это остается незамеченным. Иногда годами. (Этому диску не обязательно быть неисправным, он просто почему-то выпал из RAID’а) И вдруг после какого-то сбоя (пусть будет скачок напряжения или внеплановая перезагрузка сервера), данные становятся недоступными. Массив развален, хотя все диски «видны». За дело берется системный администратор. Он знает или думает, что знает, как все было собрано. И воссоздает прежнюю картину. То есть «вгоняет» все диски в RAID. Запускается инициализация. В такой ситуации она обязательно запустится. Контроллер может ничего не спрашивать. На выходе получаем убитый раздел: либо неразмеченная область, либо «все как-то некорректно отображается». Во втором случае можно еще и check-disk пустить в дело. Но тут уж и без него достаточно… Что произошло? Один из дисков, сильно устарев, не содержит ничего полезного. А после инициализации и на остальных дисках будет потерян объем, равный еще одному участнику – это произойдет из-за циклической перезаписи «неправильными» контрольными суммами – результат пересборки массива в неверном составе (Пятидисковый RAID5 получил в свой состав устаревшего участника, либо четыре диска из пяти объединились в новый RAID5, но уже на 4-х дисках.).

Полное восстановление данных в такой ситуации теоретически не возможно. Можно лишь бороться за частичный результат. И степень его «частичности» будет зависеть от множества обстоятельств: на сколько «неактуальным» оказался первый выпавший диск, какого типа данные важны, каков размер блока и так далее.

Этот пример можно считать типовым. С подобными ситуациями мы сталкиваемся регулярно. От случая к случаю различными будут лишь уровень массива, количество дисков, некоторые аспекты биографии данного оборудования, некорректные ребилды или инициализации прошли, правильное ли представление у хозяина оборудования о составе и уровне RAID-массива, включены в процесс неактуальные диски или попросту посторонние, например hot-spare и прочее и прочее. Общим здесь является одно – некорректные попытки «самолечения» усугубили проблему. И теперь она либо требует разработки специальных средств или вовсе не решаема.

Я буду рад, если эта страшилка, приведенная под занавес, запомнится читателю статьи. И, возможно, при схожих обстоятельствах удержит от необдуманных действий и позволит сохранить важные данные. Ну и всем без исключения желаю делать backup :)

 

Вячеслав Мочалов, 8 февраля 2012 года

 

При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.

Остались вопросы?

Оставьте телефон и менеджер перезвонит Вам

30 October 2014

Что такое уровень RAID-5 Enhanced (Продвинутый)

Примечание: данный уровень RAID доступен не во всех контроллерах

RAID level-5E подобен уровню RAID level-5, только со встроенным в массив резервным диском. Подобно RAID level-5, этот уровень RAID создает ряды данных и контрольных сумм во всех дисках массива.

RAID level-5E предлагает улучшенную защиту и производительность. При применении RAID level-5E, емкость логического тома уменьшается на емкость двух физических дисков массива (один для контроля, один резервный).

Чтение и запись данных на четыре физических диска являются более эффективными, чем на три физических диска и один простаивающий для «горячей» замены (hot spare). Таким образом, RAID level-5E обеспечивает большую производительность, чем RAID level-5.

Резервный HDD является частью массива RAID level-5E, как показано далее на примере. При такой конфигурации, вы не сможете использовать его с другими массивами. Если вам необходим запасной диск для другого массива, вам следует иметь еще один резервный HDD.

RAID level-5E требует, как минимум, четыре диска и, в зависимости от уровня прошивки и их емкости, поддерживает от 8 до 16 носителей. RAID level-5E использует определенную прошивку.

Примечание: для RAID level-5E, вы можете использовать только один логический том в массиве. Максимальное количество – семь логических томов на контроллер.

Дальнейшая иллюстрация является примером логического диска RAID level-5E

Пример RAID level-5 Enhanced

Начнем с четырех физических hdd

четыре физических hdd

Создадим массив, использую все четыре hdd

массив из четырех дисков

Затем создадим логический том (назовем его 1) внутри массива. Заметьте, что выделенный резервный диск является свободным (назовем его 2) и показан под логическим томом.

логический том внутри массива

Ряды данных распределяются по дискам, создавая блоки в логическом томе. Контрольные суммы (обозначим *) находятся в рядах данных и перемещаются из диска в диск также как в RAID level-5. Заметьте, что резервный диск не разделен.

raid 5e

При поломке физического диска массива, данные с него перестраиваются. Массив подвергается сжатию, и выделенный резервный диск становится частью массива. Логический том остается RAID level-5E.

raid5e с неисправным диском

При замене неисправного диска, данные для логического тома распаковываются, и все возвращается к первоначальной схеме.

При использовании логического тома RAID level-5E в конфигурациях «обход отказа» (failover – способность системы эластично реагировать на отказ какого-либо устройства, переключаясь на другое) или кластерной (cluster), логический том не восстанавливается во время сжатия или распаковки.

Преимущества и недостатки RAID level-5E

Преимущества Недостатки
100% защита данных

Большая емкость физических дисков по сравнению с RAID-1 или RAID -1E

Большая производительность, по сравнению с RAID-5

Более низкая производительность, чем в RAID-1 или RAID -1E

Поддержка только одного логического диска на массив

Невозможность совместного использования резервного диска с другими массивами

Поддержка не всех контроллеров

Что такое уровень RAID-5 EE

Примечание: поддерживается не во всех контроллерах

RAID level-5EE подобен массиву RAID-5E, но с более эффективным использованием резервного диска и более коротким временем восстановления. Подобно RAID level-5E, этот уровень RAID-массива создает ряды данных и контрольных сумм во всех дисках массива.

Массив RAID-5EE обладает улучшенной защитой и производительностью. При применении RAID level-5E, емкость логического тома ограничивается емкостью двух физических винчестеров массива (один для контроля, один резервный).

Резервный диск является частью массива RAID level-5EE. Тем не менее, в отличие от RAID level-5E, использующего неразделенное свободное место для резерва, в RAID level-5EE в резервный диск вставлены блоки контрольных сумм, как показывается далее на примере. Это позволяет быстрее перестраивать данные при поломке физического диска. При такой конфигурации, вы не сможете использовать его с другими массивами. Если вам необходим запасной диск для другого массива, вам следует иметь еще один резервный винчествер.

RAID level-5E требует как минимум четырех дисков и, в зависимости от уровня прошивки и их емкости, поддерживает от 8 до 16 дисков. RAID level-5E обладает определенной прошивкой.

Примечание: для RAID level-5EЕ, вы можете использовать только один логический том в массиве.

Дальнейшая иллюстрация является примером логического тома RAID level-5EЕ

Пример RAID level-5ЕЕ

Начнем с четырех физических дисков

четыре физических hdd

Создадим массив, использующий все четыре диска

массив из четырех дисков

Ряды данных распределяются по дискам, создавая блоки в логическом томе. Контрольные суммы (обозначим *) находятся в рядах данных и перемещаются также как в RAID level-5Е. Резервный диск (обозначим S) включает в себя блоки контрольных сумм, и также перемещается с диска на диск.

raid5ee

При поломке одного из винчестеров, данные с него перестраиваются. Массив подвергается сжатию, и выделенный резервный диск становится частью массива. Логический диск остается RAID level-5ЕЕ.

raid 5ee с неисправным диском

При замене неисправного жесткого диска, данные для логического тома распаковываются, и все возвращается к первоначальной схеме.

Преимущества и недостатки RAID level-5EЕ

Преимущества

  • 100% защита данных
  • Большая емкость физических дисков по сравнению с RAID-1 или RAID -1E
  • Большая производительность по сравнению с RAID-5
  • Более быстрое восстановление RAID по сравнению с RAID-5Е

Недостатки

  • Более низкая производительность, чем в RAID-1 или RAID-1E
  • Поддержка только одного логического тома на массив
  • Невозможность совместного использования резервного диска с другими массивами
  • Поддержка не всех контроллеров

При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.

30 October 2014

RAID 5 может быть обречен в 2009 году

История, представленная в режиме онлайн, предрекает гибель RAID 5 в 2009 году. Очевидно, что с емкостью пространства современных жестких дисков интерфейса SATA ныне достигших 2-терабайтного объема, вероятности ошибки чтения во время реконструкции диска RAID 5 станет неизбежной.

жесткие диски

В соответствии с Zdnet, SATA диски часто имеют скорости невосстанавливаемого считывания (URE) величиной 10^14. Это говорит о том, что жесткие диски не смогут прочитать сектор каждые 100,000,000,000,000 бит. С емкостями жестких дисков, величина которых в 2009 году предполагает достигнуть отметки в два терабайта, вероятности ошибки считывания становятся практически неизбежными во время восстановлении с 7 накопителя при сбое жесткого диска массива RAID 5. Как утверждается, до столкновения с такой ошибкой считывания во время процесса реконструкции, раздел массива будет объявлен нечитаемым и процесс восстановления будет остановлен. Очевидным является также то, что все 12 терабайт информации, хранимой на дисках, будут потеряны… или, по меньшей мере, потребуются некоторые дополнительные усилия и знания для восстановления информации.

RAID 5 описывается как расслоенный набор с распределенной четностью, который защищен против сбоя одного диска. Когда происходит сбой диска в наборе RAID 5, неисправный диск может быть заменен, данные могут быть восстановлены с распределенной четности и в конечном итоге RAID массив восстановлен. Если выходит из строя более одного диска, то данные в массиве будут потеряны. Для некоторых, после выхода из строя одного диска это может быть проблемой, так как массив в течение этого времени будет уязвим к большему количеству сбоев жесткого диска. Использование вместо этого массивов RAID 6 может казаться подходящим решением, где RAID 6 позволяет иметь два возможных вышедших из строя жестких диска вместо лишь одного. Но увеличенное резервирование может иметь неэффективную стоимость. К тому же, по мере того как емкости жестких дисков будут расти в геометрической прогрессии, год за годом, даже RAID 6 может вскоре стать склонным к тем же проблемам. Когда емкость одного диска будет составлять 12 терабайт, то даже копирование с диска на диск будет сталкиваться с данными ошибками чтения жесткого диска. Использование жестких дисков с меньшей емкостью и повышенными скоростями невосстанавливаемого считывания смогут помочь избежать данных потенциальных проблем.

Проблемы возникают из-за большего сжатия плотности данных, размещенных на дисковых пластинах. Используя традиционные средства, битовые магнитные полюса часто могут пропускать свою полярность в другие прилегающие биты, вызывая переход в соседнем нормальном бите. Производители перешли к методам перпендикулярной записи, чтобы избежать таких проблем и увеличить плотность, но даже этот метод имеет свои физические ограничения. Производители в будущем будут пытаться искать более креативные решения для того, чтобы превысить размер в 2 терабайта.

При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.

30 October 2014

Использование RAID Reconstructor для программной сборки RAID5

Как и во всех других случаях домашних попыток собрать RAID5 сразу оговорюсь, что эта статья не призвана помочь в любой ситуации. Мы уже рассматривали, как и при каких проблемах RAID5 нам поможет R-Studio. Теперь разберемся, как мы можем использовать такую утилиту, как RAID Reconstructor.

Как и прежде, для простоты предположим, что нам нужно восстановить данные с 3-хдискового RAID5 с одним NTFS разделом на весь массив. Делаем мы это на ПК, подключенном в сеть с доступным дисковым пространством достаточного объема.

1. Покупаем, устанавливаем и регистрируем RAID Reconstructor. Конечно, ни один байт «проблемных» дисков не должен при этом измениться. То есть мы не устанавливаем никакой софт на те диски, с которых будем что-то восстанавливать.

2. Подключаем, если это еще не сделано, наши три диска к ПК так, чтобы они отдались в систему отдельными устройствами. Запускаем RAID Reconstructor

3. В поле «RAID Type» выбираем RAID-5. В поле «# drives» выставляем 3 – количество дисков в массиве.

Выбор уровня RAID-массива

4. Выбираем три наших диска в окнах выбора «Name» напротив «Drive1», «Drive2» и «Drive3». Нажимаем кнопку «Open drives».

Выбор устройств – участников RAID5

5. В меню «Tools» запускаем «XOR-test».

Запуск XOR-теста

Полученный результат должен выглядеть примерно так:

Положительный результат XOR-теста

Если поле зеленое, это значит, что диски проходят XOR-тест, то есть синхронизированы как RAID-5 и могут участвовать в софтовой сборке. Передвигая бегунок сверху вниз можно убедиться, что карта зеленая на всей поверхности дисков. Белые вкрапления или участки – не в счет. Это всего лишь пустые места. А вот если попадаются красные вкрапления или участки, или карта выглядит вот так:

Отрицательный результат XOR-теста

 – это может означать, что массив рассинхронизирован, то есть какой-то из его дисков некоторое время не участвовал в работе, а значит, его содержимое неактуально. А может быть, это вообще не RAID5. Подробнее это мы разбирали в статье «Восстановление RAID5».

В любом случае, такой массив не следует считать подлежащим «домашнему» восстановлению. И правильней всего будет обратиться к профессионалам по восстановлению данных. Также не следует продолжать самостоятельные попытки, если программа на любом этапе своей работы станет выдавать ошибки чтения или так называемые ошибки ввода/вывода. Это значит, что состояние дисков не так уж идеально, а это тоже выводит такой RAID за область применения данной статьи, так как не выполняется важное условие – «все диски исправны».

Если на этом этапе мы не столкнулись с какими-нибудь проблемами, продолжим. Для этого закрываем окно «XOR-test»

6. Жмем «Analyze». В появившемся окне выбираем «Run Differential Entropy pre-test and review the settings» или «Review the settings». В первом случае программа попытается отобрать наиболее вероятные значения настроек, во втором – выдаст более полный список возможных вариантов.

Возможные настройки RAID5

Опытный пользователь может его дополнить или наоборот сократить. Остальным же следует просто нажать  – «Next».

На таком малом количестве дисков как у нас, анализ пройдет очень быстро. (Кстати, поэтому и не стоило на предыдущем шаге снимать какие-либо галочки). И в результате мы увидим окно:

положительный результат поиска алгоритма сборки RAID5

Главным для нас здесь является, что внизу экрана написано: «RECOMMENDATION: Choose entry #1», а в верхней части экрана раскрыто содержание этого «первого варианта». Там перечислены все необходимые настройки RAID5: перечислен правильный порядок дисков, назван тип алгоритма записи и определен размер блока. Используйте полученный результат для виртуальной сборки RAID.

Если же надписи «RECOMMENDATION: Choose entry #1» вы не увидели – значит, программа не смогла однозначно определить настройки массива. Это возможно по многим причинам и почти все они приводят к необходимости профессионального вмешательства.

Вячеслав Мочалов, 24 февраля 2012 года

При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.

11 August 2014

Восстановление RAID 0

Что делать если повредился RAID0 массив? Как восстановить данные с RAID 0 массива, если один или несколько дисков вышли из строя? Как достать данные из сломанного страйпа?

Мы предоставляем услуги по восстановлению информации с RAID массивов и систем хранения данных при любых неисправностях. Наш опыт, специалисты и наше оборудование позволяют нам решать даже самые сложные случаи. Если у вас проблемы с RAID 0, приносите к нам – мы поможем восстановить информацию.

[Фотогалерея]

Специалисты по восстановлению данных:

[Специалисты]

Схема работы

[Как_Мы_Работаем]

На данный момент восстановление RAID0 является одной из самых востребованных услуг. И это вполне объяснимо чрезвычайной распространенностью данного вида массивов. Действительно, почти любая современная материнская плата может похвастаться функцией поддержки RAID0 и 1. RAID 5 в этом смысле все же отстает. Да и простые контроллеры для подключения 2-х – 4-х SATA или SAS дисков, которые мы и RAID-контроллерами не считаем, как правило, дают возможность пользователям собрать аппаратный RAID 0. Самая распространенная в России ОС Windows тоже подливает масла в огонь, предоставляю возможность продвинутым пользователям создавать софтовые RAIDы 1-го и нулевого уровней.

Значительным образом на популярность RAID0 влияют все более распространяющиеся внешние сетевые устройства хранения данных на 2-х и более дисках. Великолепные производители подобных устройств, такие как QNAP, synology, WD и пр. регулярно радуют нас новыми более совершенными моделями. На двухдисковых образцах этого чуда техники почти всегда можно встретить RAID 0.

RAID 0 Disk missing

Откуда такая народная любовь к страйпу? Преимущества RAID0 – это наивысшая производительность и… И все. Никаких других преимуществ выделить не могу. Разве что невысокую стоимость.

Как устроен RAID0 и чем он плох

RAID0 (Stripe) – два и более диска, объединенные в единую дисковую систему, где данные пишутся поблочно. При этом RAID0 не содержит никаких элементов избыточности: нет ни заркалирования, ни контрольных сумм. Только блоки данных. Дисковая система создается и управляется либо RAID-контроллером (аппаратные RAID-массивы), либо операционной системой (софтовые/программные RAID-массивы). Одновременность чтения/записи блоков с данными, располагающихся на всех дисков дает нам на выходе повышенную производительность.

RAID-массивы 0-вого уровня будут отличаться друг от друга:

  • Количеством и размером дисков
  • Порядком дисков
  • Размером блока массива
  • Наличием/отсутствием смещений и разрывов в записи данных
  • Наличием /отсутствием областей со служебной информацией RAID’а

Схема RAID 0 Stripe массива

Из рисунка видно, что теоретически возрастание производительности RAID0 пропорционально количеству дисков массива. Но очевидно, что взамен этому страдает надежность такой системы. И это не пустые слова, и совершенно напрасно многие этому не придают никакого значения. Цифры это легко подтвердят.

Предположим, вероятность (P1) сбоя винчестера в первый же год службы равна 0,1. То есть у нас есть 90% на то, что наш диск прослужит нам более года. Другими словами, лишь каждый десятый диск станет проблемным в течение года после покупки. К слову, анализ доступной информации говорит, что такое предположение можно считать оптимистичным. На самом деле все гораздо хуже.

Итак, формула надежности жесткого диска на первый год выглядит очень просто:

  • R1 = 1 – P1 = 0,9.

Азы теории вероятностей позволяют нам изобразить формулу для n дисков:

  • Rn = (1-P1)n= 0,9n

Возможно, пользователь RAID 0 на двух дисках легко смирится с относительно незначительным уменьшением надежности:

  • R2 = 0,92 = 0,81

Но скорей всего, он даже и не задумался о такой мелочи, как одна десятая от надежности. А вот владельцу страйпа на 8-ми дисках стоило бы побеспокоиться:

  • R8 = 0,98 = 0,43

То есть за существенный и, безусловно, приятный прирост производительности мы получаем более чем двукратное падение надежности RAID 0 на восьми дисках по сравнению с одним hdd. Да о чем речь?! Хранилище данных с надежностью 0,43?! Как это возможно, ведь по-русски это значит, «скорей всего» в течение года случится сбой. Может, формула ошибочна?! К сожалению нет. Она верна. Ошибаются те, кто не принимает в расчет такую формулу. Как и то, что любой из возможных сбоев HDD наверняка приведет к потере данных, так как RAID-0 не содержит в себе никакой избыточности и ни секунды не работает без хотя бы одного участника.

Причины потери данных на RAID 0

Так сложилось, что на данный момент уже написана статья о «Восстановлении RAID 5», где подробно описаны возможные причины потери данных на RAID-массиве. Нулевой уровень рейд массива в данном контексте никаких принципиальных особенностей не вносит, так что причины все те же:

Логические (программные) проблемы

Здесь все то же самое, что и с RAID 5 или с любым другим носителем.

Внешние воздействия

И здесь все один в один, как уже описывалось: хранилища горят, тонут, падают и т.д. Отметить можно лишь то, что RAID-0, как более хрупкое с точки зрения надежности хранилище, может не выдержать совсем незначительного кратковременного воздействия, недостаточного для развала RAID 5.

Потеря управления массивом (неисправность материнской платы, RAID-контроллера, сетевого хранилища и т.д.)

RAID 0 offline

Здесь особенностью может быть как раз те самые случаи, когда речь идет не о поломке оборудования, а о каком-то кратковременном сбое. RAID-5 – структура более живучая, мог отреагировать выбросом диска, запуском самодиагностики, rebuild’ом или восстановлением на hot-spare. У RAID0 таких возможностей нет. Массив просто «развалится».

Человеческий фактор

Здесь также можно сказать, что все то, что убьет RAID5 смертельно и для страйпа. Но! Перечень штатных операций контроллера обычно гораздо меньше. RAID0 нельзя восстановить практически никаким процессом RAID-контроллера. Очевидно, нет смысла менять диски на новые, запускать ребилды и прочие операции. Справедливости ради следует отметить, что у пользователей RAID0 гораздо меньше соблазнов по самолечению в сравнении с владельцами «надежных» RAID’ов с избыточностью. И, как правило, страйпы поступают к нам в гораздо менее «залеченном» состоянии.

Потеря участника массива

Очевидно, выход из строя любого количества дисков приведет к потере данных.

Восстановление данных с RAID0

Как обычно, у нас две дороги: можно пытаться восстановить данные самостоятельно, можно обратиться к профессионалам. Рассмотрим обе.

1. Самостоятельное восстановление данных с RAID 0.

Думаю, продвинутому пользователю ПК, не профессионалу в восстановлении данных, вполне могут поддаться некоторые случаи восстановления RAID 0. Но сразу оговорюсь. Действительно важные данные лучше все-таки доверить профессионалам, независимо от кажущейся простоты предстоящих работ. Если вы таковым не являетесь, то даже очень аккуратное выполнение шагов на пути к восстановлению не исключает на 100% какие-то возможные ошибки, подводные камни вашего конкретного случая или форс-мажоры в процессе работ. Все это может ухудшить качество результата восстановления и уменьшить вероятность его положительного исхода даже при последующем обращении в специализированную лабораторию.

Итак, с чем же можно справиться в домашних условиях.

Во-первых, логические проблемы на RAID 0. Если пропали/стерты/повреждены файлы или папки, а может, разделы целиком, при этом сам RAID 0 полностью исправен (Как правило, гарантировать это можно, если вы знаете, как возникла проблема. Например, сами ошибочно удалили логический раздел или папку.), то для восстановления данных с такого страйпа можно использовать те же средства, что и для программного восстановления с любого другого носителя. Здесь важно, чтобы у вас уже был опыт решения подобных проблем, скажем, на жестком диске. Самым универсальным средством из общедоступных является R-Studio, и если она вам уже знакома, можно и на сей раз обойтись именно этой утилитой. Останется получить доступ к восстанавливаемым разделам с гарантией работы только на чтение – не инсталлируем программы туда, откуда собираемся что-то восстанавливать, не загружаем ОС с проблемных разделов, и копируем данные исключительно на другие физические носители. Ни в коем случае не производим на проблемном разделе никаких изменений! Все это вполне под силу любому продвинутому пользователю ПК, тем более с опытом восстановления данных в случаях софтовых проблем.

Во-вторых. Если в результате какой-то из описанных ранее причин потери данных на RAID 0 (имеются в виду пункты со 2-го по 4-й), вы получили ситуацию, когда все диски аппаратно исправны, а массив «развален», можно произвести сборку виртуального страйпа. Для этого необходимо подключить все диски таким образом, чтобы они были отданы в систему отдельными устройствами. То есть мы, минуя всевозможные RAID-контроллеры, подключаем наши диски непосредственно по SATA/SAS/IDE/FC/SCSI и так далее. На этом этапе уместно подключить и диск-приемник. То есть диск, достаточного объема, на который вы хоте ли бы восстановить данные с развалившегося RAID 0. Если на один диск данные не уместятся, то допустимо и RAID собрать, только, во-первых, не запутайтесь в носителях – любые изменения на дисках, с которых нужно восстанавливать данные, могут оказаться фатальными. Во-вторых, подумайте хорошенько, нужен ли вам новый RAID 0 :).

Итак, диски-источники подключены, определены в системе и готовы к чтению. Собираем виртуальный страйп. Для этого можно использовать все ту же r-studio. А как это делать уже подробно разбиралось в статье «Программная сборка RAID с помощью R-Studio».

Что может помешать
Возможны некоторые подводные камни. Например, не удалось определить правильные настройки RAID 0: порядок дисков и/или размер блока. Или присутствует смещение. То есть RAID не на всем дисковом пространстве, а начиная с определенного сектора. Как правило, одного и того же для всех дисков. Но даже из этого правила бывают исключения. Также могут присутствовать разрывы, то есть области дисков, не выделенные под пространство RAID’а. Это могут быть десятки тысяч секторов. И не учитывать это при сборке нельзя, так как часть данных будет сдвинута относительно файловой системы, а, следовательно, вместо них восстановится мусор. Такие особенности могут определяться маркой RAID-контроллера или принципами работы внешнего устройства. Например, сборка массива на регионах, а не на дисках целиком свойственна подавляющему большинству внешних хранилищ. Иногда в RAID 0 можно встретить нестандартный и неудобный для работы размер блока – 1 сектор (512 байт). А иногда встречаются и вовсе побайтные преобразования. Например, мне встречались RAID’ы, в которых контроллером была осуществлена операция побайтного инвертирования – в каждой паре байтов четный и нечетный поменяны местами. Это значит, что, не «заметив» такой особенности, вы не только ни одного файла с таких дисков не вытащите – слова Microsoft не найдете!

Если вам «посчастливилось» наткнуться на какую-то из этих особенностей вашего RAID-массива, не думаю, что у вас большие шансы на успешное восстановление данных в домашних условиях. Вам следует обращаться в специализированную лабораторию.

Две страшные ошибки или чего никогда не стоит делать с RAID 0

Ну и совсем не следует предпринимать:

  • хоть какие-то действия с дисками из RAID 0, когда есть подозрения, что не все диски полностью исправны. Так как для удачного восстановление RAID0 принципиальное значение имеет содержимое всех без исключения дисков, нам очень важно, чтоб в ходе проводимых нами работ мы смогли получить полные копии всех участников страйпа. И сложность, и перспективность этого процесса очень зависят от того, что было сделано до нас. И если правильные и предельно аккуратные попытки домашнего восстановления скорей всего(!) не повлияют на содержимое дисков, то работа с неисправным носителем в домашних условиях наверняка значительно ухудшит его состояние. А так как в RAID0 нет никакой избыточности и каждый носитель на вес золота, я категорически против таких попыток самолечения;
  • никогда и никакого аппаратного восстановления. Все, что я думаю про восстановление RAID средствами контроллера было подробно изложено в более ранней статьеИ если аппаратное восстановление RAID 5 я называл шаманством и авантюризмом, то применительно к страйпу это просто вредительство. Шансы на успех по-прежнему минимальны. А вот цена ошибки значительно выше. Почти любой неудачный исход ухудшит дальнейшие перспективы восстановления, так как у RAID 0 нет никакой избыточности, то есть потерю любого количества блоков данных даже теоретически нечем возместить. На практике, аппаратно «пересобранный» в домашних условиях RAID 0 может вообще не подлежать дальнейшему восстановлению или восстановиться частично.

2. Восстановление RAID 0 в специализированной лаборатории

Если нужно хорошо сделать что-то важное и у вас нет времени на то, чтобы становиться профессионалом в этом вопросе, для восстановления RAID массива следует обратиться к тем, кто им уже является. Самый надежный и правильный способ восстановить информацию – это обратиться за помощью в специализированную лабораторию по восстановлению данных.

Чистая комната для восстановления жестких дисков

Мы предпримем следующее (шаги те же, что и в случае RAID 5, просто с некоторыми уточнениями):

  1. Внимательно выслушиваем показания «потерпевшего». Зачастую они очень важны для выдвижения и подтверждения гипотез о составе RAID’а и картины произошедшего.
  2. Тестируется физическое состояние всех дисков из RAID 0и определяется круг допустимых операций с ними.
  3. Исправные диски подключаем к системе, минуя все возможные RAID-контроллеры, исключая какие-либо редактирования их содержимого. В мощной лаборатории восстановления данных эта задача будет решена для любого количества дисков, в отличие от «домашних» попыток.
  4. В HEX-редакторе производится анализ содержимого дисков. Находятся контрольные точки (MBR, boot-сектора, заголовки файловых систем, границы разделов), позволяющие подтвердить или опровергнуть информацию о составе и уровне RAID-массива. Иногда страйпом называют то, что таковым не является, например SPAN или группу независимых дисков (JBOD). Да, бывают ситуации, когда RAID5 на шести дисках оказывается пятидисковым массивом с hot-spare или, например, совокупностью страйпов и зеркал. Мы сталкивались с тем, что за RAID0 выдавали деградированный RAID5. То есть RAID5 лишился одного своего участника еще год или два назад и в таком состоянии достался нынешнему владельцу.
  5. Выяснив общую картину пазла, приступаем к его сборке. Конечно, мозаика лучше всего собирается по частям каких-либо структурированных узнаваемых цепочек достаточной длины. Это может быть файловая таблица или данные некоторых типов. Чем больше опыт специалиста, тем больше у него возможностей найти на дисках участки, пригодные к подобному анализу. На этом этапе можно определить величину блоков данных, их порядок следования и «узор» контрольных сумм. Также можно разобраться с наличием смещений и разрывов в размещении данных на HDD.
  6. Выясняем, достаточно ли нам содержимого исправных дисков. Если нет, то восстанавливаем неисправные. При этом нам важно получить их полный посекторный образ.
  7. Если теперь всего хватает, то можно приступить к самой софтовой сборке. То есть программными средствами имитируется работа RAID-контроллера по правильному алгоритму, на правильном составе дисков. То есть мы выстраиваем диски в нужном порядке, и задаем все параметры алгоритма. Какой софт при этом использовать – не принципиально. Для большей части случаев запросто сгодится все та же R-Studio, позволяющая собрать из одного и того же набора дисков десятки тысяч различных RAID’ов, где правильным будет один. Если имеют место какие-то подводные камни, то профессионалы с опытом разберутся и с ними. Для многих проблем уже разработаны собственные средства. Если проблема новая – средство для ее решения будет разработано в кратчайшие сроки. Конечно, в этих случаях принципиальное значение имеет интеллектуальная и техническая мощь исполнителя.
  8. Возможно, что даже при всех исправных (или восстановленных) дисках мы можем недосчитаться каких-то блоков данных. Эта «недостача», может иметь циклических характер и является последствием каких-то некорректных процедур: инициализации, Rebuild’ы, пересборки RAID и так далее – неквалифицированные попытки аппаратного восстановления RAID или «неправильное» поведение оборудования в нештатной ситуации. В отличие от массивов с избыточностью, для RAID0 восполнять такие недостачи нечем. И если нехватка блоков – это установленный факт, то придется мириться с тем, что восстановление будет частичным.
  9. В зависимости от целесообразности в той или иной ситуации результатом удачно выполненных работ будут извлеченные из RAID0 данные или полный образ работающих разделов с возможностью возобновления работоспособности ОС и всех установленных программ.

Краткий итог

Во-первых, хочется верить, что выбирая в качестве хранилища данных RAID0, вы понимали, что это выбор в пользу скорости за счет надежности. Возможно, речь идет о неважных или легко восполнимых данных. Возможно, у вас реализовано решение автоматического, регулярно выполняемогорезервирования на другой, более надежный носитель.

Во-вторых, если проблема случилась и данные на RAID0 все-таки нужно восстанавливать, то в ходе самостоятельных попыток следует помнить о важном правиле – никакие ваши действия не должны менять ни содержимого, ни самого физического состояния дисков массива. И два простых логичных следствия этого правила: работаем только с исправными носителями и только на чтение. То есть программы/процедуры/операции, суть и безопасность которых полностью не ясна, не выполняем.

В-третьих. Если данные важны, или есть сомнения в полной исправности всех дисков RAID0, а также, если самостоятельные попытки безуспешны или вовсе невозможны (например, у вас нет необходимого опыта или оборудования), обратитесь к профессионалам. Многое прояснится сразу – в процессе диагностики. И вы будете избавлены от необходимости двигаться на ощупь, не представляя куда.

Остались вопросы?

Оставьте телефон и менеджер перезвонит Вам

10 August 2014
Обращайтесь в лучшую компанию по восстановлению данных

Закажите бесплатную диагностику