Александр Мутовин
21.02.2019
308

Диагностика жестких дисков в операционных системах Linux

Современные жесткие диски обладают технологией S.M.A.R.T. C момента начала работы диск анализирует свои параметры и записывает их результат в служебную зону накопителя. Проанализировав эти данные можно узнать текущее состояние диска, критические ошибки. На этой информации можно спрогнозировать целесообразность дальнейшей эксплуатации. В Linux системах есть две утилиты способные прочитать данные состояния диска. Первая утилита smartctl. Вторая […]

Современные жесткие диски обладают технологией S.M.A.R.T.

C момента начала работы диск анализирует свои параметры и записывает их результат в служебную зону накопителя. Проанализировав эти данные можно узнать текущее состояние диска, критические ошибки. На этой информации можно спрогнозировать целесообразность дальнейшей эксплуатации.

По статистике спрогнозировать 100% отказ работоспособности HDD на основе полученной информации не получится. Это обусловлено множеством факторов. Вероятность выхода из строя в ближайшее время равна чуть более 50%.

В Linux системах есть две утилиты способные прочитать данные состояния диска.

Первая утилита smartctl. Вторая smartd

С помощью утилиты Smartctl можно посмотреть состояние диска на данный момент времени.

Утилита Smartd – это демон, опрашивающий состояние диска каждые 30 минут. Собранные данные пишутся в лог файл.

Частота опроса жесткого диска настраивается в конфигурационном файле. Файл лога по умолчанию «/var/log/messages»

Описанные две утилиты находятся в одном пакете «Smartmontools».

По умолчанию в операционную систему Centos этот пакет не установлен. Произведем его установку командой:

# yum install –y smartmontools

После установки утилит можно посмотреть полную информацию о жестком диске командой:

# smartctl –all /dev/sda
Информация о жестком диске

В самом начале полученной информации выводится описание жесткого диска.

Тут следует остановиться на таких пунктах  как:

  1. Модель устройства
  2. Серийный номер
  3. Версия прошивки
  4. Емкость диска
  5. Размер сектора
  6. Скорость вращения (в нашем случае это твердотельное устройство)
  7. Формфактор (в дюймах)
  8. Устройство в базе данных Srart (у нас отсутствует)
  9. Версия ATA.
  10. Версия Sata (тут можно увидеть скорость передачи данных)
  11. Время установленное на жестком диске
  12. Поддерживает ли устройство Smart
  13. Включен ли Smart на устройстве.

В следующем разделе идет предварительная  Smart информация устройства

Smart информация
  1. SMART overall-health self-assessment test result: PASSED – Результат теста самооценки SMART общего состояния здоровья: ПРОЙДЕН.
  2. General SMART Values – общие данные SMART. Тут описываются общие настройки и рекомендуемые параметры настройки.

Информация о состоянии жесткого диска находится в следующем  разделе:

Атрибуты жесткого диска

Ниже рассмотрим название и параметры атрибутов.

  1. ID – id атрибута. В Smart у каждого атрибута присутствует свой номер.
  2. Attribute Name – Имя атрибута
  3. FLAG – каждый атрибут имеет специальный флаг, назначенный производителем.
  4. Value – абсолютное  текущее значение атрибута (оценка атрибута диска на основе Raw_value. Измеряется в условных единицах). Низкое значение говорит о быстрой деградации диска или о возможном скором сбое. т.е. чем выше значение Value атрибута, тем лучше. Это значение атрибута нужно сравнивать с пороговым (threshold) значением. Если это критический атрибут и значение ниже порогового — нужно проводить замену диска.
  5. Worst – Самое низкое значение атрибута Value за жизненный цикл диска. Значение может изменяться на протяжении жизни диска, и не должно быть ниже или равным пороговому значению (threshold). По нему нельзя однозначно судить о здоровье диска, его необходимо сравнивать со значением Thresh.
  6. Thresh – значение которого должен достигнуть параметр  Value для того, чтобы состояние атрибута было признано критическим.
  7. Type – тип атрибута. Существует 2 типа атрибута. Критические (Pre-fail) и не критические (Old_age)
Если значение VALUE стало меньше THRESH в случае типа  Pre-fail атрибута – существует, большая вероятность, что диск выйдет из строя в ближайшие 24 часа. Если значение VALUE стало меньше THRESH в случае Old_age атрибута – существует большая вероятность, что диск выйдет из строя т.к. выработан ресурс. Вот только когда – науке это неизвестно.
  • Updated – когда происходит обновление информации
  • When-failed– указывает на проблемы с атрибутом.
  • Raw_value – Объективное значение  атрибута (имеет связь с Value, Threshold и Worst значениями).
Практически все значения атрибутов измеряются в условных единицах (исключение могут составлять такие параметры как температура и.т.д)

Далее разберем что одначают, те или иные атрибуты из нашего примера.

  1. Reallocated Sectors Count – Число операций переназначения секторов. При обнаружении повреждённого сектора на винчестере, информация из него помечается и переносится в специально отведённую зону, происходит утилизация bad блоков, с последующим консервированием этих мест на диске. Этот процесс называют remapping. Чем больше значение Reallocated Sectors Count, тем хуже состояние поверхности дисков — физический износ поверхности. Поле raw value содержит общее количество переназначенных секторов.
  2. Power-On Hours – Время, проведённое устройством, во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ.
  3. Power Cycle Count – число циклов включения –выключения.
  4. Wear Leveling Count – количество циклов перезаписи и текущий уровень жизни SSD  в процентах.
  5.  Used_Rsvd_blk_Cnt_tot – Количества использованных резервных блоков и переназначенных секторов.
  6. program_fail_cnt_total – общее количество программных ошибок.
  7. Erase_fail­_Count_total – При преждевременном выходе ячеек из строя этот счётчик увеличивается. Большое число таких ячеек указывает на высокую вероятность того, что диск выйдет из строя преждевременно – задолго до достижения заложенного производителем числа циклов перезаписи.
  8. Runtime_bad_block – количество плохих блоков во время выполнения.
  9. Reported Uncorrect – Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
  10. Airflow Temperature – температрура жесткого диска.
  11. Hardware ECC Recovered – количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  12. UDMA_CRC_Error_Count –  Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода. Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой.
  13. Unknown_attribute  – неизвестные атрибуты
  14. Total LBAs Written – Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.

Далее сообщение «No Errors Logged» говорит о том, что ошибки не зарегистрированы.

Утилита Smartctl очень полезна для диагностики состояния жестких дисков.

В зависимости от типа жесткого диска в статистике могут отображаться различные атрибуты. Всю информацию по ним можно найти в Вики.

Посмотреть описание жесткого диска можно командой:

# smartctl – i /dev/sda

Узнать всю информацию об устройстве можно командой:

# smartctl –x /dev/sda
Вся информация об устройстве

Тут следует обратить внимание на информацию о температуре жесткого диска. В заголовке указывается как часто происходит замер температуры и как часто эта информация логируется.

Команда # smartctl –scan выводит список подключенных устройств.

 
avatar
  Подписаться  
Уведомление о

Остались вопросы?

Я - Компаниец Никита, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.

VoIP оборудование

ближайшие курсы

ближайшие Вебинары

ONLINE

Why Choose HUGE?

Unlimited pre-designed elements

Each and every design element is designed for retina ready display on all kind of devices

User friendly interface and design

Each and every design element is designed for retina ready display on all kind of devices

100% editable layered PSD files

Each and every design element is designed for retina ready display on all kind of devices

Created using shape layers

Each and every design element is designed for retina ready display on all kind of devices