Александр Мутовин
21.02.2019
794

Диагностика жестких дисков в операционных системах Linux

Современные жесткие диски обладают технологией S.M.A.R.T. C момента начала работы диск анализирует свои параметры и записывает их результат в служебную зону накопителя. Проанализировав эти данные можно узнать текущее состояние диска, критические ошибки. На этой информации можно спрогнозировать целесообразность дальнейшей эксплуатации. В Linux системах есть две утилиты способные прочитать данные состояния диска. Первая утилита smartctl. Вторая […]

Современные жесткие диски обладают технологией S.M.A.R.T.

C момента начала работы диск анализирует свои параметры и записывает их результат в служебную зону накопителя. Проанализировав эти данные можно узнать текущее состояние диска, критические ошибки. На этой информации можно спрогнозировать целесообразность дальнейшей эксплуатации.

По статистике спрогнозировать 100% отказ работоспособности HDD на основе полученной информации не получится. Это обусловлено множеством факторов. Вероятность выхода из строя в ближайшее время равна чуть более 50%.

В Linux системах есть две утилиты способные прочитать данные состояния диска.

Первая утилита smartctl. Вторая smartd

С помощью утилиты Smartctl можно посмотреть состояние диска на данный момент времени.

Утилита Smartd – это демон, опрашивающий состояние диска каждые 30 минут. Собранные данные пишутся в лог файл.

Частота опроса жесткого диска настраивается в конфигурационном файле. Файл лога по умолчанию «/var/log/messages»

Описанные две утилиты находятся в одном пакете «Smartmontools».

По умолчанию в операционную систему Centos этот пакет не установлен. Произведем его установку командой:

# yum install –y smartmontools

После установки утилит можно посмотреть полную информацию о жестком диске командой:

# smartctl –all /dev/sda
Информация о жестком диске

В самом начале полученной информации выводится описание жесткого диска.

Тут следует остановиться на таких пунктах  как:

  1. Модель устройства
  2. Серийный номер
  3. Версия прошивки
  4. Емкость диска
  5. Размер сектора
  6. Скорость вращения (в нашем случае это твердотельное устройство)
  7. Формфактор (в дюймах)
  8. Устройство в базе данных Srart (у нас отсутствует)
  9. Версия ATA.
  10. Версия Sata (тут можно увидеть скорость передачи данных)
  11. Время установленное на жестком диске
  12. Поддерживает ли устройство Smart
  13. Включен ли Smart на устройстве.

В следующем разделе идет предварительная  Smart информация устройства

Smart информация
  1. SMART overall-health self-assessment test result: PASSED — Результат теста самооценки SMART общего состояния здоровья: ПРОЙДЕН.
  2. General SMART Values – общие данные SMART. Тут описываются общие настройки и рекомендуемые параметры настройки.

Информация о состоянии жесткого диска находится в следующем  разделе:

Атрибуты жесткого диска

Ниже рассмотрим название и параметры атрибутов.

  1. ID – id атрибута. В Smart у каждого атрибута присутствует свой номер.
  2. Attribute Name – Имя атрибута
  3. FLAG – каждый атрибут имеет специальный флаг, назначенный производителем.
  4. Value – абсолютное  текущее значение атрибута (оценка атрибута диска на основе Raw_value. Измеряется в условных единицах). Низкое значение говорит о быстрой деградации диска или о возможном скором сбое. т.е. чем выше значение Value атрибута, тем лучше. Это значение атрибута нужно сравнивать с пороговым (threshold) значением. Если это критический атрибут и значение ниже порогового — нужно проводить замену диска.
  5. Worst — Самое низкое значение атрибута Value за жизненный цикл диска. Значение может изменяться на протяжении жизни диска, и не должно быть ниже или равным пороговому значению (threshold). По нему нельзя однозначно судить о здоровье диска, его необходимо сравнивать со значением Thresh.
  6. Thresh – значение которого должен достигнуть параметр  Value для того, чтобы состояние атрибута было признано критическим.
  7. Type – тип атрибута. Существует 2 типа атрибута. Критические (Pre-fail) и не критические (Old_age)
Если значение VALUE стало меньше THRESH в случае типа  Pre-fail атрибута — существует, большая вероятность, что диск выйдет из строя в ближайшие 24 часа. Если значение VALUE стало меньше THRESH в случае Old_age атрибута — существует большая вероятность, что диск выйдет из строя т.к. выработан ресурс. Вот только когда — науке это неизвестно.
  • Updated – когда происходит обновление информации
  • When-failed– указывает на проблемы с атрибутом.
  • Raw_value – Объективное значение  атрибута (имеет связь с Value, Threshold и Worst значениями).
Практически все значения атрибутов измеряются в условных единицах (исключение могут составлять такие параметры как температура и.т.д)

Далее разберем что одначают, те или иные атрибуты из нашего примера.

  1. Reallocated Sectors Count — Число операций переназначения секторов. При обнаружении повреждённого сектора на винчестере, информация из него помечается и переносится в специально отведённую зону, происходит утилизация bad блоков, с последующим консервированием этих мест на диске. Этот процесс называют remapping. Чем больше значение Reallocated Sectors Count, тем хуже состояние поверхности дисков — физический износ поверхности. Поле raw value содержит общее количество переназначенных секторов.
  2. Power-On Hours — Время, проведённое устройством, во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ.
  3. Power Cycle Count – число циклов включения –выключения.
  4. Wear Leveling Count – количество циклов перезаписи и текущий уровень жизни SSD  в процентах.
  5.  Used_Rsvd_blk_Cnt_tot — Количества использованных резервных блоков и переназначенных секторов.
  6. program_fail_cnt_total – общее количество программных ошибок.
  7. Erase_fail­_Count_total – При преждевременном выходе ячеек из строя этот счётчик увеличивается. Большое число таких ячеек указывает на высокую вероятность того, что диск выйдет из строя преждевременно – задолго до достижения заложенного производителем числа циклов перезаписи.
  8. Runtime_bad_block – количество плохих блоков во время выполнения.
  9. Reported Uncorrect — Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
  10. Airflow Temperature – температрура жесткого диска.
  11. Hardware ECC Recovered — количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  12. UDMA_CRC_Error_Count —  Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода. Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой.
  13. Unknown_attribute  — неизвестные атрибуты
  14. Total LBAs Written — Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.

Далее сообщение «No Errors Logged» говорит о том, что ошибки не зарегистрированы.

Утилита Smartctl очень полезна для диагностики состояния жестких дисков.

В зависимости от типа жесткого диска в статистике могут отображаться различные атрибуты. Всю информацию по ним можно найти в Вики.

Посмотреть описание жесткого диска можно командой:

# smartctl – i /dev/sda

Узнать всю информацию об устройстве можно командой:

# smartctl –x /dev/sda
Вся информация об устройстве

Тут следует обратить внимание на информацию о температуре жесткого диска. В заголовке указывается как часто происходит замер температуры и как часто эта информация логируется.

Команда # smartctl –scan выводит список подключенных устройств.

avatar
  Подписаться  
Уведомление о

Остались вопросы?

Я - Першин Артём, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.

VoIP оборудование

ближайшие курсы

ближайшие Вебинары

10 доводов в пользу Asterisk

Распространяется бесплатно.

Asterisk – программное обеспечение с открытым исходным кодом, распространяется по лицензии GPL. Следовательно, установив один раз Asterisk вам не придется дополнительно платить за новых абонентов, подключение новых транков, расширение функционала и прочие лицензии. Это приближает стоимость владения станцией к нулю.

Безопасен в использовании.

Любое программное обеспечение может стать объектом интереса злоумышленников, в том числе телефонная станция. Однако, сам Asterisk, а также операционная система, на которой он работает, дают множество инструментов защиты от любых атак. При грамотной настройке безопасности у злоумышленников нет никаких шансов попасть на станцию.

Надежен в эксплуатации.

Время работы серверов некоторых наших клиентов исчисляется годами. Это значит, что Asterisk работает несколько лет, ему не требуются никакие перезагрузки или принудительные отключения. А еще это говорит о том, что в районе отличная ситуация с электроэнергией, но это уже не заслуга Asterisk.

Гибкий в настройке.

Зачастую возможности Asterisk ограничивает только фантазия пользователя. Ни один конструктор шаблонов не сравнится с Asterisk по гибкости настройки. Это позволяет решать с помощью Asterisk любые бизнес задачи, даже те, в которых выбор в его пользу не кажется изначально очевидным.

Имеет огромный функционал.

Во многом именно Asterisk показал какой должна быть современная телефонная станция. За многие годы развития функциональность Asterisk расширилась, а все основные возможности по-прежнему доступны бесплатно сразу после установки.

Интегрируется с любыми системами.

То, что Asterisk не умеет сам, он позволяет реализовать за счет интеграции. Это могут быть интеграции с коммерческими телефонными станциями, CRM, ERP системами, биллингом, сервисами колл-трекинга, колл-бэка и модулями статистики и аналитики.

Позволяет телефонизировать офис за считанные часы.

В нашей практике были проекты, реализованные за один рабочий день. Это значит, что утром к нам обращался клиент, а уже через несколько часов он пользовался новой IP-АТС. Безусловно, такая скорость редкость, ведь АТС – инструмент зарабатывания денег для многих компаний и спешка во внедрении не уместна. Но в случае острой необходимости Asterisk готов к быстрому старту.

Отличная масштабируемость.

Очень утомительно постоянно возвращаться к одному и тому же вопросу. Такое часто бывает в случае некачественного исполнения работ или выбора заведомо неподходящего бизнес-решения. С Asterisk точно не будет такой проблемы! Телефонная станция, построенная на Asterisk может быть масштабируема до немыслимых размеров. Главное – правильно подобрать оборудование.

Повышает управляемость бизнеса.

Asterisk дает не просто набор полезных функций, он повышает управляемость организации, качества и комфортности управления, а также увеличивает прозрачность бизнеса для руководства. Достичь этого можно, например, за счет автоматизации отчетов, подключения бота в Telegram, санкционированного доступа к станции из любой точки мира.

Снижает расходы на связь.

Связь между внутренними абонентами IP-АТС бесплатна всегда, независимо от их географического расположения. Также к Asterisk можно подключить любых операторов телефонии, в том числе GSM сим-карты и настроить маршрутизацию вызовов по наиболее выгодному тарифу. Всё это позволяет экономить с первых минут пользования станцией.