8. Аппаратное резервирование
Резервирование является практически единственным и широкое
используемым методом кардинального повышения надежности систем автоматизации.
Оно позволяет создавать системы аварийной сигнализации, противоаварийной защиты,
автоматического пожаротушения, контроля и управления взрывоопасными
технологическими блоками [Денисенко]
и другие, относящиеся к уровням
безопасности SIL1...SIL3 по
стандарту МЭК 61508-5 [МЭК],
а также системы, в которых даже короткий простой ведет к большим
финансовым потерям (системы распределения электроэнергии, непрерывные
технологические процессы). Резервирование позволяет создавать высоконадежные
системы из типовых изделий широкого применения.
Составной частью систем с резервированием является
подсистема автоматического контроля работоспособности и диагностики
неисправностей.
Большая доля отказов в системах автоматизации приходится на
программное обеспечение. Однако этой теме посвящено множество
специализированных книг и журнальных статей (см., например
[Черкесов]),
поэтому мы ее касаться не будем.
8.1. Основные понятия и определения
Основные определения понятий теории надежности и надежности,
связанной с функциональной безопасностью, даны в ГОСТ 27.002-89
[ГОСТ]
и МЭК 61508 [МЭК -
МЭК].
Ниже приводится ряд определений, которые потребуются нам для
дальнейшего изложения.
Неисправностью называется состояние объекта,
при котором он не соответствует хотя бы одному своему параметру, указанному в
эксплуатационной документации.
Неработоспособностью называется состояние
объекта, при котором он не способен выполнять хотя бы одну из своих функций,
описанных в эксплуатационной документации. Например, контроллер, у которого
отказал один из каналов ввода, является работоспособным, но неисправным,
если этот канал не используется.
Дефектом называется каждое отдельное
несоответствие объекта установленным требованиям (ГОСТ 15467-79)
[ГОСТ].
Отказом называется событие, заключающееся в
нарушении работоспособности объекта. Факт отказа устанавливается на основании
некоторых критериев отказа, т.е. признаков, позволяющих судить о нарушении
работоспособности. В результате отказа объект становится неисправным. Отказы
возникают вследствие применения ненадежных схемотехнических решений на стадии
проектирования контроллеров, электронных компонентов, изготовленных с
нарушением техпроцесса, применения некачественных материалов, нарушения
технологических режимов пайки, неточной установки компонентов на печатную
плату, старения материалов, некачественного технологического оборудования,
низкой культуры производства, отсутствия надежных методов контроля, работы
компонентов в предельных электрических режимах, нарушений условий эксплуатации
и т. п.
Наработкой
называется продолжительность работы объекта, выражаемая в единицах времени или
в количестве циклов (например, циклов срабатывания реле). Различают наработку
до отказа (от начала эксплуатации до первого отказа) и наработку между отказами
(от начала работы после ремонта до очередного отказа). Используют также средние
значения этих величин. Среднюю наработку между отказами называют
наработкой на
отказ, в отличие от средней наработки до отказа.
Безотказность - свойство объекта непрерывно
сохранять работоспособность в течение некоторого времени или наработки.
Живучесть - свойство объекта сохранять ограниченную
работоспособность при неисправностях или отказе некоторых компонентов. Этот
термин наиболее близок международному термину "fault-tolerance" (дословно - "допустимость
неисправностей"), который часто переводят как
"отказоустойчивость". Термин "отказоустойчивость" в
ГОСТ 27.002-89 используется, но его значения стандартом не определено. Мы будем
использовать его в сочетании "отказоустойчивая система"
как более компактный синоним понятия "система, обладающая свойством
безотказности после отказа отдельных элементов".
Вероятность безотказной работы -
вероятность того, что в пределах заданной наработки отказ не возникнет.
Коэффициент готовности - вероятность того,
что объект окажется работоспособным в произвольный момент времени, кроме
запланированных периодов, в течение которых его работа по назначению не
предусматривается. Высокая готовность системы обеспечивается избыточностью,
допустимостью сбоев, автоматическим контролем ошибок и диагностированием (ГОСТ Р 51840-2001
[ГОСТ]).
Резервирование может быть общим, когда
резервируется система в целом, и раздельным (поэлементным), когда
резервируются отдельные элементы системы. В случае, когда в системе много
однотипных элементов (например, модулей ввода сигналов термопар), число
резервных элементов может быть в несколько раз меньше, чем резервируемых.
Кратность
резерва - отношение числа резервных элементов к числу
резервируемых, которое выражается несокращаемой дробью. В частности, в
соответствии с ГОСТ 27.002-89, кратность резерва 3:2 нельзя представлять как
1,5 и иногда используемый термин "полуторное резервирование" не
соответствует стандарту. При сокращении дроби исчезает важная информация об
общем количестве элементов в системе. Дублированием называют резервирование с
кратностью резерва один к одному.
Постоянное резервирование (к нему относится
мажоритарное резервирование и метод голосования) - резервирование с нагруженным
резервом, при котором все
элементов в
резервированной системе выполняют одну и ту функцию и являются равноправными, а
выбор одного из
сигналов на их
выходе выполняется схемой "голосования", без переключений. Постоянное
резервирование позволяет получить системы с самым высоким коэффициентом готовности.
Резервирование замещением - резервирование,
при котором функции основного элемента передаются резервному только после
отказа основного элемента. Резервирование замещением может быть с холодным,
теплым или горячим резервом. Его недостатком является зависимость от надежности
переключающих устройств.
Нагруженный резерв
("горячий резерв") - резервный элемент, который находится в таком же режиме, как и
основой. Недостатком горячего резерва является уменьшение ресурса с течением
времени. В системах автоматизации с горячим резервом переход на резерв может
занимать время от нескольких миллисекунд до единиц секунд.
Облегченный резерв
("теплый
резерв") - резервный элемент, находящийся в менее нагруженном состоянии,
чем основной. Например, резервный компьютер в "спящем" режиме
является облегченным резервом.
Ненагруженный резерв ("холодный
резерв") - резервный элемент, находящийся в ненагруженном режиме до начала
его использования вместо основного элемента. Ненагруженный резерв позволяет
получить системы с самой высокой надежностью, но с низким коэффициентов
готовности. Они эффективны в случае, когда система некритична к времени простоя
величиной в несколько минут.
Основное отличие между "горячим",
"холодным" и "теплым" резервом состоит в длительности периода
переключения на резерв. При горячем резервировании контроллеров время
переключения составляет от единиц миллисекунд до долей секунды, при теплом -
секунды, холодном - минуты. Поэтому время переключения на резерв иногда
рассматривают как основной признак при классификации резервирования замещением.
Надежность - это свойство объекта сохранять
во времени значения всех параметров и выполнять требуемые функции в заданных
условиях применения. Надежность является составным понятием. Оно может включать
в себя понятия безотказности, долговечности, ремонтопригодности, сохраняемости.
В промышленной автоматизации для количественной оценки надежности чаще всего
используется параметр "наработка на отказ" или "интенсивность
отказов", а в системах безопасности - "вероятность
отказа при наличии запроса"
[Смит,
МЭК].
Интенсивностью отказов называется условная
плотность вероятности возникновения отказа объекта, определяемая при условии,
что до рассматриваемого момента времени отказ не возник. При испытаниях на
надежность количество исправных элементов
с течением
времени
уменьшается за
счет того, что часть из них
становятся
неисправными через время
в результате отказа.
Интенсивность отказа определяется пределом
Длительность
безотказной
работы элемента (от момента включения
до
)
является случайной величиной, поэтому ее можно характеризовать вероятностью
,
где
- число
исправных элементов в момент времени
,
-
число исправных элементов в момент времени
. При конечном числе
испытуемых элементов вместо вероятности получают ее точечную статистическую
оценку.
Вероятность безотказной работы можно
интерпретировать следующим образом: если в системе автоматизации используется
100 модулей ввода-вывода, каждый из которых имеет вероятность безотказной
работы
=0,99 в течение
времени
=1 год, то через год
после начала эксплуатации в среднем один из модулей станет неработоспособен.
Поделив числитель и знаменатель в (6.1) на
,
получим
Выражение для функции распределения длительности безотказной
работы
можно получить,
решая дифференциальное уравнение (8.2) при начальном условии
:
Вероятность отказа
, по определению,
равна
Интенсивность отказов
обычно быстро
уменьшается в начале эксплуатации изделия (период приработки), затем
длительное время остается постоянной (
) и после исчерпания
срока службы резко возрастает.
Поскольку для средств промышленной автоматизации как
правило, указывают значение
, выражение (8.3) в
этом случае упрощается:
Таким образом, вероятность безотказной работы устройства на
интервале времени от
до
экспоненциально
уменьшается с течением времени, если устройство прошло этап приработки и не
выработало свой ресурс. Эта вероятность не зависит от того, как долго
устройство проработало до начала отсчета времени
[Черкесов,
Александровская],
т.е. не играет роли, используется
бывшее в употреблении устройство, или новое. Это кажущееся парадоксальным
утверждение справедливо только для экспоненциального распределения и
объясняется тем, что выражение (8.5) получено в предположении, что снижение
ресурса изделия с течением времени не происходит, а причины отказов
распределены во времени в соответствии с моделью белого шума.
Вероятность отказа за время
, по определению,
равна
, а плотность
распределения времени до отказа
(частота отказов)
равна производной от функции распределения:
и для экспоненциальной функции распределения (8.5) равна
Зная плотность распределения (8.7), можно найти среднюю
наработку до первого отказа
, которая, по
определению, является математическим ожиданием случайной величины -
длительности безотказной работы
, т.е.
Интегрирование в (8.8) выполняется по частям.
Наработка до отказа
является
основным параметром, который указывается в эксплуатационной документации на
электронные средства промышленной автоматизации. Поскольку при
из
(8.5) получается
, то наработку на
отказ можно интерпретировать следующим образом: если в системе автоматизации
имеется 100 модулей ввода-вывода, то через время
после начала
эксплуатации останется в среднем 37 работоспособных и 63 отказавших модулей.
Иногда наработку на отказ неправильно интерпретируют как время, в течение
которого устройство почти наверняка будет работоспособно, и только после
истечения этого времени наступит отказ.
При анализе надежности систем, связанных с безопасностью,
вместо вероятности отказа используется понятие
"вероятность
отказа при наличии запроса" (подробнее см. раздел "Функциональная безопасность"),
т. е. вероятность отказа при наличии необходимости быть в состоянии готовности.
Например, если рассматривается система охраны нефтебазы, то нужно учитывать
вероятность отказа системы во время попытки проникновения нарушителей на базу,
а не в то время, когда их нет. Отсюда следует вывод, что с точки зрения
надежности охраны нужно рассматривать вероятность несрабатывания датчика
охранной сигнализации на интервале времени, в течение которого может появиться
нарушитель, и не нужно учитывать вероятность ложного срабатывания системы,
поскольку она не влияет на выполнение функции охраны. Классическая же теория
надежности учитывает оба вида отказов.
В системах, связанных с безопасностью, наработка до отказа
рассматривается отдельно для опасных и безопасных
отказов.
Безопасным
считается отказ, не вызывающий опасную ситуацию на объекте. Рассмотрим,
например, систему аварийного отключения, в которой исчезновение
питания приводит к обесточиванию обмотки реле и поэтому реле отключает
нагрузку, переводя ее тем самым в безопасное состояние. В такой системе отказ
источника питания обмотки реле является безопасным отказом и поэтому не
учитывается при расчете вероятности отказа при наличии запроса. Однако отказ
такого же источника питания в системе автоматического пожаротушения, когда
необходимо, наоборот, подать напряжение на насосы, рассматривается как
опасный отказ. Поэтому средняя вероятность отказа при наличии запроса в двух
рассмотренных системах будет различной несмотря на применение блока питания с
одним и тем же значением наработки до отказа.
Учет обычной наработки до отказа при проектировании систем
безопасности может привести к неоправданно заниженным показателям надежности и
невозможности достижения требуемого уровня безопасности.
Фактические значения наработки до отказа систем с
резервированием оказываются гораздо ниже расчетных. Это связано с существованием
так называемых отказов по общей причине
(ООП), которые происходят
одновременно у основного элемента и резервного и которые составляют основную
долю отказов в системах автоматизации. Предположим, например, что
резервированная система находится в помещении, которое оказалось затопленным
водой или охваченным пожаром. Отказ основного элемента и резерва при этом
наступит одновременно. Другим примером может быть одновременный обрыв основного
и резервного кабеля в результате земляных работ. Третьим примером может быть
применение двух контроллеров с процессорами из одной и той же партии, которая
была изготовлена с применением просроченной паяльной пасты. Следующим примером
может быть применение двух датчиков давления одной и той же конструкции, от
одного и того же производителя, которые окислились и разгерметизировались
одновременно. Электромагнитный импульс молнии или импульс в сети электропитания
может явиться причиной отказа основного и резервного оборудования одновременно.
Во всех приведенных примерах существует сильная корреляция между случайными
величинами, вызывающими отказ основного и резервного элемента.
Для уменьшения коэффициента корреляции (снижения влияния
общих причин отказов) нужно по возможности выбирать элементы системы от разных
производителей, выполненные на разных физических принципах, с применением
различных материалов, различных технологических процессов и с разным
программным обеспечением. Основное и резервное оборудование, включая кабели,
датчики и исполнительные механизмы желательно разносить территориально, а
монтаж основной и резервной системы должны выполнять разные люди или разные
монтажные организации, чтобы исключить появление одинаковых ошибок монтажа и
одинаково ошибочную интерпретацию руководства по эксплуатации монтируемого
изделия.
Общие факторы, влияющие на всю систему, учитываются в
моделях отказа как последовательно включенное звено со своей наработкой на
отказ.