Энциклопедия АСУ ТП Спонсор проекта: Skip Navigation LinksЭнциклопедия АСУ ТП : 8 Аппаратное резервирование Соспонсор:




Робот телеприсутствия




Промышленные контроллеры для жестких условий эксплуатации

8. Аппаратное резервирование

Резервирование является практически единственным и широкое используемым методом кардинального повышения надежности систем автоматизации. Оно позволяет создавать системы аварийной сигнализации, противоаварийной защиты, автоматического пожаротушения, контроля и управления взрывоопасными технологическими блоками [Денисенко] и другие, относящиеся к уровням безопасности SIL1...SIL3 по стандарту МЭК 61508-5 [МЭК], а также системы, в которых даже короткий простой ведет к большим финансовым потерям (системы распределения электроэнергии, непрерывные технологические процессы). Резервирование позволяет создавать высоконадежные системы из типовых изделий широкого применения.

Составной частью систем с резервированием является подсистема автоматического контроля работоспособности и диагностики неисправностей.

Большая доля отказов в системах автоматизации приходится на программное обеспечение. Однако этой теме посвящено множество специализированных книг и журнальных статей (см., например [Черкесов]), поэтому мы ее касаться не будем.

8.1. Основные понятия и определения

Основные определения понятий теории надежности и надежности, связанной с функциональной безопасностью, даны в ГОСТ 27.002-89 [ГОСТ] и МЭК 61508 [МЭК - МЭК]. Ниже приводится ряд определений, которые потребуются нам для дальнейшего изложения.

Неисправностью называется состояние объекта, при котором он не соответствует хотя бы одному своему параметру, указанному в эксплуатационной документации.

Неработоспособностью называется состояние объекта, при котором он не способен выполнять хотя бы одну из своих функций, описанных в эксплуатационной документации. Например, контроллер, у которого отказал один из каналов ввода, является работоспособным, но неисправным, если этот канал не используется.

Дефектом называется каждое отдельное несоответствие объекта установленным требованиям (ГОСТ 15467-79) [ГОСТ].

Отказом называется событие, заключающееся в нарушении работоспособности объекта. Факт отказа устанавливается на основании некоторых критериев отказа, т.е. признаков, позволяющих судить о нарушении работоспособности. В результате отказа объект становится неисправным. Отказы возникают вследствие применения ненадежных схемотехнических решений на стадии проектирования контроллеров, электронных компонентов, изготовленных с нарушением техпроцесса, применения некачественных материалов, нарушения технологических режимов пайки, неточной установки компонентов на печатную плату, старения материалов, некачественного технологического оборудования, низкой культуры производства, отсутствия надежных методов контроля, работы компонентов в предельных электрических режимах, нарушений условий эксплуатации и т. п.

Наработкой называется продолжительность работы объекта, выражаемая в единицах времени или в количестве циклов (например, циклов срабатывания реле). Различают наработку до отказа (от начала эксплуатации до первого отказа) и наработку между отказами (от начала работы после ремонта до очередного отказа). Используют также средние значения этих величин. Среднюю наработку между отказами называют наработкой на отказ, в отличие от средней наработки до отказа.

Безотказность - свойство объекта непрерывно сохранять работоспособность в течение некоторого времени или наработки.

Живучесть - свойство объекта сохранять ограниченную работоспособность при неисправностях или отказе некоторых компонентов. Этот термин наиболее близок международному термину "fault-tolerance" (дословно - "допустимость неисправностей"), который часто переводят как "отказоустойчивость". Термин "отказоустойчивость" в ГОСТ 27.002-89 используется, но его значения стандартом не определено. Мы будем использовать его в сочетании "отказоустойчивая система" как более компактный синоним понятия "система, обладающая свойством безотказности после отказа отдельных элементов".

Вероятность безотказной работы - вероятность того, что в пределах заданной наработки отказ не возникнет.

Коэффициент готовности - вероятность того, что объект окажется работоспособным в произвольный момент времени, кроме запланированных периодов, в течение которых его работа по назначению не предусматривается. Высокая готовность системы обеспечивается избыточностью, допустимостью сбоев, автоматическим контролем ошибок и диагностированием (ГОСТ Р 51840-2001 [ГОСТ]).

Резервирование может быть общим, когда резервируется система в целом, и раздельным (поэлементным), когда резервируются отдельные элементы системы. В случае, когда в системе много однотипных элементов (например, модулей ввода сигналов термопар), число резервных элементов может быть в несколько раз меньше, чем резервируемых.

Кратность резерва - отношение числа резервных элементов к числу резервируемых, которое выражается несокращаемой дробью. В частности, в соответствии с ГОСТ 27.002-89, кратность резерва 3:2 нельзя представлять как 1,5 и иногда используемый термин "полуторное резервирование" не соответствует стандарту. При сокращении дроби исчезает важная информация об общем количестве элементов в системе. Дублированием называют резервирование с кратностью резерва один к одному.

Постоянное резервирование (к нему относится мажоритарное резервирование и метод голосования) - резервирование с нагруженным резервом, при котором все элементов в резервированной системе выполняют одну и ту функцию и являются равноправными, а выбор одного из сигналов на их выходе выполняется схемой "голосования", без переключений. Постоянное резервирование позволяет получить системы с самым высоким коэффициентом готовности.

Резервирование замещением - резервирование, при котором функции основного элемента передаются резервному только после отказа основного элемента. Резервирование замещением может быть с холодным, теплым или горячим резервом. Его недостатком является зависимость от надежности переключающих устройств.

Нагруженный резерв ("горячий резерв") - резервный элемент, который находится в таком же режиме, как и основой. Недостатком горячего резерва является уменьшение ресурса с течением времени. В системах автоматизации с горячим резервом переход на резерв может занимать время от нескольких миллисекунд до единиц секунд.

Облегченный резерв ("теплый резерв") - резервный элемент, находящийся в менее нагруженном состоянии, чем основной. Например, резервный компьютер в "спящем" режиме является облегченным резервом.

Ненагруженный резерв ("холодный резерв") - резервный элемент, находящийся в ненагруженном режиме до начала его использования вместо основного элемента. Ненагруженный резерв позволяет получить системы с самой высокой надежностью, но с низким коэффициентов готовности. Они эффективны в случае, когда система некритична к времени простоя величиной в несколько минут.

Основное отличие между "горячим", "холодным" и "теплым" резервом состоит в длительности периода переключения на резерв. При горячем резервировании контроллеров время переключения составляет от единиц миллисекунд до долей секунды, при теплом - секунды, холодном - минуты. Поэтому время переключения на резерв иногда рассматривают как основной признак при классификации резервирования замещением.

Надежность - это свойство объекта сохранять во времени значения всех параметров и выполнять требуемые функции в заданных условиях применения. Надежность является составным понятием. Оно может включать в себя понятия безотказности, долговечности, ремонтопригодности, сохраняемости. В промышленной автоматизации для количественной оценки надежности чаще всего используется параметр "наработка на отказ" или "интенсивность отказов", а в системах безопасности - "вероятность отказа при наличии запроса" [Смит, МЭК].

Интенсивностью отказов называется условная плотность вероятности возникновения отказа объекта, определяемая при условии, что до рассматриваемого момента времени отказ не возник. При испытаниях на надежность количество исправных элементов с течением времени уменьшается за счет того, что часть из них становятся неисправными через время в результате отказа. Интенсивность отказа определяется пределом

=.

(8.1)

Длительность безотказной работы элемента (от момента включения до ) является случайной величиной, поэтому ее можно характеризовать вероятностью , где - число исправных элементов в момент времени , - число исправных элементов в момент времени . При конечном числе испытуемых элементов вместо вероятности получают ее точечную статистическую оценку.

Вероятность безотказной работы можно интерпретировать следующим образом: если в системе автоматизации используется 100 модулей ввода-вывода, каждый из которых имеет вероятность безотказной работы =0,99 в течение времени =1 год, то через год после начала эксплуатации в среднем один из модулей станет неработоспособен.

Поделив числитель и знаменатель в (6.1) на , получим

.

(8. 2)

Выражение для функции распределения длительности безотказной работы можно получить, решая дифференциальное уравнение (8.2) при начальном условии :

.

(8. 3)

Вероятность отказа , по определению, равна

.

(8. 4)

Интенсивность отказов обычно быстро уменьшается в начале эксплуатации изделия (период приработки), затем длительное время остается постоянной () и после исчерпания срока службы резко возрастает.

Поскольку для средств промышленной автоматизации как правило, указывают значение , выражение (8.3) в этом случае упрощается:

.

(8. 5)

Таким образом, вероятность безотказной работы устройства на интервале времени от до экспоненциально уменьшается с течением времени, если устройство прошло этап приработки и не выработало свой ресурс. Эта вероятность не зависит от того, как долго устройство проработало до начала отсчета времени [Черкесов, Александровская], т.е. не играет роли, используется бывшее в употреблении устройство, или новое. Это кажущееся парадоксальным утверждение справедливо только для экспоненциального распределения и объясняется тем, что выражение (8.5) получено в предположении, что снижение ресурса изделия с течением времени не происходит, а причины отказов распределены во времени в соответствии с моделью белого шума.

Вероятность отказа за время , по определению, равна , а плотность распределения времени до отказа (частота отказов) равна производной от функции распределения:

(8. 6)

и для экспоненциальной функции распределения (8.5) равна

.

(8. 7)

Зная плотность распределения (8.7), можно найти среднюю наработку до первого отказа , которая, по определению, является математическим ожиданием случайной величины - длительности безотказной работы , т.е.

.

(8. 8)

Интегрирование в (8.8) выполняется по частям.

Наработка до отказа является основным параметром, который указывается в эксплуатационной документации на электронные средства промышленной автоматизации. Поскольку при из (8.5) получается , то наработку на отказ можно интерпретировать следующим образом: если в системе автоматизации имеется 100 модулей ввода-вывода, то через время после начала эксплуатации останется в среднем 37 работоспособных и 63 отказавших модулей. Иногда наработку на отказ неправильно интерпретируют как время, в течение которого устройство почти наверняка будет работоспособно, и только после истечения этого времени наступит отказ.

При анализе надежности систем, связанных с безопасностью, вместо вероятности отказа используется понятие "вероятность отказа при наличии запроса" (подробнее см. раздел "Функциональная безопасность"), т. е. вероятность отказа при наличии необходимости быть в состоянии готовности. Например, если рассматривается система охраны нефтебазы, то нужно учитывать вероятность отказа системы во время попытки проникновения нарушителей на базу, а не в то время, когда их нет. Отсюда следует вывод, что с точки зрения надежности охраны нужно рассматривать вероятность несрабатывания датчика охранной сигнализации на интервале времени, в течение которого может появиться нарушитель, и не нужно учитывать вероятность ложного срабатывания системы, поскольку она не влияет на выполнение функции охраны. Классическая же теория надежности учитывает оба вида отказов.

В системах, связанных с безопасностью, наработка до отказа рассматривается отдельно для опасных и безопасных отказов. Безопасным считается отказ, не вызывающий опасную ситуацию на объекте. Рассмотрим, например, систему аварийного отключения, в которой исчезновение питания приводит к обесточиванию обмотки реле и поэтому реле отключает нагрузку, переводя ее тем самым в безопасное состояние. В такой системе отказ источника питания обмотки реле является безопасным отказом и поэтому не учитывается при расчете вероятности отказа при наличии запроса. Однако отказ такого же источника питания в системе автоматического пожаротушения, когда необходимо, наоборот, подать напряжение на насосы, рассматривается как опасный отказ. Поэтому средняя вероятность отказа при наличии запроса в двух рассмотренных системах будет различной несмотря на применение блока питания с одним и тем же значением наработки до отказа.

Учет обычной наработки до отказа при проектировании систем безопасности может привести к неоправданно заниженным показателям надежности и невозможности достижения требуемого уровня безопасности.

Фактические значения наработки до отказа систем с резервированием оказываются гораздо ниже расчетных. Это связано с существованием так называемых отказов по общей причине (ООП), которые происходят одновременно у основного элемента и резервного и которые составляют основную долю отказов в системах автоматизации. Предположим, например, что резервированная система находится в помещении, которое оказалось затопленным водой или охваченным пожаром. Отказ основного элемента и резерва при этом наступит одновременно. Другим примером может быть одновременный обрыв основного и резервного кабеля в результате земляных работ. Третьим примером может быть применение двух контроллеров с процессорами из одной и той же партии, которая была изготовлена с применением просроченной паяльной пасты. Следующим примером может быть применение двух датчиков давления одной и той же конструкции, от одного и того же производителя, которые окислились и разгерметизировались одновременно. Электромагнитный импульс молнии или импульс в сети электропитания может явиться причиной отказа основного и резервного оборудования одновременно. Во всех приведенных примерах существует сильная корреляция между случайными величинами, вызывающими отказ основного и резервного элемента.

Для уменьшения коэффициента корреляции (снижения влияния общих причин отказов) нужно по возможности выбирать элементы системы от разных производителей, выполненные на разных физических принципах, с применением различных материалов, различных технологических процессов и с разным программным обеспечением. Основное и резервное оборудование, включая кабели, датчики и исполнительные механизмы желательно разносить территориально, а монтаж основной и резервной системы должны выполнять разные люди или разные монтажные организации, чтобы исключить появление одинаковых ошибок монтажа и одинаково ошибочную интерпретацию руководства по эксплуатации монтируемого изделия.

Общие факторы, влияющие на всю систему, учитываются в моделях отказа как последовательно включенное звено со своей наработкой на отказ.


© RLDA Ltd. info@rlda.ru  Рейтинг@Mail.ru Спонсоры проекта: , а также