新知一下
海量新知
6 7 0 4 9 7 2

功能安全开发之硬件开发

汽车功能安全 | 功能安全信息合作中心 2021/10/19 23:26
一个功能的失效可分为随机硬件失效和系统性失效。两种失效的预防方法不同。因为随机硬件失效是硬件产品固有的失效,其无法消除。我们能采取的方法是增加相应的安全机制,去检测失效,当失效发生时,系统可以相应的处理,导入到安全机制,从而避免伤害。这些工作主要针对的是硬件开发部分。而系统性失效通常是设计缺陷等引起的。对于系统性失效,我们需要增加针对性的安全活动去避免和减轻。这类安全活动包括安全分析,即 FMEA FTA 。这些活动在开发的各个阶段都需要相应的按标准要求进行。

1 避免失效的措施

新知达人, 功能安全开发之硬件开发

硬件开发的基于硬件安全需求,其来源于 TSR HSI 和系统架构。硬件设计主要分为硬件架构设计和硬件详细设计。硬件架构设计需要以模型或者框图的方式进行,定义清楚硬件内部各元素及其功能,同时内部之间各接口需要详细定义。在硬件架构定义好后,进行硬件详细设计,设计硬件 原理图和layout。对于硬件设计,为了避免系统性失效,需要进行对应的安全分析。对于ASIL C等级的产品,硬件设计的安全分析需要同时进FMEA 和FTA分析。

新知达人, 功能安全开发之硬件开发

硬件设计可以进行定量评估,对于单点故障和潜伏故障诊断覆盖率的评估,可以分别以单点故障度量和潜伏故障度量来评估。标准里对不同 ASIL 等级产品的规定如下:

1 硬件架构度量目标值

ASIL B

ASIL C

ASIL D

单点故障度量 SPFM

>90%

>97%

>99%

潜伏故障度量 LFM

>60%

>80%

>90%

单点故障度量和潜伏故障度量衡量的是对故障诊断的覆盖率,也就是在覆盖率外,还有残余的故障是不能被检测发现。这里有两个系统,可以对比一下。

2 不同系统对比

系统

SPFM

LFM

残余故障率

系统 1

97.3%

82%

10Fit

系统 2

98%

85%

100Fit

对比这两个系统,系统 1 SPFM LFM 都低于系统 2 ,但系统 2 的残余故障率的绝对值却是系统 2 10 倍。所以单纯以 SPFM LFM 是不能有效评估系统的安全性。这里系统又定义了两种方法来评估系统的残余风险。

第一种方法是从总体上评估,即以安全目标为对象,评估违反安全目标的可能性度量。这里标准成为 PMHF 随机硬件失效概率度量。 PMHF 的计算可以通过定量的 FTA 计算方法或者 FMEDA 的方式。具体对应不同 ASIL 等级的 PMHF 目标见下表。

3 随机硬件失效率目标值

ASIL B

ASIL C

ASIL D

<10

-7

h

-1

<10

-7

h

-1

<10

-8

h

-1

第二种方法是独立的分析每一个导致违反安全目标的单点和残余故障、双点故障,确保每一故障的概率都足够低,这样也可以保障整个系统最后的残余风险是足够低的。这种分析方法也叫割集分析。

进行割集分析前,首先了解一下标准对硬件元器件失效率等级的定义。

4 硬件元器件失效率等级

Failure Rate Class(FRC)

Value

FRC1

<10

-10

h

-1

(0.1 Fit)

FRC2

<10

-9

h

-1

(1 Fit)

FRC3

<10

-8

h

-1

(10 Fit)

FRCi,i>3

<10

-10*(i-1)

h

-1

 (10

(i-2)

Fit)

对于单点故障相关的硬件元件失效率,标准规定了每个 ASIL 等级对应的最低失效率等级要求。元器件选择时,需要参考标准要求,可以以更严苛的标准选择具有更低失效率的元件。

5 单点故障相关硬件器件的失效率等级目标

ASIL of the safety goal

Failure rate class

D

Failure rate class 1+ dedicated measures

C

Failure rate class 2+ dedicated measures

Or

Failure rate class 1

B

Failure rate class 2

Or

Failure rate class 1

这里提到的专用措施包括:

- 硬件元件使用中的过设计(如电压、热承受等级)或者物理隔离

- 针对特定失效模式的来料样品测试

- 老化试验

- 控制计划中专门的控制设定

对于残余故障和潜伏故障,目标要求的是不同诊断覆盖率对应的硬件元件失效率的值。

6 对给定诊断覆盖率的硬件元件的最大失效率等级 - 残余故障

ASIL of the safety goal

Diagnostic coverage with respect to residual faults

≥99.9%

≥99%

≥90%

<90%

D

Failure rate class 4

Failure rate class 3

Failure rate class 2

Failure rate class 1+ dedicated measures

C

Failure rate class 5

Failure rate class 4

Failure rate class 3

Failure rate class 2+ dedicated measures

B

Failure rate class 5

Failure rate class 4

Failure rate class 3

Failure rate class 2

7 硬件元件的诊断覆盖率和失效率等级目标 - 双点故障

ASIL of the safety goal

Diagnostic coverage with respect to residual faults

≥99%

≥90%

<90%

D

Failure rate class 4

Failure rate class 3

Failure rate class 2

C

Failure rate class 5

Failure rate class 4

Failure rate class 3

在评估系统的残余风险上,两种方法是等效的。在实际使用中, PMHF 需要比较大量的数学计算,需要借助工具。而割集的分析方式比较简单,但需要针对每一种情况都进行分析,所以工作量比较大。实际开发中可根据情况选择。

在系统阶段对于 SG001 ,对 CMU 硬件提出了 ASIL C 的要求,对残余风险采用的是 PHMF 的评估方法。通过 FMEDA 来计算 CMU 硬件架构的三个指标。

FMEDA 计算的第一步,需要导入硬件 BOM ,确定每个元器件的失效率和失效模式。这些值可以参考现有标准,如 IEC 62380 SN29500 等。而对于很多器件,尤其是 IC ,因为标准比较老旧,器件可能未包含在标准里,可以从 IC 供应商处索要失效率数据。这里以一个 NTC 电阻为例来说明。

8 电阻失效率及失效模式分布

Part

name

Part

type

Failure rate(Fit)

Failure mode

Distribution

R2

NTC

2

Short

60%

Open

10%

Drift(R*0.5)

15%

Drift(R*2)

15%

对于 CMU 的温度检测功能,以下面一个最简化的系统,来分析如果针对具体 SG 进行 FMEDA 分析。

2 最简 CMU 的温度检测功能

新知达人, 功能安全开发之硬件开发

在进行分析前需要把系统的安全机制列出来。这里假设 uC 中存在一个安全机制 SM1 ,其可以检测 NTC 电阻分压后 AFE 采集的温度信号值得有效范围。

8 安全机制 SM1

SM ID

Description

Allocate to

Diagnostic

Coverage

SM1

Check the valid range of input cell  temperature value

uC

60%

针对 SG001 进行 NTC R2 FMEDA 分析。

9 SG001 FMEDA

新知达人, 功能安全开发之硬件开发

根据上表,可计算 SG001 的硬件架构指标(仅考虑 R2 ):

SPFM=1-( λ

RF

+ λ

SPF

)/ λ

SR

=66%
LFM=1- λ mpf,l/ ( λ

SR

- λ

RF

+ λ

SPF

)=90.9%

计算结果可以看到 SPFM 是不满足 ASIL C 要求的。这是因为对于 R2 的失效,只有 SM1 去诊断,而仅诊断输入温度值的温度范围,其诊断覆盖率比较低,而且 SM1 没法诊断 R2 drift 的失效模式。为了达到目标,可以新增更有效的诊断机制。比如增加 SM2 :通过增加一个冗余的温度传感器,对比两个传感器,检测温度传感器的 drift offset 和其他错误。 SM2 的诊断覆盖率可以达到 90% ,可同时覆盖 R2 open drift 失效模式。加入 SM2 之后重新计算 FMEDA, 会明显提高 SPFM 的值。

上面的例子只分析了 SG001 相关的温度传感器 R2 ,对于完成的 SG001 CMU 硬件架构上的计算,需要把 CMU 上所有与 SG001 上相关的元器件都以相同的方式加进来,最终计算所有指标。在硬件架构度量的计算过程中,第一次不一定所有指标都能通过。在 FSR TSR 提出的安全措施,在计算硬件架构度量时,其诊断的覆盖率可能不足。这时需要根据计算差距,增加新的安全机制或选用失效率更低的元器件。

更多“硬件开发”相关内容

更多“硬件开发”相关内容

新知精选

更多新知精选