金鑫:芯片功能安全简介以及失效率的计算
时间: 2024-12-09 14:16
来源: 汽车总站网
作者: editor
12月5日-6日,2024全球汽车芯片创新大会在无锡滨湖举办。本届大会以“芯智驱动,协力前行”为主题,由中国汽车工业协会主办,中国汽车工业经济技术信息研究所有限公司联合主办,共设置1场高层峰会、1场大会主旨论坛、3场平行专业论坛、1场定向交流会和1场车芯对接活动,围绕汽车芯片生态建设、市场环境分析、竞争合作及技术创新等方面展开分享和交流,凝聚发展经验和集体智慧,探索解决方案。其中,在12月6日下午举办的“专业论坛三:汽车芯片功能安全及可靠性保障发展论坛”上,工业和信息化部电子第五研究所认证中心高级工程师金鑫发表精彩演讲。以下内容为现场发言实录:
我今天分享的主题是跟车规芯片的功能安全以及很重要的度量指标失效率的讲解。
我主要从几个方面给大家做一个阐述,首先是关于功能安全。在座的各位对功能安全的概念和理论非常熟悉,在芯片这块功能安全提出了什么样的思路或者是我们实现目标的要求。其次是针对芯片失效率计算的方法,在业界有哪些主要的方式方法,我们会给大家做一个介绍,以及不同方法之间的类比。最后是关于功能安全的认证,特别是车规芯片的功能安全流程认证和产品认证如何开展的,跟大家做一个介绍。
首先我们看车载芯片功能安全实施的重要的目的和意义,并且满足功能安全的要求,正如之前石总说的,也要满足工艺方面的选择和要求,确保整体的除了功能安全以外的可靠性和质量方面的要求,这也是很重要的实施的目的。
在功能安全我们要满足功能安全ISO 26262ASIL为目标的功能安全设计流程和实现方法。如何通过设计过程和生产流程过程满足芯片对应ASIL等级的要求,这是我们在座同仁的企业对后续要做功能安全的芯片产品认证打下很坚实的基础,这是很重要实施的目的。
这是我们做芯片功能安全实践思路,包括ISO 26262,包括GB/T34590这是功能安全的标准,与之相对应失效率相关的IEC/TR62380和SN29500也是很重要的功能安全导入的参考要求。
其次是如何在组织里面,特别是项目中开展全生命周期功能安全的管理,我们提了一些建议,包括项目层面、组织层面开展功能安全的活动,如何开展认可措施,如何开展前面各位专家提到的工具执行度和支持活动。在2018版的功能安全里面还提出了part11的指南,今天很多内容也来自这个里面的方法论,大家可以一起看一下。
具体设计层面如何落实呢?包括HARA分析、ASIL安全等级,包括任务剖面的概念,如何开展安全分析的活动,如何使用安全机制来满足功能安全要求这都是很重要的。如何做到ASIL的隔离、免干扰,我们通过DFA的活动。
这是关于全球芯片车载出货量的统计,我就不过多介绍了,包括收益的情况,甚至还有预测的数据的趋势,大家可以看一下趋势。
回到硬件度量的问题,在这个维度里面分为传统的硬件架构度量,单点、潜伏故障率,不同ASIL等级的目标是不一样的,特别是做产品认证的同仁应该很清楚,不同的ASIL等级有不同的要求。
其次就是右侧的随机硬件失效度量,就是PMHF,不同的ASIL等级要求是不同的。
回到芯片在车载芯片,我们主要还是考虑到不同的安全机制、失效分析颗粒度是不同的,根据ISO 26262-Part11 4.3.2里面的应用,失效模式采用与安全概念和相关安全机制相符的详细程度来描述,颗粒度是基于对应的安全机制的颗粒度保持一致,去分析失效模式才有意义。举了两个例子,如果说双核锁步有一个机制,整个芯片作为整体的失效模式。如果说没有相关的安全机制,我们用结构化的方式,比如说软件或者硬件测试的方式,我们的同事也说了相关故障注入测试的机制,进一步分析IC的失效模式以及相关失效模式的占比和最终诊断比例覆盖的情况,这是我们的目的,我们不是为了计算失效率而计算失效率,而是为了得到失效模式的覆盖率和不同失效模式的比例。
右图大家可不可以理解,这个来自于功能安全的标准,表达的就是通过硅原子形成一个晶体管,形成门电路,整个过程中结构是非常复杂的,怎么产生失效和故障,就要考虑两种实例分析的方法到底什么样颗粒度来分析失效模式。
这是常见失效原因分类,主要是通过封装和裸片,我们有一个SE和DIE的定义,就是硬错误和软错误,就是永态故障和瞬态故障。永态故障是没有办法通过其他的方式来恢复,坏了就坏了,这是永态的故障。瞬态故障就是单、多比特位翻转、射线的串扰可以通过恢复,这是芯片领域里面关于失效的分类。
今天的主题是关于芯片失效率的计算方法,这个内容很多,这么短时间不可能说得很具体,我们说一下为什么这么做。首先看一下芯片失效率来源有哪些?首先是供应商提供得到,其次是如果是芯片生产者、设计者,通过我们返修品的数据得出,但是这个通常很少使用此方法,涉及到数据需要准确和广泛记录保存,这在新产品投放市场时无法做到。再就是实验测试中得出失效率的数据,这是常见的做法,短期内可以实现的手段和方法。再就是可以通过业界广泛使用失效率数据手册或者数据库得出,主要是基于IEC 62380。
这里我们看到一个公式,这个公式看似复杂,主要是三部分组成,一是裸片失效率,二是封装失效率,三是过电应力相关失效率,这三个进行求和得到最终失效率的结果。大部分的公司是通过Excel表的方式去辅助我们做这个活动。
这个里面包括裸片、封装、过电应力部分,如果跟过流、过压产生大量的热量,进而导致元器件的损坏。
说到这三个部分以后,我们把复杂的公式进行解耦,第一部分里面就是裸片部分的失效率有几个重要的值,主要包括λ1、λ2,N是集成电路的晶体管的数量,α是制造年份的时间差,这样来看这个表没有那么复杂。不同的芯片类型,不同的年代,不同晶体管的数量所对应λ1和λ2的值不一样的,通过查表算出来的。
其次我们可以看到这里引入一个profile的概念,就是任务剖面的概念,右下角那张表就是典型的任务剖面,分为发动机舱、发动机控制任务剖面,下面是座舱、驾驶舱的任务剖面。这个表有不同的温度,对应开和关的参数,比如说你的车一年到底要启动和关闭多少次?一年下来有670次的开关的次数,如果白天开4次车,一年就有1340次的开合的动作,对于这个开合动作会有不同的系数给到你,这是关于不同任务剖面。
当然除了任务剖面以外,还要考虑到技术工艺、结构方面的温度系数,我们通过查表的方式,比如说MOS、双极和温度系数计算的公式。
不同的场景,不同的使用情况,不同的开合次数对芯片失效率的计算有很大的影响。
这里有一个例子,怎么算结温的温度,我们通过查表的方式,如果Tj为26.27度,我们可以看到三个阶段的温升的值,这是对应的32+26.27,使用的是发动机舱的任务剖面计算的。
其次这个公式还有很多参数,比如说不同阶段的热循环对我们温度的影响系数,不同材料,比如说电路板和组件,不同材料相关的温度的膨胀系数是不一样的,通过查表的方式查询,左侧也是一样的。
这里我们可以看到安装封装的失效率,也是λ3的失效率的计算,这里主要考虑到对角线以及引脚数量之间的关系,也是通过查找的方式进行查询。还有就是πI的影响因子,如果芯片用于这个接口,比如说电脑、电信方面的,包括轨道交通、其他的关于镇流器器件的时候是有接口产品的,要考虑πi的系数。
整个公式里面会发现露片部分,λ1、λ2可能产生整合的场景。比如说同一个电路中使用到不同的要素的时候,比如说CPU、存储器,但是落在同一个器件上,同一个器件的情况下,怎么样实现π1和π2的整合呢?给了一个方法,我用了一个红框框起来了,使用替代方案可以使用单个保守λ2的最大值公式作为代表值。
再看SN29500如何做失效率的计算,这个也有一个手册,还有主动和被动器件失效率的查表。
公式相对来说比较简单和单纯,主要是所查的基础失效率和电压依赖系数、电流依赖系数和温度依赖系数。
这里面很多量是可查的,并没有那么复杂,什么叫额定电压、什么是常量都可以通过查表的方式查询。
电流依赖系数的计算方法也没有特别复杂的,大家也可以查表计算,带到表达式里面计算。
这个是关于温度依赖系数,我们可以看到很多参数,包括活化能和参考的温度和实际结温的温度,都是代入到表达式计算,经过一系列的操作就是为了算出一系列的温度依赖系数。
这是涉及到电应力因子,引入πW系数,大家感兴趣可以拍一下。
这是我们总结了一下SN29500计算的方法,如果是宽工作电压范围,运算放大器、比较器、电压监视器的模拟集成电路,还要考虑飘移敏感因子的系数。其次适用于固定工作电压模拟的集成电路,适用于CMOS B家族的数字电器。
这个是关于温度系数如何查表和对应表达式如何代入,这个是关于结温如何计算的表达式。结温如果能查表就通过查表,查不到表也可以通过公式进一步计算。
这个刚刚提到如果是宽工作电压场景,可以加入πD。
前面参考的失效率是通过查表的方式,我们要先考虑器件的类型,如何查表以及微处理器、微控制器和信号处理器的参考失效率。
我们看一下两种算法之间的区别,首先都是来自于行业来源或现场数据、硬件组件失效率,都包括了封装失效率和裸片失效率。
主要的区别就是刚才说的,IEC 62380封装时候要考虑引脚和PCB之间的失效,SN29500不包括引脚和PCB之间的失效,这是最大的区别。
具体计算的时候可能借助一些工具和算法。
接下来介绍一下芯片功能安全认证导入思路,功能安全是全生命周期的活动,除了设计活动以外,还包括生产工艺活动的标准,包括IATF16949、ISO 26262、ASPICE、AEC-Q100。关于ASPICE我说一下,无论是做芯片开发也好,还是做系统开发也好,ASPICE在汽车行业的可信度和公认度都很清楚,我们也建议导入了这个模型,可以定制做汽车行业系统开发的评估模型。
这个是ISO 26262 2018版part11半导体的指南。
功能安全认证方面主要是分为两方面,一个是流程认证,要过功能安全流程认证,也是支持ASIL D级认证,包括管理和开发过程流程的定制。其次是包括芯片产品的功能安全认证,结合OEM和Tier1给我们功能安全目标开展,或者是基于假设来做功能安全认证,称之为SEOOC产品功能安全开发。
这是我们电子五所认证的历史,汽车认证开展了QS9000汽车质量管理体系认证,到引入CMM/CMMI、ASPICE、信息安全、功能安全、OTA的升级等,服务了大量的汽车同行和汽车芯片的同行企业。
这是我们所有的业务板块,大家也可以了解车规行业相关的认证,这一块除了我刚刚说的功能安全、预期功能安全、信息安全、OTA升级,包括人员能力的评定等等。
说了这么多,最后给大家一张图,说的这么多都是功能安全,包括如何跟其他的管理体系和模型做整合,这个图给我们很好的答案。例如:我们去做信息安全的目标和功能安全的目标,不会是按部就班地做,肯定是到了时间点该提什么要求就提什么要求,是不分前后的,我们看到规模型从左边可以看到,相关项的定义,到HARA分析,怎么形成功能安全、信息安全的目标,怎么形成ASPICE的需求,以及到系统层级、软件层级,包括认证活动,包括验证和确认的动作,这都是我们可以做融合的。不同的颜色代表不同的模型和标准,给到大家很明确的指引,整个系统也离不开支持活动和项目管理活动,也是需要我们各位同仁思考的问题。
如果对我们今天的话题感兴趣,或者你对失效率计算有你的想法或者需要讨论的,可以加微信,我们可以进一步探讨和讨论。
谢谢!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
12月5日-6日,2024全球汽车芯片创新大会在无锡滨湖举办。本届大会以“芯智驱动,协力前行”为主题,由中国汽车工业协会主办,中国汽车工业经济技术信息研究所有限公司联合主办,共设置1场高层峰会、1场大会主旨论坛、3场平行专业论坛、1场定向交流会和1场车芯对接活动,围绕汽车芯片生态建设、市场环境分析、竞争合作及技术创新等方面展开分享和交流,凝聚发展经验和集体智慧,探索解决方案。其中,在12月6日下午举办的“专业论坛三:汽车芯片功能安全及可靠性保障发展论坛”上,工业和信息化部电子第五研究所认证中心高级工程师金鑫发表精彩演讲。以下内容为现场发言实录:
我今天分享的主题是跟车规芯片的功能安全以及很重要的度量指标失效率的讲解。
我主要从几个方面给大家做一个阐述,首先是关于功能安全。在座的各位对功能安全的概念和理论非常熟悉,在芯片这块功能安全提出了什么样的思路或者是我们实现目标的要求。其次是针对芯片失效率计算的方法,在业界有哪些主要的方式方法,我们会给大家做一个介绍,以及不同方法之间的类比。最后是关于功能安全的认证,特别是车规芯片的功能安全流程认证和产品认证如何开展的,跟大家做一个介绍。
首先我们看车载芯片功能安全实施的重要的目的和意义,并且满足功能安全的要求,正如之前石总说的,也要满足工艺方面的选择和要求,确保整体的除了功能安全以外的可靠性和质量方面的要求,这也是很重要的实施的目的。
在功能安全我们要满足功能安全ISO 26262ASIL为目标的功能安全设计流程和实现方法。如何通过设计过程和生产流程过程满足芯片对应ASIL等级的要求,这是我们在座同仁的企业对后续要做功能安全的芯片产品认证打下很坚实的基础,这是很重要实施的目的。
这是我们做芯片功能安全实践思路,包括ISO 26262,包括GB/T34590这是功能安全的标准,与之相对应失效率相关的IEC/TR62380和SN29500也是很重要的功能安全导入的参考要求。
其次是如何在组织里面,特别是项目中开展全生命周期功能安全的管理,我们提了一些建议,包括项目层面、组织层面开展功能安全的活动,如何开展认可措施,如何开展前面各位专家提到的工具执行度和支持活动。在2018版的功能安全里面还提出了part11的指南,今天很多内容也来自这个里面的方法论,大家可以一起看一下。
具体设计层面如何落实呢?包括HARA分析、ASIL安全等级,包括任务剖面的概念,如何开展安全分析的活动,如何使用安全机制来满足功能安全要求这都是很重要的。如何做到ASIL的隔离、免干扰,我们通过DFA的活动。
这是关于全球芯片车载出货量的统计,我就不过多介绍了,包括收益的情况,甚至还有预测的数据的趋势,大家可以看一下趋势。
回到硬件度量的问题,在这个维度里面分为传统的硬件架构度量,单点、潜伏故障率,不同ASIL等级的目标是不一样的,特别是做产品认证的同仁应该很清楚,不同的ASIL等级有不同的要求。
其次就是右侧的随机硬件失效度量,就是PMHF,不同的ASIL等级要求是不同的。
回到芯片在车载芯片,我们主要还是考虑到不同的安全机制、失效分析颗粒度是不同的,根据ISO 26262-Part11 4.3.2里面的应用,失效模式采用与安全概念和相关安全机制相符的详细程度来描述,颗粒度是基于对应的安全机制的颗粒度保持一致,去分析失效模式才有意义。举了两个例子,如果说双核锁步有一个机制,整个芯片作为整体的失效模式。如果说没有相关的安全机制,我们用结构化的方式,比如说软件或者硬件测试的方式,我们的同事也说了相关故障注入测试的机制,进一步分析IC的失效模式以及相关失效模式的占比和最终诊断比例覆盖的情况,这是我们的目的,我们不是为了计算失效率而计算失效率,而是为了得到失效模式的覆盖率和不同失效模式的比例。
右图大家可不可以理解,这个来自于功能安全的标准,表达的就是通过硅原子形成一个晶体管,形成门电路,整个过程中结构是非常复杂的,怎么产生失效和故障,就要考虑两种实例分析的方法到底什么样颗粒度来分析失效模式。
这是常见失效原因分类,主要是通过封装和裸片,我们有一个SE和DIE的定义,就是硬错误和软错误,就是永态故障和瞬态故障。永态故障是没有办法通过其他的方式来恢复,坏了就坏了,这是永态的故障。瞬态故障就是单、多比特位翻转、射线的串扰可以通过恢复,这是芯片领域里面关于失效的分类。
今天的主题是关于芯片失效率的计算方法,这个内容很多,这么短时间不可能说得很具体,我们说一下为什么这么做。首先看一下芯片失效率来源有哪些?首先是供应商提供得到,其次是如果是芯片生产者、设计者,通过我们返修品的数据得出,但是这个通常很少使用此方法,涉及到数据需要准确和广泛记录保存,这在新产品投放市场时无法做到。再就是实验测试中得出失效率的数据,这是常见的做法,短期内可以实现的手段和方法。再就是可以通过业界广泛使用失效率数据手册或者数据库得出,主要是基于IEC 62380。
这里我们看到一个公式,这个公式看似复杂,主要是三部分组成,一是裸片失效率,二是封装失效率,三是过电应力相关失效率,这三个进行求和得到最终失效率的结果。大部分的公司是通过Excel表的方式去辅助我们做这个活动。
这个里面包括裸片、封装、过电应力部分,如果跟过流、过压产生大量的热量,进而导致元器件的损坏。
说到这三个部分以后,我们把复杂的公式进行解耦,第一部分里面就是裸片部分的失效率有几个重要的值,主要包括λ1、λ2,N是集成电路的晶体管的数量,α是制造年份的时间差,这样来看这个表没有那么复杂。不同的芯片类型,不同的年代,不同晶体管的数量所对应λ1和λ2的值不一样的,通过查表算出来的。
其次我们可以看到这里引入一个profile的概念,就是任务剖面的概念,右下角那张表就是典型的任务剖面,分为发动机舱、发动机控制任务剖面,下面是座舱、驾驶舱的任务剖面。这个表有不同的温度,对应开和关的参数,比如说你的车一年到底要启动和关闭多少次?一年下来有670次的开关的次数,如果白天开4次车,一年就有1340次的开合的动作,对于这个开合动作会有不同的系数给到你,这是关于不同任务剖面。
当然除了任务剖面以外,还要考虑到技术工艺、结构方面的温度系数,我们通过查表的方式,比如说MOS、双极和温度系数计算的公式。
不同的场景,不同的使用情况,不同的开合次数对芯片失效率的计算有很大的影响。
这里有一个例子,怎么算结温的温度,我们通过查表的方式,如果Tj为26.27度,我们可以看到三个阶段的温升的值,这是对应的32+26.27,使用的是发动机舱的任务剖面计算的。
其次这个公式还有很多参数,比如说不同阶段的热循环对我们温度的影响系数,不同材料,比如说电路板和组件,不同材料相关的温度的膨胀系数是不一样的,通过查表的方式查询,左侧也是一样的。
这里我们可以看到安装封装的失效率,也是λ3的失效率的计算,这里主要考虑到对角线以及引脚数量之间的关系,也是通过查找的方式进行查询。还有就是πI的影响因子,如果芯片用于这个接口,比如说电脑、电信方面的,包括轨道交通、其他的关于镇流器器件的时候是有接口产品的,要考虑πi的系数。
整个公式里面会发现露片部分,λ1、λ2可能产生整合的场景。比如说同一个电路中使用到不同的要素的时候,比如说CPU、存储器,但是落在同一个器件上,同一个器件的情况下,怎么样实现π1和π2的整合呢?给了一个方法,我用了一个红框框起来了,使用替代方案可以使用单个保守λ2的最大值公式作为代表值。
再看SN29500如何做失效率的计算,这个也有一个手册,还有主动和被动器件失效率的查表。
公式相对来说比较简单和单纯,主要是所查的基础失效率和电压依赖系数、电流依赖系数和温度依赖系数。
这里面很多量是可查的,并没有那么复杂,什么叫额定电压、什么是常量都可以通过查表的方式查询。
电流依赖系数的计算方法也没有特别复杂的,大家也可以查表计算,带到表达式里面计算。
这个是关于温度依赖系数,我们可以看到很多参数,包括活化能和参考的温度和实际结温的温度,都是代入到表达式计算,经过一系列的操作就是为了算出一系列的温度依赖系数。
这是涉及到电应力因子,引入πW系数,大家感兴趣可以拍一下。
这是我们总结了一下SN29500计算的方法,如果是宽工作电压范围,运算放大器、比较器、电压监视器的模拟集成电路,还要考虑飘移敏感因子的系数。其次适用于固定工作电压模拟的集成电路,适用于CMOS B家族的数字电器。
这个是关于温度系数如何查表和对应表达式如何代入,这个是关于结温如何计算的表达式。结温如果能查表就通过查表,查不到表也可以通过公式进一步计算。
这个刚刚提到如果是宽工作电压场景,可以加入πD。
前面参考的失效率是通过查表的方式,我们要先考虑器件的类型,如何查表以及微处理器、微控制器和信号处理器的参考失效率。
我们看一下两种算法之间的区别,首先都是来自于行业来源或现场数据、硬件组件失效率,都包括了封装失效率和裸片失效率。
主要的区别就是刚才说的,IEC 62380封装时候要考虑引脚和PCB之间的失效,SN29500不包括引脚和PCB之间的失效,这是最大的区别。
具体计算的时候可能借助一些工具和算法。
接下来介绍一下芯片功能安全认证导入思路,功能安全是全生命周期的活动,除了设计活动以外,还包括生产工艺活动的标准,包括IATF16949、ISO 26262、ASPICE、AEC-Q100。关于ASPICE我说一下,无论是做芯片开发也好,还是做系统开发也好,ASPICE在汽车行业的可信度和公认度都很清楚,我们也建议导入了这个模型,可以定制做汽车行业系统开发的评估模型。
这个是ISO 26262 2018版part11半导体的指南。
功能安全认证方面主要是分为两方面,一个是流程认证,要过功能安全流程认证,也是支持ASIL D级认证,包括管理和开发过程流程的定制。其次是包括芯片产品的功能安全认证,结合OEM和Tier1给我们功能安全目标开展,或者是基于假设来做功能安全认证,称之为SEOOC产品功能安全开发。
这是我们电子五所认证的历史,汽车认证开展了QS9000汽车质量管理体系认证,到引入CMM/CMMI、ASPICE、信息安全、功能安全、OTA的升级等,服务了大量的汽车同行和汽车芯片的同行企业。
这是我们所有的业务板块,大家也可以了解车规行业相关的认证,这一块除了我刚刚说的功能安全、预期功能安全、信息安全、OTA升级,包括人员能力的评定等等。
说了这么多,最后给大家一张图,说的这么多都是功能安全,包括如何跟其他的管理体系和模型做整合,这个图给我们很好的答案。例如:我们去做信息安全的目标和功能安全的目标,不会是按部就班地做,肯定是到了时间点该提什么要求就提什么要求,是不分前后的,我们看到规模型从左边可以看到,相关项的定义,到HARA分析,怎么形成功能安全、信息安全的目标,怎么形成ASPICE的需求,以及到系统层级、软件层级,包括认证活动,包括验证和确认的动作,这都是我们可以做融合的。不同的颜色代表不同的模型和标准,给到大家很明确的指引,整个系统也离不开支持活动和项目管理活动,也是需要我们各位同仁思考的问题。
如果对我们今天的话题感兴趣,或者你对失效率计算有你的想法或者需要讨论的,可以加微信,我们可以进一步探讨和讨论。
谢谢!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
|