2024年3月27月,在哪吒汽车技术论坛暨前瞻技术上,TTTech Auto China总经理欧阳扬对4SDV和系统级调度进行了介绍。他指出,原来的SDV存在一定局限性,功能安全、信息安全靠软件是无法实现的,其应当是一个系统级概念,因此在设计系统上应当从系统、功能安全、信息安全、软件四方面出发。
欧阳扬|TTTech Auto China总经理
以下为演讲内容整理:
TTTechAuto概览
TTTech公司来自奥地利维也纳,成立于1998年,TTTech中的“TT“是时间触发的意思,我们所熟知的TSN就是时间触发的技术。TTTech还提出了TTA时间触发的架构,能够为高安全、高可靠性、高实时性的系统提供理论基础。我们的MotionWise已经应用于两百多万辆汽车上,计划未来要应用在950万辆汽车上。
奥迪、三星、英飞凌、安波福等财务稳健的公司是我们的股东,TTTech下属多家100%控股的子公司,还投资了DDS的专业公司Zettascale,其开创了开源的Cyclone DDS,有超过30年DDS方面的经验,也是DDS OMG标准的主要贡献者之一。
我们在航空、航天、工业等有许多应用,安全关键性系统在波音787、空客380、中国大飞机C919、NASA猎户座号的宇宙飞船等项目上都得到了广泛的应用。我们把航空航天等其它领域的高安全可靠性的系统应用在汽车的自动驾驶当中,可以说TTTech的DNA就是安全。
4SDV架构
汽车行业进入了淘汰期,产生这种现象的原因是多元的,包括市场、竞争、技术等因素。我们认为在L2向L3、L4变迁的过程中,由于技术、安全性等原因,未来淘汰率可能会有所加剧。当前行业正处寒冬,寒冬后要想实现下一次行业爆发,就需要从多领域解决问题。
当前我们面临着功能安全、信息安全、预期功能安全、验证四大技术挑战,我们的系统要完成从故障静默向故障可运行的升级。
在迈向L3、L4的过程中,我们认为面临着几个不可能。
一是在一个大型而复杂的单一软件系统中,不可能找到所有的设计错误。这里的大型软件是指代码行数超过一万行,但在汽车行业代码经常按百万行来计算,所以不可能设计出一个完美无缺的软件。
二是在超可靠系统的生命周期内,不可能避免非冗余硬件中的单事件翻转,如位翻转。位翻转往往指的是二进制中位的值从0变成了1,或者从1变成了0。造成这种翻转的因素有很多,包括数据传输中的错误,电磁干扰、宇宙射线等,而且这种位翻转是偶发的,它是软性的错误,不会永久损伤硬件,也就意味着再次检测系统的时候很难发现它的故障,但故障一旦发生,后果就会很严重。
三是不可能通过测试和仿真,找到大型系统和软件中的所有设计缺陷。
四是不可能精确定位在驾驶情况下可能遇到的所有边缘情况。这种边缘情况在正常状况下不会发生,但一旦发生了就有可能造成严重后果。
在存在如此多不可能的情况下,L4系统应当如何设计呢?我们可以把系统划分成多个FCU组合,也就是故障隔离单元的组合。故障隔离单元应该包括故障的检测机制、响应机制、系统的恢复机制。故障隔离单元是在不影响系统性能的情况下,让系统正常运行或快速恢复到正常状态。TTTech提供L3/L4自动驾驶的方法论和设计服务。
针对L3、L4的自动驾驶车辆,我们提出了4SDV这一概念。我们认为原来的SDV存在一定局限性,功能安全、信息安全仅仅依靠软件是无法实现的,其应当是一个系统级概念,因此我们在设计系统上应当从系统、功能安全、信息安全、软件四方面出发。
图源:TTTech Auto China
我们认为从SDV到4SDV的过程中,最开始的设计就应该从系统工程角度考虑以上几个方面,还要考虑可用性、可集成性、可升级性等。我们要有自顶向下的设计和系统,以免未来需要靠打补丁的方式弥补,这种情况有可能使得我们无法达成预期目标,或造成成本超支。
汽车的E/E架构是从分布式向集成式转变,但分布式架构其实也存在诸多优点,如结构简单、通信延迟低、调度简单、容错简单等,集成起来也很方便。我们在集中式架构中需要考虑在复杂的环境下如何面对挑战,如任务和应用越来越多。这些任务、应用会在集中环境下抢夺带宽资源、计算资源、内存资源。因此我们需要考虑如何保证高可靠实时系统的实时性、确定性、保证不同数据流之间互不干扰。
在智驾领域,我们需要将安全等级做到ASIL-D,让系统具备故障可运行的能力,保证时间和数据的确定性。
在与OEM接触的过程中,我们发现大家都遇到了相似的困境,即大量任务没有被有效编排或调度、没有确定的通信等,造成CPU的开销高、功能和性能的偶发性问题等,且这类问题很难被复现;即使复现,也很难被解决。
如果我们能将前面所提及的任务合理调度,让通信更加确定,就能有效避免以上问题的发生,甚至能够降低系统资源占用率,降低硬件成本,并提高系统的安全性,易集成性。
他山之石 可以攻玉
航空航天架构和系统的发展历程与汽车行业十分相似。最早的航空电子系统是分立式的,比如40-50年代的F100/F101战斗机。80年代起,联合式系统得到应用术,如B737,A320, F16等;到90年代后,综合模块化系统技术(IMA),在A380,B787和C919等飞机上开始普及;目前,新一代航空电子系统分布式综合模块化系统技(DIMA)已经开始得到应用,如S-97直升机以及NASA宇宙飞船等。
图源:TTTech Auto China
从综合模块化 到分布式综合模块化(分布集中式)有许多变化。集中式架构的综合区域功能复杂,吞吐量大,对中心CPU运算能力要求高。其通过中心机箱I/O难度大,线缆偏多,总线利用率低,高可靠性系统难以综合,故障管理能力和容错能力较差,可伸缩性不强。
图源:TTTech Auto China
而在分布集中式架构中,在物理空间上,系统是分布的,遵循“按需部署,就近部署”原则,靠近信号源和被控系统, 与前端信号源的预处理相结合,会降低对主CPU的性能要求,并减少硬件尺寸、电缆及冷却等问题。网络层面采用基于时间触发的容错通信网络 ,为各子系统提供了故障隔离,综合超高可靠性功能,和音视频信息,提高系统的资源综合与信息共享,将平台从quot;时间/空间分区quot;扩展到quot;时间/空间/通信分区quot;,从而实现了系统资源的高度共享。逻辑空间上像集中式一样统一管理,统一配置和调度,支持任务重构,实现车载“嵌入式云。”
第二块“他山之石”是,确定性以太网和DDS。DDS只提供了应用级的确定性和安全性。在高可靠和高确定性的应用中,DDS需要配合确定性网络技术。TTTech在十几年前就将DDS与TTEthernet网络进行了结合。DDS的应用级可靠性、可用性、安全性适用于“故障静默”场景,TTEthernet适用于网络级“故障可运行”场景,DDS amp; TTEthernet则可适用于系统级“故障可运行”场景。今天TTTech对TSN与DDS的结合进行了优化设计。
回到汽车行业,我们发现很多OEM单独测试TSN或DDS时,测试结果符合预期,但是当把它们集成到系统中,或将TSN和DDS结合在一起的时候,效果非常不理想。这说明并不是这两项技术本身不具备先进性,而是没有对它们从系统级进行统一调度和优化。
图源:TTTech Auto China
从整个系统配置来看,我们提到要考虑设计、资源调度、资源规划等因素,但这一问题非常复杂。需要用先进的、有量产经验的工具软件进行配置和调度。
解决方案
我们在系统搭建中面临着诸多挑战。包括如何有效配置资源、在运行可预测的系统同时保持性能、如何保证数据已经到位,保障数据的依赖性、如何将图计算进行映射等。
我们的系统必须有效地找到一个可预测的执行边界,并充分利用异构资源。我们要能够综合多种不同的数据流,时间触发、事件触发、数据驱动等,需要能支持异构的系统,支持不同的CPU、GPU以及其它的硬件加速器。我们还要用自动化工具替代手动配置,还要考虑功能安全的FFI,也就是不同功能安全组件的模块之间相互不受干扰,其中包括对时间和空间上的干扰。
在使用TTTech确定性调度工具和确定性通信技术的情况下,我们的预期目标是,将每版软件的集成时间从60天降为1天,把每版软件验证的时间从52天降为5天,将CPU的利用率从70%提高到90%,也就是每5个CPU中节省1个CPU,节省硬件成本。