论证咨询
邬贺铨院士:标准数字化是大势所趋
日期:2022-11-11 来源:《中国标准化 2022-04-26》
导读:《国家标准化发展纲要》提出,要“推动标准化工作向数字化、网络化、智能化转型”。市场监管总局副局长、国家标准委主任田世宏在全国标准化工作会议的报告中提出“积极推进机器可读标准工作,探索数字化条件下国家标准管理新机制。”“加强标准数字化技术研究,把握前沿科技发展趋势,增强标准化基础理论储备。”标准数字化成为今后标准化工作的重要内容之一。为此,本刊近日专访了中国工程院院士、国家标准化专家咨询委员会主任邬贺铨,请他分享对标准数字化的理解和建议。
一、标准数字化顺应数字化、网络化、智能化时代的发展
2022年政府工作报告提出要加快数字技术和实体经济的融合,这种融合表现在很多方面,其中包含有标准化怎样与数字技术融合。标准数字化指利用数字技术对标准本身及生命周期全过程赋能,使标准承载的规则与特性能够通过数字设备进行读取、传输与使用的过程。提出标准的数字化,是希望借助新一代数字技术,更好实现标准的制定和标准的推广、宣贯和实施。标准的数字化包括两个方面,一是标准的表现形式的数字化,二是标准化方法的数字化,通过数字化技术来推动标准化工作的发展。
标准数字化不仅在中国,国际上也在研究这个课题。国际标准化组织ISO对标准数字化给出一个被称为SMART的定义,即无需人员参与可实现标准的机器可读、可用、可理解、可解析,这应该是标准化工作发展的一个里程碑。从过去单纯的文字表达方式转变到现在的机器可读方式,这不仅因数字技术的发展成为可能,而且它也是社会发展的需要,数字化已经渗透到实体经济产业的各个方面,在不少应用场景已经机器换人,让机器理解标准将是社会发展的大势所趋。
我们以智慧城市摄像头拍摄的视频为例,马路上数十万的交通监控摄像头都联网到城市的交管中心,可是交管中心监控室电视墙再大也放不下这么多视频屏幕。现在基本上是按马路分时显示,例如每分钟一条马路,一条马路上的摄像头也不少,靠人盯着看的效率很低。现在我们希望把所有马路上的监控视频通过人工智能的技术合成为一个全城交通动态视频,可显著提升人来监看的效率。还有一种方法无需合成,通过计算机直接来读这些分散的视频,依据监控点时空位置的标签,由机器代替人获得全局的了解。未来的这种交通监控视频不是供人来看的,以人作为观看对象时考虑的是视频的帧率与分辨率对应人眼的分辨率能力即可,机器视觉的视频编码算法标准跟供人看的标准会有不同,所以我们要考虑从人来阅读到机器来阅读不仅仅是方式发生了变化,可能连标准内容甚至里边的一些内涵、规定、指标都会有所不同。
我们现在进入信息技术的新时代,整个社会经济都在向数字化、网络化、智能化转型发展,在标准化方面体现的就是标准的数字化。
二、标准数字化能为我们带来什么
第一,首先是标准的呈现形式的变化。我们知道标准过去基本上都是文本,那么未来要让机器可读,标准文本就要变革。机器的可读化首先是机器可检索,即从机器可以发现和找到这个标准。然后是机器可读,也就是把标准的内容能够读出来。进一步发展到标准的可理解,机器能理解标准的内涵,可交互,最后可以去执行。机器可检索相对容易,机器可读就有困难了。
人工智能的技术发展都可以通过语义理解把中文变英文,英文变中文,那机器可读有什么困难呢?首先标准是专业的,人工智能的模型和算法是要根据处理的任务经过大量的数据训练才能优化,这种训练不可能覆盖所有专业,何况人来阅读标准都有专业门槛问题。其次标准里面包含公式、图表、曲线等非结构化数据,计算机一般比较难理解非结构化的内容,在这些方面的标准可视化和可读化并不简单,还要做不少工作。
如何做到机器可读,可以先从标准的描述语言入手。现在有人用XML的语言来描述标准,XML是可扩展的标记语言,是一种可以描述数据对象的计算机的语言,而且它比一般的数据语言多了一个包含对这个数据对象的解释,这就降低了计算机对数据的理解难度。
要做到机器可读还可以引入程序来描述标准,比如说有些算法可以直接成为标准,这就引入到标准数字化表现形式的另外一方面——开源软件和开源软件的应用。《国家标准化发展纲要》提到的标准数字化,涉及机器可读、开源软件两大方面。开源软件现在在开源社区里用的比较多,它是一种软件,或者说它是把一个技术规范以一种算法来描述,计算机就便于执行,显然开源也是标准数字化的一种表现形式。不过符合以开源软件方式表达的标准还是很有限的。
标准数字化不仅在于标准的表现形式,还表现为标准化方法的数字化,让数字化贯穿标准化的全生命周期,便于标准的制定、实施和推广应用。首先通过开源众包加快标准制定和修订的过程。过去我们制定标准习惯用会议和函审的方式,现在我们可以用开源众包的方式即建立一个“在线协作写作”平台让更多人参与标准制定的过程,在数字化环境中进行标准协作开发,能够在数周时间内形成可交付成果,显著缩短标准制定周期。标准按照常规的办法,几年才修订一次,而开源可以快速迭代,动态更新,加快标准的制修订。这里会涉及到一些管理体制的问题,未来国家标准能否允许这样做还需要研究,但团体标准可以探索,大家可以快速地参与到开源平台上,只要同意了就能更新,这适用于新兴或快速演进技术领域的标准。
第二,易于发现标准制定的背景及与知识产权等的关联。我们可以通过人工智能和大数据的技术,很好地将国际标准、国家标准、团体标准快速进行对照,找出标准间的引用关系,发现哪些内容是一致的,哪些是不一致的,国际标准的采标率到多少,适用范围有什么区别?还可以在术语、技术体制、规范、测试方法、产品要求等系列的技术标准中发现有无矛盾或需要改进以便表述更严谨之处。标准数字化还方便将标准与知识产权关联,包括易于检索到在标准制定过程中相关方对知识产权的声明,以及专利持有人是否承诺遵守FRAND(公平、合理、无歧视)原则对专利实施人许可,或有关知识产权机构对该专利是否授权等,既可知道某一标准涉及多少标准必要专利(SEP),也可识别某一专利是否SEP。总之,标准数字化结合新一代信息技术可以很好地把标准的一些细节搞清楚。
第三,助力对标准实施的监管。因为标准是数字化的,监管部门能从实施标准的行为数据上发现它是否符合标准,容易对这种标准实施的合规性进行检查。过去让政府主管部门去读那么多标准是有困难的,但是如果我们做的事情有数据留痕,根据这些可以跟标准来比对,就能发现这些工作是否符合标准,就可以更好地进行社会的治理,这也是标准数字化希望能够实现的一个好处。
第四,标准知识的快速检索。一个标准文本往往很长,在一个执行实施的项目里,可能只是用到这个标准的某一点或某一方面,并不一定涉及全部标准,但是实施方需要将整个标准从头到尾读一遍,有些工作涉及到多个标准,把所有有关的标准都读起来,可能就比较难。为什么会导致现在有些工作没有很好地符合标准,实际上是觉得标准太多了,不知道这个事情跟哪个标准有关,所以就导致了执行可能不符合规定。现在通过机器可读无需下载阅读大量的标准文本即可智能推送,实现快速的知识检索,甚至通过机器直接编译成工作指令或规则,可精准地指导实施。标准数字化不仅仅是对标准制定部门和起草单位例如标准化技术委员会受益,也有利于标准的监管部门如国家标准化管理委员会,同时对我们实施的部门也都很有帮助。
三、技术、体制方面的挑战
标准数字化是工业革命以来标准化发展史的一次里程碑,是数字经济时代标准化的主要特征,为标准化工作创新展现难得的机遇,促进标准化方法和管理制度的变革,但也带来前所未有的挑战。
一是标准化管理的挑战。标准数字化本身不完全是技术工作,这里边是有很多技术上的事要做,但还要管理上做相应改革,需要重新审定标准制修订流程与审批管理权限。我们原来的标准规定都是针对人来读和人来执行的,虽然每个人读标准可能会有不同的解释,但每一个标准都会注明解释权的归属,标准的实施方遇到问题会申请解释。现在转到了机器来读,机器执行的算法是人来编的,不同机器也可能有不同的理解,解释权的归属没有变化,还得回到标准的制定单位或标准实施的主管部门,但机器会认识到标准条款可能有理解的多义性而主动提出要求解释吗?在标准机器可读的时代不能都交给机器仍然需要人介入,什么时候人要介入以及如何介入,需要在管理上加以明确。另外,按现在的管理规定,团体标准机构需要具有在民政部注册的法人资格,而负责制定开源软件标准的开源社区不具有这样的资质,标准化管理模式的改革需要适应标准数字化做探索。
二是人工智能技术的挑战。利用人工智能技术分析大数据,从错综复杂的事物中厘清来龙去脉,给出决策参考,在很多领域的应用已经表现出超越工作人员的智慧,但也要注意到人工智能通过内部神经网络运算给出的结果可解析性差,往往是知其然不知所以然,无法说明为什么是这个结果,在一些重要的应用中难免对人工智能给出结果的可信性有疑虑。标准的机器可读会用到人工智能技术来理解语义,同样也面临人工智能技术方面的这些困境,如果某些很重要的事情按机器可读的标准操作了,99%的时候可能是对的,但是并不排除有1%的时候会误判。如何能避免人工智能导致的误操作呢?在人读标准出现理解偏差时当然是人的责任,在机读标准出问题时很难界定是机器算法的设计者还是机器的使用者或所有者须承担责任。我们不能因为标准机器可读会陷入到目前人工智能技术的误区而放弃标准数字化的努力,任何技术不用是不可能完善的,还是要推动机器可读的应用,为了避免风险,机器可读标准可从那些即便出现机读误判也不至于产生很大影响的标准做起。
三是网络安全的挑战。机器可读必然会利用计算机系统,信息技术是双刃剑,网络系统本身容易遭遇黑客木马攻击,网络上有的风险在标准数字化以后也会有这样的风险,
可以想象使用“中毒”的机器来理解标准会有什么结果?标准数字化需要高度重视其所关联的信息系统的安全性,并且重要的标准不能完全依赖机器来解读,人要对机器解读的结果把关。
四、任重道远
标准数字化工作任务艰巨,需要有长远规划有序推进,当前需要从以下几方面做起。
一是当务之急需要一个关于机器可读标准的标准。明确机器可读的要素以及用什么技术来支撑机器可读。关于标准描述语言,前面提到XML可扩展的标记语言,也有人提出用JSON语言,未来可能还会出现别的格式的语言,需要从中优选,如果多语言并列的话还要解决兼容问题。对标准中的公式、算法、程序、流程图、电路图、曲线图等都要有一个统一的机器表示形式。总之,对机器可读标准中最基础的元数据需要先有规定,国标委部署了中国标准化研究院来做这方面的研究。中国标准化研究院、浙江省标准化研究院等也分别开过一些研讨会,探讨怎么做标准数字化的基础工作。
现在ISO和ITU以及国外一些标准化机构都在研究标准数字化,但到目前为止国际上也还没有出台一个大家公认的机器可读标准的标准,这方面起步还不那么容易。不过在个别领域已经开始探索,出国旅行都要护照签证,过去是靠边防的人员来看,现在可以让机器来读。2017年出现了机器可读护照的国家标准,包括机器可读护照、机器可读签证和机器可读旅行文件三个部分。现代的护照本内有芯片,就像我们国内的二代身份证,机器读身份证和护照实际上是在读芯片,把芯片的信息读出来跟预存的信息对比。机器可读护照的模式难以用到机器可读标准,将芯片嵌入到每一个标准文本中的方法难以推广。
二是标准可读可理解需要建立相应的专业平台来支撑。标准基本都是专业性的,对这些专业的理解不是一般的人工智能就能胜任,需要经过训练。利用大数据技术从海量的标准文本中建立知识图谱,构建标准知识“本体”,发现机器可读的规律。中国电子技术标准化研究院正在研究标准知识图谱的规范,这也是一个基础的研究,目前还未形成可发布的标准。不过标准覆盖的领域非常多,仅有通用的知识图谱还是不够的,需要分专业领域来开发相应的标准知识图谱,开发和建设一批针对专业领域标准机器可读的云平台,例如机械、电子、生物、化工、冶金、建筑等行业的标准数字化技术平台。这些工作需要国家标准化管理部门统筹协调,责成有关部门开发建立这样的平台,帮助促进标准数字化的应用。据了解我国国标委曾经部署在航空专业领域探索机器可读标准的研究与可能的技术支撑。
三是人才培训。我们原有写标准的人应该说很多都是老手,知道怎么写标准,用标准的语言都比较简洁,而且很少歧义。但原有的标准化老手未必胜任编写用XML等语言来描述的机器可读标准,通常的IT的专家也并不熟悉标准化的规则与行业的技术。既要熟悉专业,还要熟悉原来标准编写的规则,还需要熟悉使用机器可读的技术,这样的人才绝对是稀缺的。标准数字化的人才培养问题需尽早提到议事日程。
四是建立标准数字化的管理规范。标准数字化是个新问题,涉及到标准化全生命周期的管理,我们需要针对性地修改标准化相应的规定和流程,否则标准机器可读化这种文本形式及其产生方式的合法性就是个问题。标准化具有很强的国际性,标准数字化的研究需要加强国际合作。另外,标准数字化不能一哄而起,需要有规划做好试点再推开,机器可读标准的最有效应用场景是生产现场的装备按标准自动执行流程,这些领域的标准机器可读化可以先行推进。现有这么多存量的标准都要变成机器可读其工作量很大,需要从长计议。总之,标准数字化对于标准化发展是难得的机遇,对从事标准化研究、标准制定和实施及标准化管理部门也是新的挑战。