引言:当前,伴随大数据、云计算等新一代信息技术发展成熟,人工智能技术、应用获得重大突破性进展,并高速向各個行业、领域渗透,其中,大数据是人工智能开发、应用基石, 当前以机器学习为主人工智能技术高速发展依赖于底层大数据丰富层次,无敌模型往往须要含有大量样本数据集作为基石,数据质量、多样性将对算法模型成败引发重大影响,数据越多,模型准确度、重复性就越好,因为这個,人工智能须要数据来奠定其智能,反而,伴随越来越多数据在人们生产、生活场景中被收集、利用,数据保障风险、秘密呵护变成人工智能系统在开发、应用过程中面对严峻保障挑战,亟需全球一道治理,
1 数字经济阶段人工智能发展势头
1.1 新一轮数字经济发展浪潮全面来临
数字经济是指以数字化知识、信息为根本生产要素,以现代信息网络为要紧载体,以信息通信技术广泛普及、有效运用为重心驱动,全面推动商业模式改良独创、生产消费效能提升、产业经济智能化升级一系列经济活动,近年来,伴随大数据、云计算、物联网等为代表数字技术带来全球性科技革命、产业变革,以“数字新基建、数据新要素、在线新经济”为重心特征新一轮数字经济发展浪潮全面来临,为根据算法、算力、数据驱动下人工智能全面新发展注入全新无敌动能〔如图1所示〕,
图1 数字经济阶段推动人工智能全面新发展
〔1〕数字新基建变成人工智能新发展坚实底座、基石支撑
近年来,美国、欧洲、日本、英国等全球最先选经济体纷纷大力发展以5G、物联网、工业互联网、云计算、数据腹地、卫星互联网等为代表新型数字基石设施建设,而中国自2018年12月最先发提出“新基建”概念以来,至今已有7次中央级会议或文件明确表达加快新基建建设速度,并在2020年5月将“增强新型基石设施建设”明确写入2020年《政府就业报告》,数字新基建加快推进、连续完善将变成人工智能全面新发展坚实数字底座,其中,物联网、工业互联网将极大拓宽人工智能数据来源、应用场景,5G、卫星互联网则能够大幅度提高人工智能数据传输、搞定以及应用开发效能,数据腹地、云计算设施确保人工智能发展所须要巨大基石计算、存储需求,以人工智能芯片、智能终端、智能计算平台为代表人工智能基石设施则为人工智能应用供应高质量硬件支撑,
〔2〕数据新要素变成人工智能新发展重心动能、无敌驱动
2020年4月,中共中央、国务院发布《关于构建更加完善要素市场化配置体制机制意见》,将数据明确列为一种新型生产要素与土地、劳动力、资本、技术等传统要素并列,并着要紧加快培育数据要素市场,伴随全球各国连续加快数据市场建设,将在后世形成涵盖数据要素确权定价、数据交易流通、收益分配等重心功能数据要素市场改革驱动、政策赋能,能够极大地推动政府公共数据开放、社会企业数据共享,进一步打通数据壁垒,推动形成数据更大规模有序、便捷、全效、保障流动交易宏大数字空间,为人工智能全面新发展注入高质量数据动能,
〔3〕在线新经济为人工智能新发展供应丰富广阔应用场景
伴随全球经济因疫情冲击而遭受重创甚至面对衰退,以在线新经济为代表数字经济模式变成全球经济复苏、转型增长重心驱动,在线新经济本质是传统行业线上化、网络化、数字化、智能化转型,是指以大数据、云计算、区块链等新一代信息技术在办公、医疗、教育、金融、生产、物流等各個垂直领域加速落地并形成新型经济业态,在线新经济兴起将为人工智能发展供应丰富广阔应用场景,连续推动人工智能算法迭代改良,以及向更多行业、更多领域渗透落地,形成人工智能全面新发展浩大、立体需求牵引,
1.2 全球人工智能发展逐步从“探索期”向“成永久”转变
根据行业生命周期理论〔Industry Life Cycle〕、Gartner技术成熟度曲线模型,本文感觉当前全球人工智能发展正在逐步渡过“探索期”并进入“成永久”,且已进入全面转型根本节点,最先选有以下四個根本特征:
〔1〕人工智能专供技术火速突破
专供人工智能就面向特定领域人工智能〔就“弱人工智能”〕,由于其具备任务单一、需求明确、应用边界清晰、传统领域知识丰富、功能建模相对简单等特征,因为这個在重点领域形成技术突破后,随就进入高速商业化应用阶段,变成人工智能迈向“成永久”底层支撑,目前,人工智能最先选应用技术方向涵盖以深度学习为代表机器学习算法;以计算机视觉、图像识别、语音识别为代表智能感知技术;以及以无人驾驶、自动机器人等为代表自主无人系统三大领域,
〔2〕人工智能产业生态蔚然成型
从全球范围内看,围绕专供人工智能技术人工智能产业已经初具规模,中国电子学会发布《新一代人工智能产业白皮书〔2019年〕》显示,2018年全球新一代人工智能产业规模超过555.7亿美元,预计2019年产业规模将突破718亿美元,而据德勤公司〔Deloitte〕占卜,2025年世界人工智能总体市场规模将超过6万亿美元,2017—2025年复合增长率达30%,在产业链上,形成涵盖智能芯片、传感器、智能设备厂商硬件层;数据分析搞定、算法模型、软件开发、根本技术厂商技术层;行业应用、搞定方案、产品服务开发厂商应用层等三大层级体系,整体产业生态发展开始从“探索期”弥补市场空白向“成永久”产业结构改良转型发展,
〔3〕人工智能投融资日趋理性成熟
自2018年全球人工智能投融资达到784.8亿美元高值以来,2019年全球人工智能领域投融资规模开始回落,中国信息通信研究院发布《全球人工智能产业数据报告》显示, 2019 年一季度全球人工智能融资规模126亿美元,环比下降7.3%,创投研究机构CB Insights发布《全球人工智能投资势头年度报告》显示,AI初创公司超过70%投融资为早期投资或 A 轮融资,资金向头部初创企业集中势头明显增强,伴伴随“探索期”风险投资甚至跟风投机泡沫消除,重心技术、商业落地、可持续发展变成投资者最关切决策因素,投融资整体趋向理性绝对带来产业结构改良,驱动人工智能从“探索期”向“成永久”发展,
〔4〕人工智能应用场景向深层拓展
目前,人工智能应用场景涵盖金融、零售、医疗、教育、政务、制造、汽车、家居、智慧城市、数字内容、公共保障等多個垂直领域,相关行业场景应用深度不同,IDC 发布《AI 驱动金融行业智能决策〔2020〕》显示,目前金融行业头部企业AI应用渗透率达75%以上;第二梯队企业AI应用渗透率超过50%;第三梯队金融企业AI应用渗透率约30%,变成当下人工智能渗透率最高应用场景,中国新一代人工智能发展战略研究院对797家中国人工智能骨干企业中581家应用层企业实行祥明分析,供应企业技术集成与方案供应、智能机器人两個应用领域人工智能企业数占比最高,分别为 15.43% 、9.66%,紧随其后是根本技术研发、应用平台、新媒体、数字内容、智能医疗、智能硬件、金融科技、智能商业、零售、智能制造领域,相关研究占卜,到2022年前后,医疗、公共保障、智能制造、无人驾驶、智慧城市等场景整体人工智能渗透率都将超过25%,可以说,“探索期”人工智能发展将最先选向更多应用领域过渡,“成永久”人工智能应用将向更深层次渗透,
1.3 数据保障变成人工智能全面新发展要紧制约难题
数据保障是数字经济发展中最根本保障挑战之一,伴随人工智能在产业、技术两個方面都在加快渡过“探索期”,逐步进入“成永久”, 人工智能发展与数据保障将更加深度地交织在一起,数据保障难题已然变成人工智能突破根本转轨期所必需搞定要紧制约瓶颈,
一方面,人工智能发展加剧传统数据保障风险,在以“数字新基建、数据新要素、在线新经济”为要紧特征数字经济发展大背景下,人工智能新发展绝对伴伴随数据总量井喷式爆发,各类智能化数据采集终端加快增长,数据在多种渠道、方法下流动更加复杂,数据利用场景更加多样,整体数字空间对于人类现实社会各個领域融合渗透更趋于深层,这将使得传统数据保障风险持续地扩大泛化,另一方面,人工智能催生各类新型数据保障风险,人工智能经由训练数据集构造、改良算法模型,因其对于数据资源特有搞定方法,将会带来数据污染、数据投毒、算法歧视等一系列新型数据保障难题,同时人工智能在自动化网络攻击、数据黑产应用,使得传统网络保障、数据保障威胁更加复杂,对国家、企业现有数据保障治理本事形成巨大冲击,
2 人工智能全面新发展数据保障挑战
人工智能全面新发展数据保障挑战既有传统数据保障难题普遍共性,更具有人工智能阶段前无古人后无来者烙印,影响领域覆盖运用者秘密、公民权益、商业秘密、知识产权、社会公平、国家保障等各個方面,因为这個,报告根据数据生命周期视域,从数据采集、数据搞定、数据流通、数据运用4個阶段,重点聚焦分析人工智能发展中较为前无古人后无来者或更突出数据保障难题〔如表1所示〕,
表1 人工智能数据保障风险挑战
2.1 数据采集阶段保障挑战
〔1〕人工智能数据采集时难以保障运用者数据权利
人工智能算法尤其是在深度学习开发测试过程中,须要大量训练数据作为机器学习资料、系统性能测试,目前,人工智能企业数据采集最先选涵盖现场无差别采集、直接在线采集、网上公开数据源、商务采购等方法,在现场无差别采集时,由于无法提前预知采集运用者, 难以获得运用者百分之百授权同意,而在直接在线采集时,由于人工智能系统往往由训练非常好模型部署而成,对运用者数据须要实行连续性搞定分析,因为这個很难保障运用者修改、撤回等权益,在网上公开数据源、商务采购时,由于目前数据共享、交易、流通市场化机制不健全,因为这個存在一一部分企业经由灰色渠道获得运用者数据,而这些数据缺乏运用者知情同意,
另外,伴随计算机视觉、图像识别、语音识别技术发展,以对個人生物特征数据实行采集分析应用变成人工智能发展要紧应用方向,而在各国现行法律规制下,人脸数据、基因数据、体型数据、语音特征等生物特征数据均属于個人敏感数据,对此类数据采集、搞定存在较大法律合规、秘密呵护风险,
〔2〕现场无差别采集大概会引发过度采集
难题现场采集是人工智能数据采集要紧方法,广泛应用于无人驾驶、智能家居、智慧城市等场景中,其最先选经由在公开环境中部署各类传感器或采集终端,以环境信息为对象实行无差别、大概向现场实时采集,现场采集由于难以提前预知采集数据对象、数据类型,因为这個在公开环境尤其是公共空间实行现场采集时, 将无法防止地因采集范围扩大化而带来过度采集难题,比方说在智能网联汽车无人驾驶场景中,自动驾驶汽车传感器须要采集街景数据来持助智能驾驶系统决策于是控制汽车行驶,但是这种无差其他街景数据采集绝对会采集到行人個人数据,甚至大概会采集到路边要紧基石设施分布、军事营区等要紧数据给国家保障带来风险,
2.2 数据搞定阶段保障挑战
〔1〕数据污染大概会导致人工智能算法模型失效
数据污染本质是数据质量技术性治理难题,是指数据与人工智能算法不适配,于是导致算法模型训练本钱激增甚至百分之百失效,数据污染引发原因大概涵盖训练数据集规模过小、多样性或典型不够、异构化严重、数据集标注质量过低、缺乏准则化数据治理程序、数据投毒攻击等,在数据与模型算法适配度极低情况下,实行模型训练时将会明显带来反复改良、测试结果不定鼎等难题,使得人工智能运行本钱大大提高,严重数据污染甚至直接导致人工智能算法模型百分之百无法用,
〔2〕恶意数据投毒攻击导致人工智能决策
错误数据投毒是指恶意攻击者人为地在训练数据集中定向添加异常数据或是篡改数据,经由破坏原有训练数据概率分布而导致模型引发分类或聚类错误,于是连续性引发人工智能决策偏差或错误,最后引发恶意攻击者所期待结果,在自动驾驶、智能工厂等对实时性要求极高人工智能场景中,数据投毒对人工智能重心模块引发定向干扰将会直接扩散到智能设备终端〔如智能驾驶汽车刹车装置、智能工厂温度分析装置等〕,于是引发灾难性事故后果,
〔3〕数据偏差大概会导致人工智能决策带有歧视性
数据偏差是指人工智能算法决策中所运用训练数据,因地域数字化发展不平衡或社会价值倾向偏见,使得数据所承载信息带有难以用技术手段消除偏差,于是导致人工智能决策结果带有歧视性,由于当下专供人工智能最先选是经由对训练样本数据结构、概率实行特征统计,于是构建输入数据与输出结果相关度,而并非经由抽象化逻辑推演获取真正因果关系,同时机器学习算法带有“黑箱”无法解释性,因为这個这种因数据偏差导致决策歧视难以运用技术性百分之百搞定,
比方说在政府根据大数据统计分析来实行决策时,其获取网络数据大概会更多地体现经济发达地区或人群特征,对于数字化层次较低边缘地域以及老幼贫弱人群特征无法有效覆盖,于是对政策制定公平正义引发不利影响,同时在金融征信、医疗教育、在线招聘领域,大概会因边远地区、弱势群体、寥寥无几族裔数据量不够、数据质量不高等原因,导致自动化决策准确率会根据人群特征形成明显分化,于是引发实质性歧视影响,
2.3 数据流通阶段保障挑战
〔1〕人工智能多主体之间数据交互存在泄露、滥用隐患
由于人工智能产业生态体系中各主体之间实行数据交互而导致数据泄露或滥用最先选涵盖三种类型:
其一,由于大量人工智能企业会委托第三方公司或采用众包方法实行海量数据采集、标注、分析、算法改良,因而数据将会在供应链各個主体之间形成复杂、实时交互流通链路,大概会因各主体数据保障本事参差不齐,引发数据泄露或滥用风险,
其二,当下多数人工智能初创企业普遍运用开源学习框架,就经由谷歌、微软、亚马逊等互联网巨头公开模块化基石算法实行应用开发,因为这個初创企业对于开源框架、第三方软件包、数据库、其他相关组件等均存在较大依赖性,且由于缺乏严格测试管理、保障认证,将会面对无法预期系统漏洞、数据泄露、供应链断供保障风险,
其三,经由边缘计算方法实行人工智能系统开发及数据训练是目前企业较为流行做法势头,人工智能云服务平台、开发者、应用者数据交互,将会使部署在云侧、端侧数据面对比传统信息系统更加复杂保障挑战,
〔2〕数据孤岛、数据壁垒难题大概导致滋生数据黑产
由于人工智能发展处于“探索期”向“成永久”过渡阶段性特点,对于底层数据资源博弈仍是人工智能企业最根本市场博弈力体现,反而成熟数据要素市场尚未形成,数据合法、便捷、保障、低本钱交易流通机制仍是空白,远远无法满足人工智能企业发展对于数据资源需求,同时在政府与企业之间、大企业与小企业之间、行业与行业之间,因数据确权、数据保障等难题存在着诸多法律、技术上数据壁垒,形成“数据孤岛”,不光极大制约着人工智能发展,也变成滋生数据黑产最先选经济动因,
〔3〕人工智能引发跨境数据流动引发数据保障难题
在全球数字经济发展不均衡大背景下, 大型科技巨头在人工智能数据资源供给、数据分析本事、算法研发改良、产品设计应用等环节分散在各异国家,而小型初创企业也须要诸多第三方平台、数据分析公司支撑,因为这個,任凭是企业内部还是与第三方协作,在人工智能技术研发、场景应用中均须要常态化、持续性、高速率、低延时跨境数据流动,
比方说在智能网联汽车领域,智能汽车引发路况、地图、车主信息等大量数据大概回传境外汽车制造商,实行产品改良升级、售后服务支撑,将会带来個人敏感数据、要紧数据出境后保障无法控风险,这种人工智能发展引发跨境数据流动,不光因各国日益趋严数据保障规制、当地化要求而面对极大政策障碍,更将对主权国家国家保障、数据主权等带来复杂挑战,
2.4 数据运用阶段保障挑战
〔1〕智能化深度挖掘将会威胁公民秘密、国家保障
深度挖掘是指人工智能技术能够对运用者分散、公开甚至匿名化数据项实行关联分析,于是获得运用者无意公开信息特征、秘密,当前,伴随大数据分析、运用者画像技术高速发展,個性化服务变得越来越普遍,各类平台、企业对于运用者“数字轨迹”数据采集变成其供应精准化产品服务重心基石,这种对于运用者习惯行为永久跟踪、深度分析将使得公民秘密面对保障风险,同时伴随人工智能关联分析技术发展,经由对公民分散、单個无意义数据项实行组合关联分析,能够形成对特定個体识别、特征画像数据集〔比方说活动场所、行动习惯、政治态度、宗教信仰等〕,这种技术不光自身会直接威胁到运用者人身保障、秘密,若被用于政党竞选、政治宣传,将对各国现行政治制度引发极大冲击、颠覆,
〔2〕对人工智能逆向还原攻击将会侵犯商业秘密
逆向还原攻击是指攻击者经由人工智能应用公开访问接口,利用一系列技术手段逆向还原出人工智能算法模型、训练数据,由于算法模型在部署应用中往往须要将公共访问接口发布给运用者运用,攻击者可以利用神经网络等人工智能算法对训练数据集记忆,经由公共访问接口对算法模型实行黑盒访问,于是分析系统输入输出、其他外部信息,并推测系统模型参数及训练数据中秘密信息,甚至一部分攻击者能够经由构造出与意向模型相似度非常高模型,实行连续地改良逼近,于是实行对算法模型窃取,进而还原出模型训练、运行过程,逆向还原攻击对算法模型、参数特征窃取将直接威胁企业知识产权、网络资产保障,而其对训练数据秘密信息窃取将对個人秘密构成保障威胁,
〔3〕对抗样本攻击将会导致人工智能决策
错误对抗样本攻击是指在样本数据输入中添加细微、无法识其他干扰信息,导致模型在正常运转中输出一個错误结果,此类对抗样本攻击既可以是网络空间虚拟信号错误,也可以是物理世界实体识别错误,比方说在智能网联汽车无人驾驶中,经由对实体停车或限速地标精确更改,使得算法模型将其误识别为其他标识,于是引发交通事故,
3 结语
综上,人工智能阶段数据保障难题极为严峻,亟需全球一道治理,人工智能中数据保障治理是一個系统性工程,须要从法规、准则、技术等各個层面寻求应对策略,并须要监管方、政策制定者、人工智能开发商、制造商、服务供应商,以及网络保障企业协作,一道应对数据保障重大挑战,在人工智能技术发展当前阶段,同步奠定保障治理体系,护航人工智能技术健康可控发展。
作者:夏玉明1,石英村2
1 上海观安信息技术股份有限公司
2 上海赛博网络保障产业独创研究院
本文转载自微信公众号信息保障与通信保密杂志社,原载于《信息保障与通信保密》2020年第12期