基于密码的大模型安全治理的思考-爱建模

基于密码的大模型安全治理的思考

其他向日葵

2024-09-04 09:11

随着大模型技术的迅速发展和广泛应用，其安全性问题日益凸显。密码学作为网络空间安全的核心技术之一，在保障大模型系统安全方面发挥着重要作用。围绕大模型技术发展态势、安全政策与标准现状，针对所面临的安全威胁与风险，研究密码技术在大模型系统安全治理中的应用，并提出基于密码的安全治理架构，阐述架构的构建原理和关键组成，为大模型的安全防护提供了新的视角，为后续密码学与人工智能技术的融合研究提供参考。

随着云计算、大数据的发展，以及机器学习、深度学习等技术的不断进步，人工智能（Artificial Intelligence，AI）进入大数据驱动的新一代人工智能时代。目前，人工智能已被广泛应用到城市规划、无人驾驶、医疗诊断、石油测井、气象预报、交通管理等领域，融入生活的方方面面，并成为国家战略。习近平总书记在十九届中央政治局第九次集体学习时指出，“人工智能是新一轮科技革命和产业变革的重要驱动力量，加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”。

在技术发展方面，随着谓词推理、专家系统、知识树和向量机学习等传统技术的发展日趋放缓，促使以联结主义和概率统计等理论为基础的深度学习加速发展，迈入了以人工神经网络为基础、以大模型为典型应用的新发展阶段。大模型技术推动社会经济各个领域向数字化、信息化、智能化发展的同时，也面临着严重的安全性威胁。目前，国内外关于大模型安全治理的研究包括多维对抗、网络裁剪、后门逆向、激活值聚类等防御方法，但这些研究重点针对具体威胁，缺乏对大模型安全治理体系与框架方面的研究，使得成果较分散。本文围绕大模型安全治理需求，尝试提出一套基于密码的安全治理架构，希望为大模型安全治理的体系研究提供参考和支撑。

1.1　大模型技术的发展历程

2006 年，Geoffrey Hinton 及其团队提出“深度学习”的概念，用于训练深层次的神经网络。回顾过去十多年的技术发展，随着计算硬件（尤其是 GPU）的发展和海量标注数据的获得，深度学习主要经历了 3 大转变：从“标注数据监督学习”的任务特定模型，转变到“无标注数据预训练 + 标注数据微调”的预训练模型，再转变到“大规模无标注数据预训练 + 指令微调 + 人类对齐” 的大模型，逐步成为实现人工智能的关键技术，推动人工智能技术进入大模型时代。 2022 年底，由 OpenAI 发布的语言大模型 ChatGPT 引发了社会的广泛关注，发布后仅两个月，用户数突破一亿人。

在“大模型 + 大数据 +大算力”的加持下，ChatGPT 能够通过自然语言交互完成多种任务，具备了多场景、多用途、跨学科的任务处理能力。2024 年 5 月 14 日， OpenAI 宣布推出 GPT-4o，GPT-4o 可以实时对音频、视觉和文本进行推理，是迈向更自然人机交互的一步，可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。以 ChatGPT 为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用，也引发了新一轮人工智能的产业发展热潮。

1.2　大模型技术的产业发展

人工智能产业属于战略性产业，全球各国家、企业都纷纷抢占技术制高点。我国人工智能产业技术基础已经具备，各应用场景的技术研发及落地也进展顺利，其中大模型技术作为通用人工智能发展的重要路径之一，在人工智能产业化的应用趋势日益明朗。

（1）在金融方面。2023 年 6 月，恒生电子发布多款大模型金融应用，其中金融行业大模型 LightGPT 使用超过 4 000 亿字节的金融领域数据进行预训练，支持 80 多项金融专属任务，能准确理解金融业务场景需求。

（2）在医疗方面。2023 年 5 月，医联推出医疗语言大模型 MedGPT，实现从预防到康复的全流程智能诊疗，提升实际临床应用价值。同年 7 月，谷歌 DeepMind 研发 Med-PaLM 医疗大模型，其在医学考试和开放式问答上达到专家水平，回答准确率高达 86.5%，大幅超过早期版本。同月，京东健康发布“京医千询”大模型，可以理解医学多模态数据，并根据个性化诊疗需求进行智能决策。

（3）在气象方面。2023 年 7 月 6 日，国际顶级学术期刊 Nature 杂志正刊发表了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》（Accurate Medium-Range Global Weather Forecasting with 3D Neural Networks）。华为云盘古大模型使用了 39 年的全球再分析天气数据进行训练，与全球最佳的综合天气预报系统（Integrated Forecasting System，IFS）相比，盘古气象在相同的空间分辨率下速度提升了 10 000 倍以上，同时保持了极高的精准度。

（4）在军事方面。2024 财年，美国国防部计划增加与人工智能相关的网络安全投资，总额约 2 457 亿美元，其中 674 亿美元用于增强网络 IT 和电子战能力。2024 年 4 月，俄罗斯媒体报道，俄罗斯即将在俄乌战场上大规模使用各种智能机器人平台的新型作战装备。俄罗斯将成为人类历史上第一个把无人作战平台成建制、大规模地应用于战争中的国家，这将成为人类战争史的一个转折点。

2.1　国外大模型安全政策与标准

世界多国都致力于占领人工智能战略制高点，在制定人工智能发展战略的同时，也高度重视人工智能的安全问题，以期保持自身在人工智能领域的技术优势。2023 年 1 月 26 日，美国国家标准与技术研究院（National Institute of Standards and Technology，NIST）发布了《人工智能风险管理框架》，该框架是一份非强制性的指导文件，其第一部分分析了组织如何管理与人工智能相关的风险，并概述了可信赖人工智能系统的特征，第二部分介绍了人工智能风险管理框架核心的 4 大功能，即治理、映射、测量和管理。

2023 年 3 月 29 日，英国政府发布《促进创新的人工智能监管方法》白皮书，提出了人工智能应遵守的 5 项原则：自身安全、应用安全与稳健性；适度的透明性与可解释性；公平性；问责制与可治理性；竞争与补救。2024 年 4 月 10 日，德国联邦信息安全办公室（Bundesamt für Sicherheit in der Informationstechnik，BSI）发布《生成式 AI 模型——行业和当局的机遇和风险》指南，概述了语言大模型的机遇和风险，并提出了解决这些风险的可能对策。2024 年 5 月 21 日，欧盟理事会正式批准了《人工智能法》，该法案会根据不同风险等级的人工智能应用，制定针对性的监管标准。这是全世界第一部对人工智能领域进行全面监管的法案。

2.2　我国大模型安全政策与标准

习近平总书记在多次会议中指出，“ 要重视通用人工智能发展，营造创新生态，重视防范风险”“要加强人工智能发展的潜在风险研判和防范，维护人民利益和国家安全，确保人工智能全、可靠、可控”。通用人工智能的安全风险已经得到了党和国家的重视，国内相关机构积极制定安全政策与标准规范。

2017 年，国务院发布《新一代人工智能发展规划》强调，“当前，我国国家安全和国际竞争形势更加复杂，必须放眼全球，把人工智能发展放在国家战略层面系统布局、主动谋划，牢牢把握人工智能发展新阶段国际竞争的战略主动，打造竞争新优势、开拓发展新空间，有效保障国家安全”。2020 年 7 月，国家标准化管理委员会、中央网信办、国家发展改革委、科技部、工业和信息化部联合发布的《国家新一代人工智能标准体系建设指南》指出，“重点开展人工智能安全术语、人工智能安全参考框架、人工智能基本安全原则和要求等标准的研制”。

2024 年 4—5 月，全国网络安全标准化技术委员会先后发布《信息安全技术生成式人工智能预训练和优化训练数据安全规范》《信息安全技术生成式人工智能数据标注安全规范》《网络安全技术生成式人工智能服务安全基本要求》3 个标准的征求意见稿，面向社会公开征求意见，旨在建立人工计算平台安全框架，明确数据处理过程安全保护要求规范，提高生成式人工智能数据与计算平台的安全性。

3.1　大模型安全风险分类

与大模型技术发展的突飞猛进形成鲜明对照的是，大模型仍面临诸多潜在的安全风险，尤其是在政治、军事、金融、医疗等关键的涉密应用领域，任何形式的恶意攻击都可能给国家社会的稳定以及人民的生命财产安全带来严重的后果。学术界、工业界从大模型自身安全、恶意应用的安全威胁两方面开展研究，结果表明这些安全性威胁极大程度上破坏了大模型技术良性发展的生态。

在相关研究方面，文献 [1] 将大模型自身安全风险总结为 6 大类，包括隐私数据泄露风险、算法模型可解释性难度大、模型可靠性问题、滥用误用扰乱安全秩序、模型和数据安全保护难度提升以及网络意识形态安全造成冲击。文献 [6] 提出大模型的恶意应用将构成网络威胁、物理威胁、政治威胁、军事威胁等，且上述威胁之间互有联系。例如，人工智能黑客可以针对网络和物理系统，造成设施甚至人身伤害，并且可以出于政治目的进行物理或数字攻击。

3.2　大模型自身的安全风险

大模型技术应用中数据训练不当、数据存在偏见或歧视性内容，将导致决策的歧视性和不公平性，进而导致特定场景的种族歧视、就业歧视、性别歧视等社会问题。公开标注数据集测试表明，ChatGPT 在价值观层面偏向西方，生成内容中存在大量对中国的偏见言论，加之 ChatGPT 在中文知识和常识问答上很容易出现错误，而且会使用流畅的句子对编造的虚假事实进行阐述，对信息来源受限的群体来说具有一定迷惑性，极易成为部分国家针对我国制造“认知陷阱”的工具。

此外，大模型还面临着隐私泄露攻击、后门攻击、投毒攻击等多种恶意攻击。

一方面，大模型的应用减低了用户的警惕性，使用 ChatGPT 等语言大模型工具时更容易透露个人隐私、商业秘密、科研成果等数据；

另一方面，攻击者可以在不接触隐私数据的情况下利用模型输出结果、模型梯度更新等信息来间接获取用户隐私数据，导致严重的隐私泄露。后门攻击是一种针对深度学习模型的新型攻击方式，其在训练过程中对模型植入隐秘后门。后门未被激活时，模型可正常工作，一旦后门被激活，模型将输出攻击者预期的结果以达到恶意的目的。由于模型的黑箱特性，这种攻击往往难以检测。此外，攻击者可以通过恶意篡改训练数据、污染大模型的训练过程，实现数据投毒攻击，从而破坏大模型的可用性。

3.3　大模型恶意应用的安全风险

以 ChatGPT 为代表的大模型技术可被犯罪分子利用，带来生成恶意软件、造谣传谣、泄露敏感信息、高效率高质量生成钓鱼邮件等一系列安全威胁。2023 年 1 月，威胁情报公司 Recorded Future 在暗网和封闭论坛发现了 1 500 多条关于在恶意软件开发和概念验证代码创建中使用 ChatGPT 的资料。该公司的研究团队已经确定了 ChatGPT 可以有效生成恶意软件有效负载，包括信息窃取器、远程访问木马和加密货币窃取器。

2023 年 3 月，欧洲刑警组织发布题为《ChatGPT：大型语言模型对执法的影响》的报告称，ChatGPT 被滥用于发动网络钓鱼攻击、生成散布虚假信息。2023 年 4 月，三星被曝芯片机密代码遭 ChatGPT 泄露，内部考虑重新禁用。不到一个月的时间，三星曝出了 3 起员工通过 ChatGPT 泄露敏感信息的事件。2023 年 7 月，黑产语言大模型 FraudGPT 在暗网上公开出售，用于快速编写恶意代码、制作难以检测的恶意软件和黑客工具、编写网络钓鱼页面和欺诈内容，以及寻找安全漏洞。

3.4　大模型安全需求分析

针对大模型面临的安全风险和威胁，国内外相关企业采用了不同的安全解决方案。文献 [2] 中简要介绍了华为的解决方案，华为将大模型安全威胁分为软硬件安全、数据完整性、模型保密性、模型鲁棒性和数据隐私 5 个部分，主要考虑从攻防安全、模型安全和架构安全 3 个层次进行安全防御。其特点是在业务中实际使用大模型，结合业务自身特点，综合利用隔离、检测、熔断和冗余等安全机制设计部署方案，增强业务健壮性。

本文基于大模型目前应用与发展中所面临的安全威胁与风险，参考业内研究成果，提出大模型的安全治理需求，总结为身份可管、数据可信、平台安全、设备可控、算法安全、隐私保护 6 个安全需求。一是身份可管。人类对未来人工智能社会的设备、机器、人等实体能够精准识别并管理。二是数据可信。大模型使用的数据是安全可信的，并且能保证正确执行。三是平台安全。大模型所依托的计算、存储等平台是安全的。四是设备可控。人类对大模型相关设备具有绝对的控制权。五是算法安全。大模型算法引擎的发布和使用应该可信、可控。六是隐私保护。大模型不能非授权获取、计算、推理出人类的隐私数据。

目前，学术界、工业界主要围绕大模型面临的威胁做针对性研究，尚未提出能够获得业内普遍认可的大模型安全保障体系，也鲜有从密码学角度开展安全治理的研究。本文以密码底线思维为指引，提出利用密码技术对大模型安全治理提供支撑，并尝试搭建基于密码的大模型安全治理架构，如图 1 所示。

4.1　密码基础支撑

针对身份可管需求，面向各类实体的统一认证、跨域信任、数字证书、应用密钥管理等需求，通过统一网络信任和密码服务为大模型的身份管理及数据安全提供数字证书、信任服务、密码密钥管理和基础密码运算能力等基础支撑服务。

4.2　可信数据源

针对数据可信需求，涉及人类活动数据、物理世界采集的数据，以及机器数据等。利用基于密码的安全认证技术可对数据提供方的传感器、设备等进行身份认证，确保数据来源的合法性；利用数字签名等技术对数据源进行鉴别和认证，防止采集数据被篡改；采用基于密码技术的数据标签，从数据采集阶段开始，确保数据生命周期中处理过程可溯可查。以上手段为数据可信溯源提供有效支撑，有效防范攻击者注入恶意数据或后门影响训练，解决数据源头安全可信的问题。

4.3　数据分析处理平台安全

针对平台安全需求，大模型数据分析算法需要更高的算力支持，往往采用弹性资源共享、数据动态迁移及多租户资源共享的云计算、大数据平台等第三方计算基础设施。可以基于数据指纹、数据加密等技术对数据全生命周期进行安全管控；通过实体可信认证、权限检查、数据行为审计确保数据交换过程的安全防护；通过数据源可信验证、数据内容安全检查、大数据匿名处理、数据分级分类保护等手段实现大数据汇集处理过程的安全防护；基于区块链技术实现数据安全发布、使用授权与访问控制，以确保数据共享使用过程中的隐私保护、确权确责与追踪溯源，解决数据可管的问题。

4.4　控制指令安全

针对设备可控需求，采用基于密码技术、多因子身份认证技术实现统一身份认证，确保指令下达的人员是可信的；同时，通过密码技术实现控制指令不可否认性、完整性、机密性、真实性，保障相关设备、机器人能被正确地控制和正确地使用，解决设备可控的问题。

4.5　算法安全 针对算法安全需求，对模型 / 算法集进行加密，并限制模型 / 算法恶意查询次数，加强对抗训练以提升鲁棒性及抗干扰性，使用通过合法签名的算法，避免算法引擎被滥用、乱用，比如恐怖分子使用某算法计算。

4.6　应用安全大模型安全治理架构具备了前 5 个部分的安全基础，初步确保了大模型应用能够可信发布，其使用的算法引擎也实现可控授权。

4.7　安全服务及监管依托安全大数据和智能化分析技术，向大模型提供弹性密码服务、数据脱敏服务、大模型可信身份管理、大模型态势感知、大模型安全监管等功能，为大模型的数据、算法、应用等提供安全服务保障。

4.8　安全防护能力检测评估针对大模型在提供信息查询、数据生成、辅助决策过程中面临的越狱攻击、开源情报收集、敏感信息泄露等风险，检测评估大模型应用平台或服务在训练数据集、模型、安全模块、二次开发调用接口等方面是否存在安全漏洞或隐患。

4.9　政策法规标准体系在政策法规方面，建议加快构建体系化的人工智能安全法律监管框架，完善政府监管体制机制。在标准体系方面，一是建议完善大模型安全标准体系，优化标准化组织建设，加快推动重点标准研究制定工作。二是加强国际大模型安全标准化工作，组织引导国内企业及科研院所实质性地参与和主导大模型安全国际标准制定工作，贡献更多中国力量。