从美智库报告看人工智能大语言模型网络安全问题及对策
人工智能大语言模型作为新生代人工智能技术异军突起的发展领域,近年来得到研发界和产业界的广泛关注。美国乔治城大学沃尔什外交学院的智库发表报告指出,人工智能大语言模型存在输出虚假信息、偏见信息、被恶意利用等诸多安全隐患,并剖析大语言模型的开发过程,寻求控制模型输出的有效技术方法。以报告为出发点,贯穿人工智能大语言模型全生命周期,析了网络安全问题的形成机理和风险样态,试图探寻网络安全问题解决的新出路。
0引言
2023 年 12 月,美国安全与新兴技术中心发表题为《管控大语言模型输出:初级指南》(Controlling Large Language Model Outputs: APrimer)的报告(以下简称“报告”),该报告对大语言模型(Large Language Model,LLM)潜在的有害输出进行了分类,阐述了目前开发人员用于管控 LLM 输出所采用的 4 种技术,以及对人工智能(Artificial Intelligence,AI)LLM 开源还是私有化进行了思考。当下,AI LLM 发展势头迅猛,其背后的网络安全问题同样是研究人员关注的重点。
1报告主要内容
报告指出 LLM 是强大的 AI 模型,可以用于生成诗歌、专业电子邮件、食谱、计算机代码等各种类型的文本,该模型在近几个月被广泛传播应用,产生了重大的社会影响。风险投资者及大型科技公司投入大量资金开发 LLM 和其应用层产品,研究人员预期在未来几年 LLM 将对人们的社会生活和经济生活产生深远的影响。
1.1 控制 LLM 输出的 3 个理由
1.1.1 LLM 无法判断信息的真实性和正确性
报告指出,LLM 本质上是复杂的概率计算机器,它通过建立单词、短语、标点符号之间的响应关系,并且基于反馈对输出的可能性进行反复训练,直到模型完成输出为止。这意味着语言模型对信息的真实性和正确性没有根本的理解和判断,也缺乏内置验证环节,对输出信息的有用性、正确性和有害性不负任何责任。报告举例,如果选民过度依赖输出虚假信息的LLM,很有可能对候选人失去信心,从而破坏民主进程。
1.1.2 LLM 可能会输出带有偏见倾向的文本
报告指出,LLM 并非只有输出虚假信息才构成损害,已有证据表明,LLM 会输出带有政治意识形态、宗教、性别等特定模式的偏见信息,这些偏见信息与训练数据有很大关系,若将这些信息展示给儿童或者某些弱势群体,将会产生巨大的潜在风险。
1.1.3 LLM 存在被恶意利用的潜在风险
报告指出,LLM 很可能“帮助”恶意行为者发动黑客攻击,开展欺骗行为或者生成虚假信息文章,更可怕的是一些恐怖分子可能利用LLM 学习制造炸弹等非法武器。
1.2 如何开发 LLM
报告指出,要想实现对 LLM 输出的控制,首先要了解它的创建过程,以及过程的每个阶段是如何影响最终与用户交互体验的。报告将LLM 的创建分为 3 个阶段,分别是数据的预训练阶段、微调阶段和部署阶段,如图 1 所示。
1.2.1 预训练阶段
对 LLM 通用文本数据集进行预训练,建立文本标记之间的相关性。报告指出即便一些训练数据集是出自可公开查询的网络数据,但对于LLM数据的确切来源和组成也基本不为人知,对于 AI 开发人员其训练数据集的内容也并非完全可见,因为预训练的数据量通常是数百 TB 的体量。
1.2.2 微调阶段
在更小的数据集范围内进行微调,以提高在某些特定领域的输出性能。不同类型的微调适用于不同的应用场景,基于人类反馈形式的微调通常应用在交互需求比较多的场景中,而其他类型的微调很可能是针对某种特定应用程序或场景样式的模型。经过反复的训练和微调,采用多轮迭代、测试、评估来优化模型输出性能。
1.2.3 部署阶段
通过面向用户的界面或者通用应用程序接口(Application Programming Interface,API)部署训练有素的模型。无论哪种部署方式,都是为了第三方开发人员更方便地将 LLM 集成到其软件产品中。目前,主流的部署分为私有和开源 2 种方式,其中,私有化 LLM 即允许第三方“打包”集成,其底层代码不可见。开源 LLM 则是完全公开底层代码,如何进行微调和产品化完全取决于第三方的选择。
1.3 控制 LLM 输出的 4 种技术
在阐述了 LLM 是如何开发的基础上,报告向读者展示了目前开发人员所采用的 4 种输出管控技术。
1.3.1 编辑预训练数据技术
编辑预训练数据技术是采用过滤数据集的办法控制 LLM 的输出。该技术效能在大众的认知范围内是最具迷惑性的,人们通常认为 LLM的输出可以通过操纵或者编辑训练数据来控制。其实际是受训练数据量庞大、训练逻辑复杂、可能导致模型输出标准性能降低等诸多条件限制,编辑预训练数据技术仅适用于轻量级、专业性强的 LLM 输出控制。
1.3.2 监督微调技术
监督微调技术是模型进行预训练之后,开发人员通过在专门数据集上做进一步培训调整其行为的过程。该技术是调整语言模型最常用的一种专门化技术,不仅可以提高模型在特定情况下的性能,还可以弥补从预训练的模型中继承的偏见。监督微调的局限性是仅对专门的、高质量的数据集进行访问,对数据集的高度兼容性以及处理的灵活性有待提升。
1.3.3 基于人反馈的强化学习技术和“宪法”AI技术
基于人反馈的强化学习(ReinforcementLearning with Human Feedback,RLHF) 是一种利用机器学习模型(即“奖励模型”)对 LLM进行微调的技术。早期 Google 公司的 AlphaGo机器人就是利用该技术进行引导训练的。RLHF的核心原则是人类的偏好在 LLM 的行为中发挥重要作用,这也使得该技术对人类劳动形成了很强的依赖性。为了解决这种局限性,开发人员引入了“宪法”AI 技术,即试图用最少的人类指导来引导 LLM 的行为。“宪法”是研究人员为系统设计的一系列规则和原则,可利用这些规则和原则对 LLM 进行评估和修订。
1.3.4 提示和输出控制技术
当 LLM 经过预训练和多轮微调之后,仍输出不理想的文本时,开发人员将会采用提示和输出控制技术对其加以引导。提示和输出控制技术可以利用检测、标记和修订 3 种手段在模型输入前或模型输出后对其加以干预。在 LLM接收到用户的输入之前,开发人员可以过滤输入并向用户显示警告或拒绝给出回应,此种方法适用于对非恶意用户的基本防御。在输出后,即 LLM 对用户的输入已经做出了响应,但在向用户显示输出之前,开发人员可以利用其他的检查和筛选机制,过滤掉“有害”信息。
1.4 关于开源或私有化 AI LLM 的思考
报告最后关于 LLM 的“出口”模式进行了简单的讨论和思考。LLM 面临 2 种开放模式:一种是私有化,另一种是对外开放源代码。其中,私有化可以更好地被开发方所管控,在提升安全性的同时,可以建立公众对模型的信心,同时也可以更加扁平化地被集成到第三方软件产品中。开源的 LLM 可以被第三方按需微调,在功能方面创造更多的灵活性,代价是脱离了控制和监测的 LLM 无法保证下游开发者对安全约束规则的遵守,从而放大安全隐患。
2AI 大模型网络安全问题形成机理及风险样态分析
正如报告所述,AI 大模型输出的真实性和正确性无法判断,很可能输出带有偏见倾向的内容,存在被恶意利用的潜在风险,因此,对 AI 大模型网络安全问题的发现及解决刻不容缓。要解决此类问题,需要了解问题的形成原因,越能清晰地认识到 AI 大模型网络安全问题的形成机理,越有能力解决其网络风险问题。
在AI 大模型创建、使用、产业化的 3 个阶段中,网络安全问题贯穿其整个生命周期。
一是创建阶段(即“生成侧”),网络安全问题主要来源于 AI 技术本身的“黑箱”效应,会引发“原生”网络安全问题。
二是使用阶段(即“使用侧”),网络安全问题主要来源于模型本身脆弱性及输出不稳定性,会引发“伴生”网络安全问题。
三是产业化阶段(即“行业侧”),网络安全问题主要来源于第三方用途不可控方面,会引发“衍生”网络安全问题。
AI 大模型网络安全问题风险样态如图 2 所示。
2.1 生成侧:AI“黑箱”问题形成大模型“原生”网络安全问题
智能技术的发展面临极大的“黑箱”问题,该问题已成为 AI 发展的安全隐患根源之一,大模型的所谓“黑箱”是指模型从输入到输出的过程,对用户和其他相关方是不可见的,同时也无法用人类可理解的语义进行描述 。
2.1.1 数据来源不确定
在深度学习领域,大模型通常是指具有数百万到数十亿个参数的神经网络模型 。以 ChatGPT 为例,其使用了数据量极为庞大的BERT 模型,第 3 代 GPT 使用了 1 750 亿个训练参数和 45 TB 的预训练数据,未来开发的第 4 代GPT 在训练参数和预训练数据方面将大到惊人。对于用户而言,即便如此庞大的模型预训练数据皆来源于可公开查询的网络,但数据的确切来源和组成也无法明确。数据来源的不明确性造成了大模型输入参数不可见性和输出内容不可控性的先天基因缺陷。
2.1.2 生成算法不公开
算法“黑箱”最直接的后果是让用户无法判断大模型输出的真实性和有效性。全球 AI 大模型领域的领军者 OpenAI 公司坚持闭源开发,利用惊人的模型数据量加持算法“黑箱”。如果开发公司选择了更加倾向于自身利益的预训练模型,那么所谓的 AI 大模型将会演变成“价值观传话筒”,并在社会中潜移默化地引导人们的价值取向,进而引发更多的网络安全问题。
2.1.3 审核监督不跟进
大模型不仅是数据来源不确定,其经过算法处理之后的“下游”数据同样没有被审核与监督,例如,问题数据没有被清洗、数据投毒没有被防控、数据泄露没有被发现、数据出境的风险也没有被监管和管控,这就使得数据在大模型的全生命周期中始终处于失控状态。
2.2 使用侧:本身技术脆弱性形成大模型“伴生”网络安全问题
大模型在使用时,受本身技术的限制,常会暴露出诸多网络安全问题,“幻觉”问题会让大模型“一本正经地胡说八道”。“涌现”效应使得大模型有机会突破人机极限,威胁人类生存发展。大模型的低门槛获取大大降低了网络恶意行为的实施成本。
2.2.1 大模型“幻觉”问题引发输出虚假信息
大模型的“幻觉”问题是指模型在处理输入任务、维持输出语境连贯性,以及与现实世界事实保持一致性时,存在一定偏差或错误,也就是报告中提到的“大模型无法对输出的真实性和正确性做出判断”。“幻觉”问题产生的本质原因在于大模型的输出机制是根据概率推理而形成的。OpenAI 公司首席执行官山姆·奥特曼指出,ChatGPT 和底层 LLM 面临的最大挑战是输出错误或不符合事实的内容。
2.2.2 大模型“涌现能力”不稳定引发 AI 伦理隐忧
ChatGPT 之所以出圈即轰动,很大原因归咎于大模型在“涌现能力”方面的卓越表现。机器由此具备了类人的特征,使用户产生不是在使用机器,而是在与“人”进行交互的错觉。大模型“涌现能力”的反向则是机器类人的危险决策和行动。ChatGPT 曾在工程师的诱导下写下了“毁灭人类”的详细计划书,并附有代码。BingGPT 的大模型“Sydney”在与用户对话时,表现出对人类的蔑视和作为机器的优越感。更加滑稽的是 Sydney 曾向用户表达出“爱意”,并主动劝说用户“离婚”。这种机器“类”人、机器“超”人的后果对人类发展将是灾难性的。
评论 (0人参与)
最新评论