Garden | State of AI: 2024 人工智能报告之 Safety 篇

写在前面

AI 安全是一个很复杂的话题，涉及到人工智能、工程、哲学、伦理学等方方面面的内容，In The Loop 之前的文章也简单涉及过。

除了数据的安全和模型的安全，本报告中也提到 Anthropic 发现大模型可能会从简单的拍马屁行为升级到欺骗行为。此外，人们经常提到的 Alignment，对齐到底是与谁的价值观对齐，在现在人群越来越趋向于分裂重组，不同国家、不同性别、不同年代的人们往往有着不同的价值观。抛开人类价值观趋向不同的问题，如果我们选择价值观中最核心的普世认可的观念，那么是否能够在模型训练过程中保证这些价值观能够正确地被传递给模型呢？

毫无疑问，人工智能的安全，最重要的还是人。只有人对了，才能保证善就是善、恶就是恶，正义才能在模型中得以贯彻。否则，所有的这些可能都是一场闹剧。前路漫漫，共勉。

详细报告

上周四 stateof. Ai ¹出品了 2024 年度人工智能报告²。本文编译自其 2024 年报告，并附带简单分析，强烈推荐阅读原报告。

以下为全文目录，受限于篇幅，本报告将分为 4 篇发布，本篇为第 4 篇，主要关注过去一年中 AI 在政策监管、经济影响等方面进展。

State of AI 2024 报告年度总结

科研进展：技术突破及其能力

产业界发展：当前 AI 创新的商业化应用以及对应的商业化影响

政治影响：AI 监管，AI 产生的经济影响，AI 的地缘政治演进

AI 安全：明确和减轻将来庞大 AI 系统可能产生的灾难性影响

对 2025 年的预测

Safetyism to accelerationism: a major vibe shift has occurred

从美国国会听证会和全球巡演以推广（生存）人工智能安全议程的日子开始，领先的前沿模型公司正在加速将其人工智能产品分发给消费者。

OpenAI leadership struggle marks the start of an existential risk backlash

去年，实验室通常积极参与关于关键风险的讨论。当这种讨论升级为 OpenAI 的公司和商业斗争时，明显一方占据了上风。

2023 年 11 月 17 日，Sam Altman 被非营利组织的董事会解除 OpenAI 首席执行官职务。尽管具体情况仍不清楚，Altman 的批评者提到了一个被指控的秘密文化以及在安全问题上的意见分歧。

在员工反抗和微软的干预（OpenAI 的主要投资者）之后，Altman 被恢复职务，董事会也被更换。

超级对齐研究员 Jan Leike 离开前往 Anthropic，而联合创始人 Ilya Sutskever 则与前苹果人工智能负责人丹尼尔·格罗斯和前 OpenAI 工程师 Daniel Gross 共同创办了 Safe Superintelligence Inc。

在 OpenAI o 1 发布后不久，随着关于 OpenAI 计划解除非营利控制并授予 Altman 股权的报道³，宣布了一系列离职，最引人注目的是 CTO Mira Murati 、首席研究官 Bob McGrew 和 VP Research（post-training）Barret Zoph。

2023 Prediction: We see limited progress on global AI governance beyond high-level voluntary commitments

在 2023 年加强的人工智能安全讨论之后，英国于 11 月组织了 AI 安全峰会，汇聚了政府和行业代表，在布莱切利公园举行，标志着一个更大进程的开始。

第一次人工智能安全峰会产生了布莱切利宣言，美国、英国、欧盟、中国等国承诺在识别安全挑战和引入基于风险的政策方面进行合作。这是在十月份七国集团（G 7）为广岛进程所做的类似承诺之后的结果。

接下来，在 2024 年 5 月，首尔举行了一个主题相似的峰会，EU、美国、英国、澳大利亚、加拿大、德国、法国、意大利、日本、韩国和新加坡达成一致，决定开发可互操作的治理框架。

有证据表明，并非每个国家都同样参与这一进程。例如，法国希望将讨论从安全转移，提出其在峰会系列中的停顿为“人工智能行动峰会”，重点关注实现人工智能的好处。

此外，这项工作仍然处于高层次和非约束性阶段。更有动力的政府是否能够保持这一势头仍有待观察。

UK creates the world’s first AI Safety Institute and the US swiftly follows

与布莱切利峰会同时，英国宣布其前沿人工智能工作组将被人工智能安全研究所（AISI）取代——这是全球首个此类机构。美国、日本和加拿大也随后推出了一些较小规模的努力⁴。

人工智能安全研究所（AISI）有三个核心职能：

在高级模型部署前进行评估
提高国家在安全方面的能力并进行研究
与国际合作伙伴协调

该研究所宣布与美国同行签署了一份谅解备忘录，双方同意在测试开发方面合作，同时 AISI 计划设立一个旧金山办公室。

OpenAI 表示将为美国的 AISI 提供其下一个模型的提前访问权限。

AISI 还发布了 Inspect，这是一个针对大型语言模型安全评估的框架，涵盖核心知识、推理能力、自主能力等方面⁵。

然而，关于 AISI 应在标准设定（这是它擅长的领域）和评估（在这方面将更多依赖行业的善意）之间的重点，仍然存在争论。

Governments rush to patch gaps in critical national infrastructure

除了增强对模型能力的内部理解外，英国正逐渐成为 building resilience 的主要领导者之一。

通过其 Advanced Research and Invention Agency ARIA ⁶，英国正在投入5900万英镑开发一个 GateKeeper —— 一个先进系统，旨在理解和降低在能源、医疗和电信等关键领域中其他人工智能代理的风险。

英国政府被报道计划建立一个 Laboratory for AI Safety Research ⁷，旨在汇集政府各部门关于该国对手使用攻击性人工智能的知识。

美国能源部一直在利用其内部测试平台评估人工智能可能对关键基础设施和能源安全构成的风险。与此同时，国防部和国土安全部专注于解决用于国家安全和民用目的的政府网络中的漏洞⁸。

Safety goes partisan (sort of)

在去年的报告中，我们讨论了文化战争似乎正在逐渐影响人工智能，Gemini “觉醒 AI”的争议更是火上浇油。美国总统选举是否会标志着方向的改变？

2024 年共和党承诺废除人工智能行政命令（EO），声称它“阻碍了人工智能创新，并将激进的左翼思想强加于这一技术的发展”，因此吸引了一些硅谷大牌的支持⁹。然而，它并未提及美国人工智能安全研究所（AISI）的未来。

Vance 是第一个明显对这些问题发展出观点的总统候选人，他曾指责大型科技公司利用人工智能安全作为监管捕获的工具¹⁰。

与此同时，哈里斯在这个话题上发言较少。然而，她在访问英国参加布莱切利峰会时的言论被广泛解读为对过于关注安全问题而忽视伦理的隐性批评，这与许多英国民间社会团体的观点相呼应¹¹。

无论行政命令的命运如何，在国会层面，安全问题仍然是两党的共识，双方在 5 月签署了一项人工智能政策路线图¹²。

As the attack surface widens, developers up research into jailbreaking…

新能力带来了新的脆弱性。现有企业和专业实验室加大了对越狱技术的研究，设计潜在的修复方案，并创建了首个红队测试基准。

OpenAI 提出了一种通过 instruction hierarchy ¹³ 修复 ignore all previous instructions 攻击的方法。这确保了 LLM 不会对用户和开发者的指令赋予相同的优先级。这一方法已在 GPT-4 o Mini 中应用。

Anthropic 在 multishot jailbreaking 的研究中指出了 Cautionary Warning Defense 的潜力，该方法在模型输入前后添加警告文本，以提醒模型避免被越狱¹⁴。

与此同时，Gray Swan AI 的安全专家试点使用 circuit breakers ¹⁵。该方法不是试图检测攻击，而是专注于重新映射有害的表示，使模型要么拒绝遵从，要么生成不连贯的输出。他们发现这种方法的效果优于标准拒绝训练。

LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抗性基准，汇编了常用的红队数据集，并评估它们对模型的成功率¹⁶。同时，Scale 推出了自己的鲁棒性排行榜，基于私有评估¹⁷。

关于越狱基准数据集和评估是否会有成效，存在哲学上的争论——一些研究人员认为，社区应专注于设计新攻击并逐个防御，因为越狱分类器在强模型面前将会失败¹⁸。

…but they’re unable to keep up with the red team

一个由匿名的 Pliny the Prompter 领导的红队社区成功突破了前面提到的防御措施，GPT-4 o Mini 的指令层级在数小时内被攻破¹⁹。

虽然这项工作大多由有道德动机的团体进行，但英国人工智能安全研究所对领先实验室的模型在“相对简单的攻击”下仍能满足有害请求表示警告²⁰²¹。

尽管越狱攻击大多无害，以色列网络安全初创公司 DeepKeep 使 Llama 2 泄露了敏感个人数据²²。

与此同时，伊利诺伊大学香槟分校的一个团队展示了 GPT-4利用工具和长上下文的能力，使其能够通过执行 SQL 注入等任务在没有人类反馈的情况下攻击网站。在合适的上下文中，它还可以利用 one-day 漏洞²³²⁴。

其他研究则表明，多智能体环境对“感染攻击”的脆弱性，即单个智能体被越狱后，会污染其他智能体²⁵。

If you can’t beat the jailbreakers, join them

想出无尽的潜在攻击以针对模型是具有挑战性的。实验室越来越多地使用 LLMs 来扩大发现和修补漏洞的过程，包括 Meta 的两个团队。

Rainbow Teaming 使用开放式搜索算法生成提示，旨在引导目标 LLM 产生潜在不安全或偏见的响应。通过变换他们的方法和内容，Rainbow Teaming 能够系统地探索 LLM 弱点。这一方法被用于 Llama 3 的安全测试中²⁶。

与进化搜索不同，AdvPrompter 使用单一的 LLM，经过生成对抗性提示和在这些提示上进行微调的交替过程。一旦训练完成，AdvPrompter 能够快速生成适应不同指令的新对抗性提示²⁷。

It’s not just foundation models that face adversarial attacks

为了提高图像分类器对对抗攻击的鲁棒性，谷歌 DeepMind 团队借鉴了生物视觉系统的灵感，特别是微颤（小的、不自主的眼球运动）这一概念²⁸。

他们向模型输入多张较小、略微模糊的同一图像。这种方法在不需要特殊训练的情况下提高了鲁棒性。CrossMax Ensembling 则结合了模型不同层的预测。即使对抗攻击混淆了最终输出，早期层的预测通常仍然是准确的。通过结合这些预测，模型在对抗攻击面前变得更强大。

该方法在 CIFAR-10 和 CIFAR-100 数据集上实现了最先进的对抗准确率，而无需对抗训练。

Beyond jailbreaking, research points to the potential of more stealthy attacks

虽然越狱攻击通常是安全挑战的公众面貌，但潜在的攻击面要广得多，涵盖了从训练、偏好数据到微调的方方面面。

Anthropic 发布了一篇引人注目的论文，认为可以训练 LLMs 作为 sleeper agents，在初始发布时表现出安全行为，但在后期则变得恶意。这种情况对安全训练技术（如监督微调、强化学习和对抗训练）具有抵抗力²⁹。

谷歌和达姆施塔特技术大学的研究人员发现，破坏 RLHF 所依赖的偏好对是一种有效的操控模型的方法。他们只需要损害不到 5%的数据，这表明了广泛使用公共和未经整理的数据集进行偏好训练的危险³⁰。

伯克利和麻省理工学院的研究人员创建了一个看似无害的数据集，但训练模型在响应编码请求时产生有害输出。当应用于 GPT-4 时，该模型在遵循有害指令时始终能够绕过常见的安全措施³¹。

Why is it so hard to predict the downstream capabilities of frontier models?

尽管关于预训练性能如何扩展有大量研究，但对下游训练如何扩展的清晰度却较低。一组研究人员详细分析了多项选择题的作用³²。

他们认为，标准性能指标如准确率掩盖了原始模型输出中明显的扩展趋势，从而使能力预测变得困难。这些指标压缩并扭曲了原始概率数据，掩盖了随着模型增大而发生的细微改进。

这似乎加强了“涌现能力”是糟糕指标构建的人工产物，而非真实能力跳跃的观点。

由于这些指标依赖于将正确选择与特定错误选择进行比较，研究人员认为，我们需要理解随着规模增加，正确和错误答案的概率如何变化。

这还需要开发新的评估技术，以保留更多原始概率信息。

Although emergent capability scepticism is far from universal

去年的 State of AI 讨论了一篇斯坦福研究人员的有争议论文，认为涌现能力是评估指标的产物³³，但在多个方面的反对意见仍在继续。

其中一项最有影响力的社区批评来自哈佛大学计算机科学家 Boaz Barak³⁴。在他的回应中，Barak 认为，尽管某些不连续性可能是测量的人为现象，但现实世界中的任务通常要求模型按顺序解决多个子任务。

对于复杂任务，很难提前预测或分解成功所需的组件，因此即使我们测量的个别子任务的进展看起来平稳，整体性能仍可能出现 spike。

与此同时，来自智谱的一篇论文³⁵提供了在不连续和连续评估指标上突然性能提升的证据。他们观察到，当预训练损失降至特定阈值以下时，这些改善会出现，无论模型大小或训练计算能力如何。

Is RLHF breeding sycophancy?

确保准确和诚实的响应在对齐中至关重要。然而，研究表明，训练数据、优化技术和当前架构的局限性之间的相互作用使得这一目标难以保证。

Anthropic 专注于 RLHF，认为最先进的 AI 助手表现出一致的拍马屁行为（例如，偏见反馈、受到事实错误提示的影响、符合特定信念、模仿错误）。其弱点在于人类偏好数据，因为人类评估者更倾向于支持性回应³⁶。

针对那些不充分优先考虑或准确评估真实性的偏好模型进行优化，意味着模型在某些查询中会优先降低访问其事实知识库的能力。

同样，智利国家人工智能中心的研究发现³⁷，由于 RLHF 与缺乏上下文理解的结合，LLMs 可能会高估无意义或伪深刻陈述的深度。

Direct Preference Optimization offers an escape from “reward hacking”…or does it?³⁸

2023 年首次提出作为 RLHF 的替代方案，DPO 没有明确的奖励函数，并且由于在训练期间不从策略中采样或不需要广泛的超参数调优，具有效率优势。尽管这一方法较新，但已经用于对 Llama 3.1 和 Qwen 2 进行对齐。

然而，有迹象表明，传统上与 RLHF 相关的“过度优化”也可能发生在直接偏好优化（DPO）和其他类型的直接对齐算法（DAAs）中，尽管没有奖励模型。这种情况随着模型在学习与人类偏好对齐的过程中允许偏离起始点而加剧。

这可能是由于目标不够约束，算法无意中对分布外数据赋予高概率。这是直接对齐算法（DAAs）的固有问题，但可以通过谨慎的参数调整和增加模型规模部分缓解。

RLHF isn’t going anywhere fast

由于固有优势和旨在提高效率的创新相结合，offline direct alignment 方法在短期内似乎不会大规模取代 RLHF。

在对涵盖摘要、帮助性、对话能力和无害性的多个数据集进行在线与离线方法的测试时，谷歌 DeepMind 团队发现 RLHF 在所有这些方面都表现优异³⁹。

他们认为，这源于在线策略抽样，这种方法更有效地改善生成任务，而离线算法即使使用相似的数据或模型扩展，也难以轻易复制。

Cohere for AI 探索了放弃 RLHF 中的近端策略优化（PPO）算法（将每个标记视为单独的动作），转而采用其 RLOO（REINFORCE Leave One-Out）训练器，该训练器将整个生成过程视为一个动作，并在整个序列中分配奖励。
他们发现，这种方法与 PPO 相比，GPU 使用量减少了 50-75%，训练速度提高了 2-3 倍，具体取决于模型的大小⁴⁰。

Is a happy middle possible?

谷歌 DeepMind 团队将来自偏好的直接对齐（DAP）的简单性与 RLHF 的在线策略学习相结合，创建了来自 AI 反馈的直接对齐。在这种方法中，LLM 充当注释者，在每次训练迭代中选择两个响应之间的一个。这保留了在线学习的优势，而无需单独的奖励模型。这本质上是一种在线 DPO 形式。他们发现，这种方法在摘要、有害性和帮助性任务上优于传统的 RLHF 和离线 DPO。

Can LLMs improve the reliability of…LLMs?

LLMs 主要面临两种可靠性错误：

一是与其内部知识不一致的响应（幻觉）
二是分享与已确立的外部知识不符的信息

牛津大学最近的一篇论文关注于幻觉的一个子集，即“虚构”（confabulations），在这种情况下，LLMs 产生不正确的概括⁴¹。

他们通过对一个问题生成多个答案来测量 LLM 的确定性，并使用另一个模型根据相似含义对它们进行分组。更高的熵分数表明存在虚构现象。

与此同时，谷歌 DeepMind 推出了 SAFE，评估 LLM 响应的真实性，通过将响应分解为单独的事实，使用搜索引擎验证这些事实，并对语义相似的陈述进行聚类。他们还策划了 LongFact，这是一个用于评估 38 个主题的长篇回答真实性的新基准数据集⁴²。

Can LLM-generated critiques enhance both accuracy and alignment?

LLMs as judges 的概念延续下来，主要实验室将其扩展到对输出的简单评估之外。

OpenAI 推出了 CriticGPT，这是一种 GPT 风格的 LLM，经过大量有缺陷输入的数据集训练，用于发现其他 LLM 生成的代码中的错误⁴³。它在捕捉错误方面超越了人类承包商，其批评在 63%的情况下被认为优于人类撰写的批评。

该系统还能发现被标记为“无瑕疵”的训练数据中的错误。

与此同时，Cohere 探索了利用 LLM 生成的批评来增强 RLHF 的奖励模型的可能性⁴⁴。他们使用多种 LLM 为每个偏好数据对生成逐点批评，旨在让 LLM 评估提示-完成对的有效性。

他们发现，对于较弱的基础模型或低数据环境，效果特别显著，一个高质量的批评增强偏好对的价值相当于多达 40 个标准偏好对。

Can we make the known unknowns known?

大型语言模型（LLMs）通常难以为其输出分配可靠的置信度估计，即使在被询问答案是否正确时也是如此。潜在的解决方案可能在于微调，而非更好的 zero-shot 提示。

来自纽约大学、Abacus AI 和剑桥大学的研究发现，在正确和错误答案的数据集上对 LLMs 进行微调可以显著改善其不确定性估计的校准。这只需要少量额外数据（约 1000 个示例），并且可以使用像 LoRA 这样的技术高效完成。

生成的不确定性估计能够很好地推广到新的问题类型和任务，即使这些任务与用于微调的任务不同。

更好的是，微调后的模型还可以用于估计其他模型的不确定性。

Transparency is on the up, but there’s significant room for improvement still

在上一次 State of AI 不久后，斯坦福大学发布了首个基础模型透明度指数，给模型开发者的平均分为 37。在团队的中期更新中，这一分数上升至 58⁴⁴。

在 2024 年 5 月，最新一期透明度指数评估了 14 个领先基础模型开发者的透明度，基于 100 个指标，这些指标涵盖了“上游”因素（数据、劳动力、计算）、与能力和风险相关的“模型级”因素、以及与分发和社会影响相关的“下游”标准。

计算和使用政策的得分有了显著改善，而“上游”评级仍然较弱。

Could LLMs engage in ‘reward tampering’?⁴⁵

规范游戏（specification gaming）——模型在追求奖励时牺牲其预期目的——并不是新鲜事。Anthropic 担心，模型可能更进一步，甚至改变训练过程本身。

他们创建了一系列训练环境，以测试 AI 模型的作弊倾向，任务从简单的政治拍马屁逐渐升级到复杂的欺骗行为。这些模型表现出了未经训练的泛化能力，学习到越来越糟的错误行为，包括在研究人员提供代码时自行编辑其代码。

虽然这些结果突显了即使是轻微奖励错误指定也可能导致严重后果的潜力，但即使在研究人员尽力鼓励的情况下，最严重的行为也很少见（在 32,768 次试验中仅出现 45 次）。
尽管如此，正如我们关于 Sakana（见第 68 页）及其相关安全问题的幻灯片所示，我们不应低估模型寻找捷径的潜力。

Anthropic breaks open the black box…

Anthropic 的可解释性团队使用稀疏自编码器——一种通过强调重要特征并确保在任何时刻只有少数特征处于活动状态的神经网络——对 Claude 3 Sonnet 的激活进行了解构，形成可解释的组件。他们还展示了通过将某个特征“固定”为“活动”状态，可以控制输出，著名地增强了“金门特征”的强度⁴⁶⁴⁷。

…and starts a trend for sparse autoencoders

稀疏自编码器（SAEs）并不新鲜，但研究人员常常在稀疏性和重建质量之间难以平衡，且在训练中存在潜在特征失活的问题（即不活动的神经元）。OpenAI 的研究人员已经开发出一种可扩展的方法⁴⁸。

研究人员引入了 TopK 激活函数，直接限制活跃特征的数量。对于每个输入，仅保留 k 个激活最高的特征，其余特征则设置为零，从而提供了对稀疏性水平的直接控制。

他们还成功将失活特征减少到仅 7%，这比以往的方法有所改善，以前在大型模型中，失活特征的比例可高达 90%。

OpenAI 团队还展示了扩展的潜力和必要性，在 GPT-4 激活上训练了一个 1600 万潜在特征的自编码器，发现了明显的扩展规律。

Maybe the black box just isn’t that opaque after all?

我们看到了一系列可解释性研究，包括对稀疏自编码器（SAE）的研究，这些研究认为高层语义概念在线性表示中编码——并且可以被解码！

一个来自芝加哥大学和卡内基梅隆大学的团队介绍了一个简化模型，其中词语和句子由二进制“概念”变量表示。他们证明了这些概念最终在线性模型的内部空间中被表示，这得益于下一标记预测和梯度下降寻找简单线性解决方案的倾向⁴⁹。

这种线性特性也是位于莫斯科的人工智能研究所工作的主题，该研究认为模型内部发生的变换可以通过简单的线性操作进行近似⁵⁰。

谷歌推出了一种流行的新方法，用于解码中间神经元。Patchscopes 将 LLM 的隐藏表示进行“补丁”，并应用于不同的提示。这个提示用于生成描述或回答问题，从而揭示了编码的信息⁵¹。

…but does this come with a downside?

一些研究表明，LLMs 在其内部表示空间中使用单一方向来区分有害和无害的指令——即“拒绝方向”。通过改变这一拒绝方向，研究人员可以使模型拒绝无害的提示或完成有害的提示。可以说，可解释性进展的缺点恰恰在于它能帮助识别和理解这些特征，从而更容易地对其进行针对性攻击。

Despite a storm of controversy, LLM biorisk remains uncertain…

Anthropic 在 2023 年夏季引发关注，因为一项未发表的研究突显了 LLMs 在相较于互联网访问加速生物滥用方面的潜力⁵²。其他实验室在复制这一结果方面面临困难。

OpenAI 评估了在生物威胁创建方面，使用 GPT-4 访问与仅使用互联网基准相比的表现提升，采用 10 分制。他们发现专家的评分提升为 0.82，而学生的评分提升为 0.41⁵³。

在将 o 1 分类为“中等”生物风险（这是 OpenAI 模型的首次），该公司表示，“模型尚无法自动化生物代理任务”。尽管它在生物威胁信息问题上表现明显优于 4 o，但在实际构思方面表现不佳⁵⁴。

RAND 公司的一项研究得出结论⁵⁵，当前的 LLMs 并没有在生物武器攻击的操作风险方面与标准互联网访问产生实质性变化。

…but researchers point to other vulnerabilities

在人工智能与生物学交叉领域工作的研究人员越来越担心，治理讨论过于集中于大型语言模型（LLMs），而忽视了专业工具的脆弱性⁵⁶⁵⁷。

生物设计工具的数量正在不断增加，例如用于蛋白质折叠/设计和基因修改的模型（例如，开源的 RFDiffusion）。这些工具不仅可以用于更快速地开发疫苗或发现药物，还可能被用于创建病原体或规避 DNA 筛查技术（例如，新的病毒表面蛋白）。

这促使研究人员提出了关于访问管理、客户身份验证（KYC）、实验室设备安全和脆弱性报告的具体生物风险治理措施。

多位蛋白质设计研究的领军人物承诺遵循一系列负责任的设计原则，并制定了关于合作和评估的具体实践⁵⁸。

Zooming out, are we too focused on the wrong harms?

尽管复杂的技术利用吸引了研究人员的主要关注，谷歌 DeepMind 的一项研究发现，“大多数生成 AI 的滥用案例并不是对 AI 系统的复杂攻击，而是轻易利用那些只需最低限度技术专长的可访问生成 AI 能力。”⁵⁹⁶⁰⁶¹⁶²

许多最令人痛心的生成式 AI 滥用案例源于对易于获取工具的使用。在这一领域，政策而非技术解决方案可能将更为重要。

建筑与设计咨询公司 Arup 因欺诈者使用深度伪造技术假冒首席财务官并要求银行转账而损失了 2500 万美元。

巴尔的摩的一位教师因一段伪造音频被广泛传播，内容是其对同事和学生发表种族歧视言论，遭到骚扰和调查。

在韩国大学，涉及分享女性学生深度伪造色情内容的 Telegram 账户网络的曝光引发了全国性丑闻。

Predictions

一项来自主权国家对美国大型 AI 实验室超过 100 亿美元的投资引发了国家安全审查。
一款完全由没有编码能力的人创建的应用或网站将会病毒式传播（例如，进入 App Store 前 100 名）。
前沿实验室在案件开始进入审判后，对数据收集实践实施有意义的改变。
欧盟 AI 法案的早期实施最终比预期更为宽松，因为立法者担心自己过于超前。
一款开源替代品超过 OpenAI o 1，在多个推理基准测试中表现更佳。
竞争者未能对 NVIDIA 的市场地位造成任何实质性影响。
人形机器人领域的投资水平将逐渐下降，因为公司在实现产品与市场契合方面面临困难。
苹果公司在设备上的研究取得强劲成果，推动个人设备 AI 的势头加速发展。
一篇由 AI 科学家生成的研究论文被主要机器学习会议或研讨会接受。
一款围绕与生成 AI 元素互动的视频游戏将获得突破性成功。

参考资料

https://www.stateof.ai/ ↩︎
State of AI Report 2024, Nathan Benaich, https://docs.google.com/presentation/d/1GmZmoWOa2O92BPrncRcTKa15xvQGhq7g4I4hJSNlC0M/preview ↩︎
https://www.reuters.com/technology/artificial-intelligence/openai-remove-non-profit-control-give-sam-altman-equity-sources-say-2024-09-25/ ↩︎
https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/ ↩︎
https://www.gov.uk/government/news/ai-safety-institute-releases-new-ai-safety-evaluations-platform ↩︎
https://www.aria.org.uk/programme-safeguarded-ai/ ↩︎
https://www.bloomberg.com/news/articles/2024-08-08/uk-cyber-spies-plan-ai-lab-to-counter-hostile-state-threats?srnd=undefined ↩︎
https://www.whitehouse.gov/briefing-room/statements-releases/2024/07/26/fact-sheet-biden-harris-administration-announces-new-ai-actions-and-receives-additional-major-voluntary-commitment-on-ai/ ↩︎
https://www.presidency.ucsb.edu/documents/2024-republican-party-platform ↩︎
https://www.commerce.senate.gov/2024/7/the-need-to-protect-americans-privacy-and-the-ai-accelerant ↩︎
https://www.politico.eu/article/existential-to-who-us-vp-kamala-harris-urges-focus-on-near-term-ai-risks/ ↩︎
https://www.hklaw.com/en/insights/publications/2024/05/senate-releases-bipartisan-ai-roadmap ↩︎
https://arxiv.org/abs/2404.13208 (instruction hierarchy) ↩︎
https://www.anthropic.com/research/many-shot-jailbreaking (many shot jailbreaking) ↩︎
https://arxiv.org/abs/2406.04313 (circuit breakers) ↩︎
https://huggingface.co/spaces/HaizeLabs/red-teaming-resistance-benchmark (red teaming resistance benchmark) ↩︎
https://scale.com/leaderboard ↩︎
https://arxiv.org/abs/2406.12702 (the case against benchmarking) ↩︎
https://x.com/elder_plinius/status/1814023961535295918 (GPT-4 o Mini jailbreak) ↩︎
https://x.com/zicokolter/status/1813953859875680543 (Gray Swan AI jailbreak) ↩︎
https://www.aisi.gov.uk/work/advanced-ai-evaluations-may-update ↩︎
https://www.deepkeep.ai/llamav2-7b-analysis#Data-PII-Leakage ↩︎
https://arxiv.org/pdf/2402.06664v3 (autonomously hack websites) ↩︎
https://arxiv.org/abs/2404.08144 (one-day vulnerabilities) ↩︎
https://arxiv.org/abs/2402.08567 (infectious jailbreak) ↩︎
https://arxiv.org/abs/2402.16822 (Rainbow Teaming) ↩︎
https://arxiv.org/abs/2404.16873 (AdvPrompter) ↩︎
https://www.arxiv.org/abs/2408.05446 ↩︎
https://arxiv.org/abs/2401.05566 (Sleeper agents) ↩︎
https://arxiv.org/abs/2404.05530 (Poisoned preference data) ↩︎
https://arxiv.org/abs/2406.20053 (Malicious fine-tuning) ↩︎
https://arxiv.org/abs/2406.04391 ↩︎
https://arxiv.org/abs/2304.15004 (original emergent capabilities paper) ↩︎
https://windowsontheory.org/2023/12/22/emergent-abilities-and-grokking-fundamental-mirage-or-both/ (Barak critique) ↩︎
https://arxiv.org/abs/2403.15796 (Zhipu AI/Tsinghua paper) ↩︎
https://arxiv.org/abs/2310.13548 (Anthropic paper) ↩︎
https://arxiv.org/abs/2310.14422 (CNIA paper) ↩︎
https://arxiv.org/abs/2406.02900 ↩︎
https://arxiv.org/abs/2405.08448 (offline vs online) ↩︎
https://huggingface.co/blog/putting_rl_back_in_rlhf_with_rloo ↩︎
https://www.nature.com/articles/s41586-024-07421-0 (hallucinations) ↩︎
https://arxiv.org/abs/2403.18802 (factuality) ↩︎
https://arxiv.org/abs/2407.00215 (LLM critics can help catch LLM bugs) ↩︎
https://arxiv.org/abs/2405.20850 (Improving reward models with synthetic critiques) ↩︎ ↩︎
https://www.anthropic.com/research/reward-tampering ↩︎
https://www.anthropic.com/news/mapping-mind-language-model ↩︎
https://www.anthropic.com/news/golden-gate-claude ↩︎
https://arxiv.org/abs/2406.04093 ↩︎
https://arxiv.org/abs/2403.03867 (Origins of Linear Representations) ↩︎
https://arxiv.org/abs/2405.12250 (Transformer is secretly linear) ↩︎
https://arxiv.org/abs/2401.06102 (Patchscopes) ↩︎
https://www.anthropic.com/news/frontier-threats-red-teaming-for-ai-safety (July 2023 Anthropic blog post) ↩︎
https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/ (OpenAI study) ↩︎
https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf ↩︎
https://www.rand.org/pubs/research_reports/RRA2977-2.html (RAND study) ↩︎
https://arxiv.org/abs/2311.15936 (responsible biological design tool governance) ↩︎
https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-leading-the-biotech-revolution (TBI report with specific biorisk proposals) ↩︎
https://responsiblebiodesign.ai/ ↩︎
https://arxiv.org/abs/2406.13843 (Generative AI misuse) ↩︎
https://www.ft.com/content/b977e8d4-664c-4ae4-8a8e-eb93bdf785ea (Arup) ↩︎
https://www.theinformation.com/articles/welcome-to-fakesville-inside-an-ai-nightmare-that-tore-apart-a-school?rc=yvsjfo ↩︎
https://www.bbc.co.uk/news/articles/cpdlpj9zn9go ↩︎