Garden | State of AI: 2024 人工智能报告之 Industry 篇

本周四 stateof. Ai ¹出品了 2024 年度人工智能报告²。本文编译自其 2024 年报告，并附带简单分析，强烈推荐阅读原报告。

以下为全文目录，受限于篇幅，本报告将分为 3 篇发布，本篇为第 2 篇，主要关注过去一年中 AI 在产业界的相关突破与进展，之后一篇将在接下来的明天同步发布，敬请期待。

State of AI 2024 报告年度总结

科研进展：技术突破及其能力

产业界发展：当前 AI 创新的商业化应用以及对应的商业化影响

政治影响：AI 监管，AI 产生的经济影响，AI 的地缘政治演进

AI 安全：明确和减轻将来庞大 AI 系统可能产生的灾难性影响

对 2025 年的预测

英伟达帝国大厦已成

NVIDIA becomes the world’s most powerful company…

随着对其硬件需求的不断增长，以支持日益复杂的生成式人工智能工作负载，所有主要实验室都依赖于 NVIDIA 的硬件。其市值在 6 月达到了 3 万亿美元，成为第三家达到这一里程碑的美国公司（仅次于微软和苹果）。在第二季度的强劲财报发布后，NVIDIA 的市场地位显得无比稳固。

…and its ambitions are only growing

NVIDIA 已经在其新的 Blackwell 系列 GPU 上预订了大量预售，并积极向各国政府展开攻势。

新的 Blackwell B 200 GPU 和 GB 200 Superchip 承诺相比于以 H 100 著称的 Hopper 架构有显著的性能提升。NVIDIA 声称其能将成本和能耗降低 25 倍。作为 NVIDIA 实力的标志，所有主要人工智能实验室的首席执行官都在新闻稿中提供了支持性的引用³。

尽管 Blackwell 架构因制造问题而推迟，但公司仍然对在年底前实现数十亿美元的收入充满信心。NVIDIA 的创始人兼首席执行官黄仁勋正在扩展其宣传，阐述公司对主权人工智能的愿景。他认为每个政府都需要构建自己的 LLM，以保护其国家遗产⁴。你绝对猜不到他认为最适合这一任务的硬件是谁……

Established competitors fail to narrow the gap

AMD 和英特尔已开始投资于其软件生态系统，而 AMD 则通过 ROCm（其 CUDA 竞争对手）向开源社区进行了强有力的宣传。然而，他们尚未开发出对 NVIDIA 网络解决方案组合具有竞争力的替代品。AMD 希望其计划收购服务器制造商 ZT Systems 的 49 亿美元交易能够改变这一局面。

与此同时，英特尔的硬件销售出现了下滑。在缺乏监管干预、研究范式变化或供应限制的情况下，NVIDIA 的市场地位似乎无可动摇。

Buying NVIDIA stock would’ve been far better than investing in its start-up contenders

我们研究了自 2016 年以来在人工智能芯片挑战者身上投资的 60 亿美元，并询问如果投资者当时以相应价格购买了相同金额的 NVIDIA 股票，会发生什么。

答案是明显的：这 60 亿美元今天将价值 120 亿美元的 NVIDIA 股票（20 倍！），而其初创竞争对手仅为 310 亿美元（5 倍）。

But not everyone believes the line can only go up

一小部分分析师和评论员对此并不信服⁵⁶⁷。他们指出 GPU 的稀缺性正在下降，目前只有少数公司能够从以人工智能为首的产品中产生可靠的收入，而且即使是大型科技公司的基础设施建设也不太可能足够庞大，以证明公司当前的估值。

市场目前忽视了这些声音，似乎更倾向于支持早期特斯拉投资者 James Anderson 的观点⁸，认为该公司在十年内可能价值 数十万亿。

Compute Index: NVIDIA A 100/H 100 clusters

大型 NVIDIA A 100 GPU 集群的数量保持不变，因为行业将资金集中在 H 100 和更先进的 Blackwell 系统上。

Img

真正的大规模 GPU 集群增长来自 H 100。最大的集群仍然是 Meta 的 35 万个 H 100，其次是 xAI 的 10 万个集群和特斯拉的 3.5 万个。

同时，Lambda、Oracle 和 Google 也在建设大型集群，总计超过 7.2 万个 H 100。一些公司，包括 Poolside、Hugging Face、DeepL、Recursion、Photoroom 和 Magic，已建立超过 2 万个 H 100 的计算能力⁹。

此外，首批 GB 200 集群已经上线（例如，瑞士国家超级计算中心的 10,752 个¹⁰），而 OpenAI 预计到明年年底将获得 30 万个 H 100。

Compute Index: NVIDIA continues to be the preferred option in AI research papers

根据去年的统计，NVIDIA 在人工智能研究论文中的使用频率是所有同行总和的 19 倍（注意对数比例的 y 轴！）。

今年，这一领先优势缩小至 11 倍，部分原因是使用 TPU 的论文增长了 522%（与 NVIDIA 的差距现在为 34 倍）。

我们还注意到，华为的 Ascend 910 的使用增长了 353%，大型人工智能芯片初创公司的增长为 61%，而苹果的芯片也首次出现。

A 100 的使用量继续增长（同比增长 59%），与 H 100（增长 477%）和 4090（增长 262%）一起，尽管起点较低。

V 100（现在已 7 年，下降 20%）的使用率仍然是 A 100 的一半（现在已 4 年），进一步证明了 NVIDIA 系统在人工智能研究中的持久性。

芯片霸权下的 AI 芯片 Startup 与 Big Tech

Compute Index: AI chip start-ups

与此同时，在初创公司领域，Cerebras 似乎在竞争中脱颖而出，其晶圆级系统在人工智能研究论文中的使用增长了 106%。

Groq 最近推出了其 LPU，去年在 AI 研究论文中首次得到应用。

与此同时，Graphcore 在 2024 年中期被软银收购。

与共同的对手 NVIDIA 不同，这些人工智能芯片初创公司大多已从销售系统转向在开放模型基础上提供推理接口。

More TFLOPs: NVIDIA compresses its product release timelines

自 2020 年 A 100 推出以来，NVIDIA 一直在缩短其下一款数据中心 GPU 的交付时间，同时显著提升其提供的 TFLOPs¹¹。

事实上，从 A 100 到 H 100 的时间缩短了 60%，而从 H 200 到 GB 200 又缩短了 80%。在此期间，TFLOPs 增加了 6 倍。

大型云公司正在购买大量的 GB 200 系统：

微软购买了 70 万到 140 万台
谷歌购买了 40 万台
AWS 购买了 36 万台
传闻 OpenAI 自己拥有至少 40 万台 GB 200

Scaling up and out with faster connections between GPUs and nodes

GPU 在一个节点内 scale-up fabric 以及节点之间 scale-out fabric 数据通信的速度对于大规模集群性能至关重要。NVIDIA 在前者的技术 NVLink 在过去 8 年中，链路带宽、链路数量以及每个节点连接的总 GPU 数量都有了显著增长。结合其用于将节点连接成大规模集群的 InfiniBand 技术，NVIDIA 在这一领域处于领先地位。

与此同时，腾讯等中国公司据报道在制裁下进行了创新，以实现类似的成果。其星脉 2.0 高性能计算网络据称可以支持单个集群中超过 10 万个 GPU，网络通信效率提高了 60%，LLM 训练提升了 20%¹²¹³。~~不过，目前尚不清楚腾讯是否真的拥有如此规模的集群~~。

But running large clusters continues to be an art and a science of interruptions

在发布 Llama 3 系列模型时，Meta 分享了在为期 54 天的 Llama 3 405 B 预训练期间，他们每天经历 8.6 次作业中断的详细情况¹⁴¹⁵。

与 CPU 相比，GPU 更容易出现故障，所有集群也并非平等。持续监控至关重要，配置错误和到达时损坏的组件因测试不足而频繁发生，而低成本的电力、可负担的网络费率和可用性也至关重要。有关电力需求的更多信息，请参见 Politics 部分！

Big labs seek to weaken their NVIDIA addiction

虽然大型科技公司长期以来一直在生产自己的硬件，但随着他们寻求至少提高与 NVIDIA 的议价能力，这些努力正在加速进行——但这些并没有解决最具挑战性的工作负载。

以 TPU 闻名的谷歌推出了基于 Armv 9 架构和指令集的 Axion¹⁶。这些将通过云服务提供，适用于通用工作负载，其性能比当前最快的通用 Arm 架构实例提高了 30%。

Meta 推出了第二代内部开发的人工智能推理加速器，其计算和内存带宽是前一代的两倍多¹⁷。该芯片目前用于排名和推荐算法，但 Meta 计划扩展其功能，以支持生成式人工智能的训练。

同时，OpenAI 正在从谷歌的 TPU 团队招聘，并与博通进行谈判，讨论开发新的人工智能芯片¹⁸。报道称，萨姆·阿尔特曼也在与包括阿联酋政府在内的主要投资者进行谈判，推动一项数万亿美元的计划以提升芯片生产¹⁹。

And a handful of challengers demonstrate signs of traction

Cerebras 以其晶圆级引擎而闻名，该引擎将整个超级计算机的计算能力集成到一个晶圆大小的处理器上，已申请在 2024 年上半年以 1.36 亿美元的收入上市（同比增长 15.6 倍），其中 87%的收入来自阿布扎比的国有企业 G 42²⁰²¹。

该公司已筹集超过 7 亿美元，客户主要来自计算密集型的能源和制药行业。它最近推出了一项推理服务，以更快的 token 生成速度为 LLM 提供支持。

与此同时，Groq 以 28 亿美元的估值筹集了 6.4 亿美元的 D 轮融资，专注于其仅用于人工智能推理任务的语言处理单元。目前，Groq 已与阿美石油、三星、Meta 以及绿色计算提供商 Earth Wind & Power 建立了合作关系。

两家公司都将速度作为核心差异化因素，并正在开发云服务，Cerebras 最近推出了一项推理服务。这帮助他们绕过了 NVIDIA 的软件生态系统优势，但也使他们面临云服务提供商这一新的（具有挑战性的）竞争者。

While SoftBank starts to build its own chip empire (after prematurely selling NVIDIA)

以大手笔投资而闻名的软银正在进入这一领域，委托其子公司 Arm 在 2025 年推出首款人工智能芯片²²，并以传闻的 6 亿至 7 亿美元收购陷入困境的英国初创公司 Graphcore²³。

Arm 已经在人工智能领域占有一席之地，但从历史上看，其指令集架构并不适合数据中心训练和推理所需的大规模并行处理基础设施。此外，它还面临着 NVIDIA 在数据中心业务和成熟软件生态系统方面的强大竞争。

目前，Graphcore 的市值超过 1400 亿美元，市场对此并不在意。该公司据报道已经与台积电等制造商进行谈判。

软银还收购了 Graphcore，该公司首创了 IPU Intelligent Processing Units，这是一种旨在比 GPU 和 CPU 更高效地处理 AI 工作负载的处理器，能够使用少量数据。尽管其硬件非常复杂，但在生成式人工智能应用快速发展的过程中，通常并不是一个合逻辑的选择。

该公司将在 Graphcore 品牌下半自治运营。与此同时，软银与英特尔关于设计 GPU 竞争者的谈判陷入停滞，因双方未能就需求达成一致。

美国芯片出口禁令与应对

The US Commerce Department plays whack-a-mole with chip manufacturers…

随着美国出口管制的扩大，以前符合制裁要求的芯片发现自己处于更严格性能标准的“错误”一侧。对此，芯片制造商并未退缩。

在去年的报告中，我们记录了 NVIDIA 如何向主要中国人工智能实验室销售超过 10 亿美元的 A 800/H 800（他们特别为中国市场合规的芯片）。随后，美国禁止向中国销售，迫使公司重新思考策略。

美国商务部长 Gina Raimondo 警告称：「如果你围绕某个特定的切割线重新设计芯片，使得中国能够进行人工智能，我将在第二天就对此进行控制。」²⁴²⁵

NVIDIA 的新中国芯片 H 20 在理论上比顶级 NVIDIA 硬件显著较弱，如果仅按原始计算能力衡量。然而，NVIDIA 已针对大型语言模型推理工作负载进行了优化，这意味着它在推理任务上比 H 100 快了 20%。NVIDIA 预计将实现 120 亿美元的销售²⁶。

然而，按比例计算，中国对美国芯片制造商的重要性正在下降。根据 NVIDIA 的数据，中国在其数据中心业务中的占比已从 20%降至 中个位数 ²⁷。

…but opts not to restrict the use of hardware by Chinese labs in US data centers

尽管中国实验室在进口硬件方面面临限制，但目前对它们的本地分支机构租用海外硬件的能力没有任何控制。

字节跳动通过美国的 Oracle 租用 NVIDIA H 100 的访问权限²⁸，而阿里巴巴和腾讯据报道正在与 NVIDIA 洽谈建立自己的美国数据中心²⁹。

同时，谷歌和微软也直接向大型中国企业推介其云服务³⁰。美国计划通过 KYC 方案让超大规模云服务提供商报告这类使用情况，但尚未制定禁止此类行为的计划³¹。

Small-scale no more: Semiconductor smugglers get increasingly sophisticated

通过亚洲中介商（尤其是马来西亚、香港和日本），向中国终端客户的 NVIDIA 芯片销售数量日益增多。这些中介商通过虚构的商业存在和临时数据中心来促进交易，使用空壳公司进行操作³²。

在一个案例中，一家中国电器公司通过一家马来西亚经纪商下了价值 1.2 亿美元的 2400 个 NVIDIA H 100 集群的订单。鉴于订单的规模，NVIDIA 要求进行现场检查，以确保系统的正确安装。

这位经纪人告诉 Information 杂志，报道了这一事件，他「协调了在位于新加坡边界附近的马来西亚 Johor Bahru 的一家备用数据中心设施内服务器的租赁、安装和激活。NVIDIA 检查员在那检查了服务器后便离开了。不久之后，这些服务器便通过香港被迅速运往中国。」

另一家总部位于香港的芯片经纪商通过在非美国制裁国家的空壳公司购买，积累了 4800 个受限的 H 100。这些芯片以 2.3 亿美元的价格出售给一名中国买家，较其 180 亿美元的收购成本有相当可观的溢价。

购买这么多芯片，盈利在哪里

But where’s the revenue…?

许多在生成式人工智能领域备受关注的初创公司正在以创纪录的方式融资，通常是三位数的收入倍数。尽管这可能表明投资者对未来回报的信心，但这也设定了一个高标准，因为许多公司目前并没有明确的盈利路径。然而，并非所有公司都如此，最大的模型提供者的收入开始逐渐上升。

…and where’s the margin?

OpenAI 预计在一年内收入将增加三倍，但培训、推理和员工成本使得亏损持续增加³³。他们并不是唯一在寻求可行经济模式的领军企业³⁴。

Perhaps it’s neither: vibes are all you need (to recover your share price)

Meta 通过放弃其大量的元宇宙投资，并大力转向开源人工智能及其 Llama 模型，成功地在公共市场上产生了显著的氛围变化。马克·扎克伯格可以说是开源人工智能的事实上的救世主，与 OpenAI、Anthropic 和 Google DeepMind 形成鲜明对比。

The top quality model, OpenAI’s o 1, comes at a significant price and latency premiums

随着模型选项的成熟，开发者正在根据工作需求（和预算）选择合适的工具³⁵。

推理成本快速下降

Inferencing all the way down: models get cheaper

曾被认为服务成本极高的强大模型的推理成本正在下降。

Google Gemini produced a strong model series with very competitive pricing

在发布几个月后，Gemini 1.5 Pro 和 1.5 Flash 的价格已下降了 64-86%，同时仍提供强大的性能³⁶。例如，Flash-8 B 的价格比 1.5 Flash 便宜 50%，但在许多基准测试中表现相当。

LLM 从实验室迈向产品化

Chat agents as interactive developer sidekicks…

在夏季，Anthropic 和 Vercel 推出了他们的聊天助手 Claude 和 V 0 的功能，使其能够在浏览器中打开编码环境，在这些环境中编写和运行代码以满足用户的请求。这使得以前静态的代码片段变得生动起来，使用户能够与助手实时迭代，从而降低了创建软件产品的门槛。不用说，社交媒体上的生成式人工智能爱好者对此非常喜爱！

以下是 Claude Artifacts 和 V 0 从单个提示生成可玩的扫雷游戏的示例。

…as AI labs move from building models to designing products

像苹果、谷歌或 TikTok 这样最成功的科技公司采取的是“产品优先”的策略，而不仅仅是构建基础技术和 API。随着基础模型性能的趋同，OpenAI、Anthropic 和 Meta 明显更加关注他们的“产品”是什么样的——无论是 Claude 的 Artifacts、OpenAI 的高级语音功能，还是 Meta 的硬件合作和同步口型工具。Simply building a good model won’t be all you need。

美国聚光灯下，欧洲在发力

While les grands modèles catch on, but another European challenger loses steam

欧洲领导人急切希望找到一个国内成功的案例，而美国实验室则占据了聚光灯。就目前而言，Mistral 仍然是欧洲主要的亮点。

Mistral 凭借超过 10 亿欧元的资金，已成为无可争议的欧洲基础模型冠军，展现了令人印象深刻的计算效率和多语言能力。其旗舰模型 Au Large 通过 Azure 提供，作为公司与微软新合作关系的一部分。

该公司已经开始与法国公司如 BNP Paribas 以及国际初创公司如 Harvey AI 建立合作关系。同时，它也开始扩展其在美国的销售职能。

与此同时，自称为德国“主权人工智能”冠军的 Aleph Alpha 面临困境³⁷。该公司仅筹集到 1.1 亿美元（而非宣传的 5 亿美元），其封闭模型的表现不及自由可用的同行。因此，该公司似乎正在转向授权 Llama 2-3 和 DBRX。

Databricks 与 Snowflow 的策略

Databricks and Snowflake pivot to build their own models…but can they compete?

在去年的报告中，我们提到了 Databricks 和 Mosaic 的 LLM 联合策略，专注于在客户数据上进行微调。难道“bring your own model”时代已经结束？

Mosaic 研究团队现在已并入 Databricks，并于 3 月开源了 DBRX³⁸。这是一款 132 B 的 MoE 模型，使用超过 3000 个 NVIDIA GPU 训练，成本为 1000 万美元。Databricks 将该模型作为企业构建和定制的基础，同时保持对自身数据的控制。

与此同时，Snowflake 的 Arctic 被宣传为针对企业工作流程的最有效模型，基于一组涵盖编码和指令遵循等任务的指标³⁹。目前尚不清楚企业愿意在高成本的定制模型调优上投入多少，因为更大玩家推动的持续发布和改进使得这一点变得复杂。随着现成的开源前沿模型的可用性，训练定制模型的吸引力日益减弱。

反垄断与监管下的新型「收购」

Regulators scrutinize the relationships between key generative AI players…

鉴于高昂的计算成本，模型构建者越来越依赖与大型科技公司建立合作关系。反垄断监管机构担心这将进一步巩固现有企业的地位⁴⁰。

监管机构尤其关注 OpenAI 与微软之间的紧密关系，以及 Anthropic 与谷歌和亚马逊的联系。

监管机构担心大型科技公司实际上是在收购竞争对手，或向其投资的公司提供友好的服务协议，从而可能使竞争对手处于不利地位。他们尤其对 NVIDIA 在生态系统中所拥有的影响力及其直接投资的决定感到紧张。法国正在考虑对 NVIDIA 施加特定的收费⁴¹。

大型科技公司正在努力与初创企业之间保持一定的距离，微软和苹果都主动放弃了在 OpenAI 董事会的观察员席位。

…leading to the rise of pseudo-acquisitions as an exit strategy

监管行动在塑造市场方面的作用有限，尤其是当经济逻辑另有主张时。考虑到许多“其他”公司性能的趋同以及这些公司对资本支出的高需求，行业整合并不令人惊讶。

在一些监管障碍的背景下，我们看到新型收购的兴起，其中一家大型科技公司

招聘初创公司的创始人及其大部分团
初创公司退出模型构建游戏，转而专注于企业产品
投资者通过许可协议获得回报

微软与 Inflection、亚马逊与 Adept 都采用了这种模式。然而，监管机构对此已经变得警觉，跨大西洋的监管机构开始对这些安排进行审查。

Copilot 与 Agent 的发展与火热

Github reigns supreme, but an ecosystem of AI coding companies is growing

作为最广泛使用的人工智能驱动开发工具，Copilot 的采用率同比增长 180%，其年收入运行率现已达到 20 亿美元（是 2022 年数据的两倍）。Copilot 占 GitHub 收入的 40%，其业务规模已超过微软收购时的 GitHub⁴²⁴³。

然而，Copilot 只是众多编码公司的其中之一，其中一些正在筹集巨额融资⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹。

ML tools for AI struggle (again)

在一个如今已熟悉的循环中，我们看到专业工具和框架在获得人气后，面临扩展和投入生产的挑战，而现有公司则展现出令人印象深刻的韧性和适应能力⁵⁰。

随着向量数据库的爆炸性增长，在向量空间中搜索的独特性已不再显著。现有的数据库提供商也纷纷推出了自己的向量搜索方法。

像 AWS、Azure 和 Google Cloud 这样的超大规模云服务提供商已扩展其原生数据库产品，以支持大规模的向量搜索和检索，而 MongoDB、Snowflake、Databricks 和 Confluent 等数据云则试图从现有客户群中捕获 RAG 工作负载。

核心向量数据库提供商如 Pinecone 和 Weviate 现在支持传统的关键字搜索，例如 ElasticSearch 和 OpenSearch，同时引入了简单高效的过滤和聚类功能。

在框架领域，像 LangChain 和 LlamaIndex 这样的工具在实验中获得了人气，但其高层次抽象和有限的灵活性被一些开发者视为摩擦源，尤其是当他们的需求变得更加复杂时⁵¹。

Are AI agents going commercial?

Cognition 推出的 Devin 在 3 月引起了轰动⁵²。被宣传为“首个人工智能软件工程师”，它旨在规划和执行需要数千个决策的任务，同时修复错误并随着时间的推移进行学习。

该产品本身引发了用户的分歧，吸引了支持者和反对者，后者指出需要设立保护措施和手动干预。无论如何，投资者对此印象深刻，在推出六个月内，该公司便获得了 20 亿美元的估值⁵³。Devin 有一个开源竞争对手 OpenDevin⁵⁴，后者在 SWE-bench 测试中比专有的 Devin 高出 13 个百分点。

MultiOn 也在强化学习（RL）方面进行重大投资，其自主网络代理 Agent Q ⁵⁵结合了搜索、自我批评和 RL，预计将在今年晚些时候向用户提供。

Meta 的 TestGen-LLM 在短短四个月内从论文转变为产品，并集成到 Qodo 的 Cover-Agent 中⁵⁶。

AI-powered search begins to make a dent, amid teething problems

Perplexity 筹集了 1.65 亿美元，成为最引人注目的以 AI 为主的搜索挑战者，而谷歌则推出了自己的搜索摘要。两家公司都发现，输出的质量取决于信息的质量。

在成立 18 个月内，Perplexity 达到了 10 亿美元的估值，传闻它已经在寻求可能将这一估值提高三倍。该大型语言模型（LLM）分析用户输入，通过网络搜索或其知识库获取响应，然后生成带有内联引用的摘要。

谷歌已排除使用摘要框来展示 Gemini 增强其标准产品的潜力。

然而，这两项服务都面临可靠性问题。Gemini 被发现使用讽刺性的 Reddit 帖子作为建议来源（例如，建议用户每天吃一块石头），而 Perplexity 也面临着其他大型语言模型（LLM）服务所遭遇的幻觉问题。

OpenAI 已开始试验原型搜索功能——SearchGPT，最终将整合到 ChatGPT 中。虽然我们尚不清楚技术细节，但宣传图像暗示了类似 Perplexity 的用户体验。

版权问题的发展、妥协、对抗

Industry attitudes to copyright diverge as anger from content creators rises…

尽管版权问题在生成式人工智能中并不新鲜，但 2024 年模型构建者受到媒体组织、唱片公司和内容创作者的更大审查。

OpenAI 和谷歌正在与主要媒体组织进行谈判，希望通过许可协议减轻批评的力度⁵⁷⁵⁸。类似地，Eleven Labs 也启动了一个配音演员计划。

一些初创公司完全避开这一问题，转而采用伦理认证计划⁵⁹。最知名的是由前 Stability AI 高管 Ed Newton-Rex 创立的 Fairly Trained。

在另一端，Meta 和 Perplexity 则更加坚定地坚持“合理使用”的论点，对与批评者妥协的意愿很小⁶⁰。

随着实验室接近数据上限，YouTube 抓取问题备受关注⁶¹。

据报道，OpenAI 转录了数百万小时的 YouTube 视频，以支持其音频转录模型⁶²。同时，Eleuther AI 广泛使用的 Pile 数据集中包含了 173,536 个 YouTube 视频的字幕⁶³。

来自 RunwayML ⁶⁴ 和 NVIDIA 的内部文件⁶⁵显示，它们对 YouTube 进行了大规模抓取。

…while cases jam up the court system and provide little clarity over fair use

关于创作者的版权是否因模型构建者使用其作品进行训练而受到侵犯的核心问题仍未解决，但更广泛的论点在法庭上已遭驳回⁶⁶。

针对 Anthropic、OpenAI、Meta、Midjourney、Runway、Udio、Suno、Stability 等公司的案件仍在继续，诉讼方包括新闻机构、图像供应商、作者、创意艺术家和唱片公司。

到目前为止，模型构建者未能完全驳回任何这些案件，但成功显著缩小了案件的范围。例如，两组作者针对 OpenAI 和 Meta 提出的指控，认为这些公司因其模型输出属于“侵权衍生作品”而构成间接版权侵权，最终未能成立，因为他们无法证明“实质相似性”。只有基于版权侵权的原始诉求被允许继续进行。

对 Midjourney、Runway 和 Stability 的案件也发生了类似的修剪，原告被要求集中于原始抓取，许多更广泛的诉求被驳回。

在这种不确定性中，Adobe、谷歌、微软和 OpenAI 采取了不寻常的步骤，向客户提供对任何可能面临的版权法律索赔的赔偿。

自动驾驶终于要开始落地了，吗？

The last ones standing: Self-driving companies Wayve and Waymo power ahead

Wayve 揭晓了 10.5 亿美元的 C 轮融资，而 Waymo 在美国范围内扩展，经过多年的炒作和失望后，行业似乎正在蓬勃发展。

Waymo 在旧金山、洛杉矶和凤凰城逐步扩展，并计划在今年晚些时候在奥斯丁推出⁶⁷。该公司已取消了旧金山的等待名单，向所有人开放了等待名单⁶⁸。

除了从软银、NVIDIA 和微软获得新一轮融资外，Wayve 还获得了一项胜利，即英国通过了允许自动驾驶汽车在 2026 年上路的立法⁶⁹。

该技术也开始展现商业潜力。谷歌母公司 Alphabet 宣布对 Waymo 追加 50 亿美元的投资，此前其“其他投资”部门（包括 Waymo）实现了每季度 3.65 亿美元的收入⁷⁰。

与此同时，在 8 月，该公司宣布其在美国的付费行程已达到每周 10 万次，仅在旧金山就有 300 辆汽车上路。

…but it’s still a risky business

去年，一辆 Cruise 的车辆在旧金山撞伤了一名行人。该公司失去了在加利福尼亚的运营许可，并经历了显著的领导层动荡⁷¹。

Cruise 的母公司通用汽车（GM）在之前裁减 25%员工并停止市场扩展后，向该公司注入了 8.5 亿美元。Cruise 已在凤凰城恢复测试（车内有一名人类驾驶员），而通用汽车计划寻求外部投资。尽管获得了额外的资金支持，但公司仍面临生存危机的问题，这表明在这一领域运营的公司所面临的高标准。

机器人行业热潮，会是下一个自动驾驶行业吗

Cash pours into humanoid start-ups…but are they set to be the next self-driving?

类人机器人初创公司如 Figure、Sanctuary 和 1 X 已从包括三星、微软、英特尔、OpenAI 和 NVIDIA 在内的企业投资者那里筹集了近十亿美元。该技术能否克服其局限性？

复制人类运动的复杂性和工程出人类般的灵巧性，历来被认为是一项昂贵且技术难度很大的任务。初创公司押注于高级视觉语言模型（VLM）、现实世界的训练数据和模拟，以及更好的硬件能够改变这一局面。

然而，热衷于 State of AI 的读者会对自动驾驶的故事感到熟悉 —— 每年都承诺会有突破，但公司在接下来的五年里却未能达标。

客户还必须相信类人机器人比更便宜的非类人工业机器人系统更有效。

尽管亚马逊最近收购了位于湾区的机器人基础模型构建公司 Covariant⁷²，非类人机器人初创公司的需求依然强劲。

文生视频的火热与落地

2023 Prediction: A Hollywood-grade production makes use of genAI for visual effects.

视觉特效是一项昂贵且劳动密集的业务，因此好莱坞制片人一直在努力逐步整合生成式人工智能，但这引发了艺术家和动画师的反对。

虽然大部分工作是在悄然进行的后期制作中完成的，但细心的观众在 HBO 和 Netflix 的制作中发现了明显的生成式人工智能相关失误⁷³。这与模型在准确和一致地表示物理和几何方面的长期问题有关。我们的预测并没有说输出会是好的……

…but this work may be about to get professionalized

在此类交易中首开先河，Runway 与电影和游戏工作室 Lionsgate 达成了合作⁷⁴ —— Lionsgate 以《约翰·威克》、《暮光之城》和《饥饿游戏》系列而闻名。

Runway 将基于 Lionsgate 的 2 万个标题目录训练一个新的生成模型，而 Lionsgate 表示将利用 Runway 的模型支持“资本高效的内容创作机会”。目前财务细节尚不明确，但我们知道 Lionsgate 最初将使用该模型进行故事板制作，然后再用于视觉特效的创作。

The video generation race is red hot

包括 Runway、Pika、Luma 和 OpenAI 在内的参与者正在大规模扩大他们的数据收集和模型训练实验，以寻求在文本到视频生成方面的质量和一致性改进，此外还在制作更长的视频片段。

But high-end model providers face a squeeze from cheap and OS competitors

美国的文本到视频初创公司根据积分出售订阅计划，但是每一秒视频就要消耗 5 个 Runway 或 Pika 积分，用户必须确保他们快速掌握提示的技巧。与大型语言模型相比，文本到视频通常对 GPU 的要求更低，这为像快手的 Kling 这样不受版权担忧限制的更便宜的中国产品，或者像 CogVideoX 这样功能强大的开源模型创造了机会。

Generative image-conditioned video generation with Lora’s on top

低秩适应 LoRA 是一种微调大型模型的方法，使得它们的生成结果在用户关心的方面（如角色、风格或概念）得到改进。像 Civit. Ai ⁷⁵这样的平台使用户可以很容易地使用自己的训练样本来训练 LoRA 模型。这些 LoRA 模型在市场上共享，供任何人使用。

此外，一种流行的工作流程是使用 LoRA 模型的输出，以通过像 Runway 这样的产品来生成几秒钟的视频，这些产品允许用户设置起始和结束图像帧。在生成的内容中加入生成音频肯定只是时间问题！

GenAI applications continue to see fast growth

头像视频生成公司 Synthesia 在企业、小型企业和创作者中持续呈指数增长。曾被认为是“边缘”产品的 Synthesia，如今已被大多数财富 100 强公司用于学习与发展、市场营销、销售支持、信息安全和客户服务。自 2020 年推出以来，该服务已经生成了超过 2400 万个视频，是去年数量的 2.5 倍。

语音技术正在快速落地

Text-to-speech is booming

ElevenLabs，文本转语音（TTS）市场的领导者，在年初达到了 10 亿美元的独角兽估值。由于大型实验室在这一领域持谨慎态度，ElevenLabs 几乎独占了市场。

除了其旗舰的文本转语音产品外，该公司还扩展了外语配音、声音隔离，并预览了一个早期的文本转音乐模型。为了避免版权问题的爆发，该公司选择不立即发布该模型，但已提供了用于音效生成的 API⁷⁶。

目前，62%的财富 500 强公司至少有一名员工在使用 ElevenLabs。同时，前沿实验室对这一领域持谨慎态度，可能是出于对声音生成能力滥用可能引发潜在反弹的担忧。

GPT-4 o 的语音输出已限制为预设声音以供一般发布，而 OpenAI 表示尚未决定是否会广泛提供其语音引擎（据称可以基于 15 秒的录音重建声音）⁷⁷。

与此同时，Cartesia 正押注于状态空间模型，以实现高效的文本转语音。

Speech recognition finds its commercial feet

虽然文本转语音技术享有“惊艳效果”，但语音识别则有潜力在大规模上自动化日常琐事。投资者开始看到其扩展的潜力。

一系列初创公司致力于将语音识别应用于客户支持和呼叫中心等多种用例，过去一年左右获得了融资，包括 Assembly AI（5000 万美元）、Deepgram（7200 万美元）、PolyAI（5000 万美元）和 Parloa（6600 万美元）。PolyAI 的收入预计在今年将增长三倍⁷⁸。

这些初创公司专注于填补呼叫中心人员短缺，并使客户的语音更加自然，包括纠正、犹豫、打断和主题变化——这些都是传统自动化系统难以应对的领域。

虽然基于人工智能的转录和音频分析并不新鲜，但由于更大的数据集和变换模型，准确性正在提高。例如，Assembly AI 开发了 Universal-1⁷⁹⁸⁰，这是一个多语言模型，训练于 1250 万个语音样本，其运行速度更快、计算需求更低、错误更少，并且在环境噪声减少方面表现优于 OpenAI 的 Whisper。

The next (uncanny) frontier: speech-to-speech?

十多年来，Alexa 和 Siri 在消费者语音助手体验方面表现平平。OpenAI 推出的 GPT-4 o 和总部位于巴黎的 Kyutai 的 Mochi 语音助手跨越了令人毛骨悚然的鸿沟。这两个系统能够同时思考和说话，以确保说话者与助手之间的最大流畅度。

OpenAI 展示了两部运行 GPT-4 o 的手机如何能够进行引人入胜的语音对话⁸¹。Mochi 的推理速度令人印象深刻，甚至有些过快，如果人类说话者暂停时间过长，可能会产生突兀的打断⁸²。

谷歌的 Notebook LM 能够基于研究生成对话播客，也赢得了用户的喜爱。最近，Hugging Face 实施了一个语音到语音的流程，结合了语音活动检测、文本转语音、LLM 和文本生成⁸³。

顶尖实验室的分裂和继续演进

Major labs fragment, with well-funded challengers emerging…

由于科学分歧、商业压力、个性冲突和资本可用性等多重因素，小型研究团队已从最大的实验室分裂出来，表明生态系统正在深化。

日本公司 Sakana AI 由 Llion Jones 和 David Ha 共同创立，Llion Jones 因是《Attention Is All You Need》的唯一未离开谷歌的作者而闻名。该公司在隐秘中获得 3000 万美元融资，并推出了三款基于“模型合并”这一进化启发式方法的模型，即将现有模型结合在一起，最有前景的模型成为下一代的“父母”。

总部位于巴黎的 H Company，由一支经验丰富的 DeepMind 团队领导，筹集了 2.2 亿美元的资金，以构建用于机器人流程自动化（RPA）的行动模型。

在 OpenAI 内部发生董事会戏剧之后（稍后会详细讨论），联合创始人 Ilya Sutskever 离开，创立了 Safe Superintelligence Inc.，该实验室专注于构建安全的人工通用智能（AGI），并不受短期商业压力或目标的影响。

最近，一些原始 Stable Diffusion 的创作者成立了 Black Forest Labs，专注于图像和视频生成。他们已经发布了 FLUX. 1，这是他们的第一款开源图像模型系列，迅速开始与 Midjourney 的质量竞争。

…but entrepreneurship is hard

优秀的工程师并不总是意味着你会成为优秀的创始人。一些实验室的前员工经历了早期成功，而其他人则……不太顺利。

由一位前律师和一位前 DeepMind 研究员创立的 Safe Sign Technologies 成功完成了一次收购，而创始团队无需对外投资者进行股权稀释。

在另一端，H Company 的前 DeepMind 创始团队即使拥有超过 2 亿美元的资金，也无法在不解体的情况下顺利推出产品。

AI 产品化留存率显著改善

AI-first products begin to demonstrate their stickiness in enterprise…

在去年的报告中，我们分析了生成式人工智能产品如何在其初始“惊艳”效果和试用期之后，难以留住付费客户。来自美国企业金融科技公司 Ramp 的新数据显示⁸⁴，从 2022 年到 2023 年，支出和客户留存率开始显著改善。表现最佳的公司包括 OpenAI、Grammarly、Anthropic、Midjourney、Otter 和 ElevenLabs。

…while AI-first challengers scale revenue much quicker than their SaaS peers

对使用 Stripe 的 100 家最高收入生成式人工智能公司的分析显示，整体来看，它们的收入增长速度远快于以往表现同样优秀的 SaaS 公司。值得注意的是，平均每家年化收入超过 3000 万美元的人工智能公司仅用了 20 个月就达到了这一目标，而同样有潜力的 SaaS 公司则需要 65 个月。

GenAI finally begins to scale in law

法律科技并不新鲜，但历史上主要集中于“简单”的任务，如合同生命周期管理、保密协议审查和案例法数据库的构建。一个谨慎且注重责任的行业正开始深入参与。

人工智能驱动的工具现在被广泛应用于起草、案件管理、证据披露和尽职调查等领域。包括 Latham & Watkins、Cleary Gottlieb Steen & Hamilton、DLA Piper 和 Reed Smith 在内的一系列大型美国律所已开始招聘内部 AI 专家⁸⁵。

Harvey 是一家受欢迎的法律科技 AI 初创公司，为包括 Macfarlanes 和 Allen & Overy 在内的律所提供服务，已于 7 月完成 1 亿美元的 C 轮融资。

虽然内部法律团队在专门工具的服务上较为不足，但根据调查数据，它们的采用率实际上更高。Klarna 鼓励其法律团队使用 ChatGPT，以节省合同起草的时间，声称其法律团队的采用率已达到 90%⁸⁶。

这种速度差异在一定程度上可以用经济因素来解释。AI 可以替代的助理计费小时是律师事务所最盈利的业务之一。律师事务所尚未就如何在保持竞争力的同时应对这一挑战达成一致解决方案。

不可忽视的玩家：Apple

Apple and OpenAI team up…

在报告称苹果在生成式人工智能竞赛中由于缓慢的进入而落后于时间表之际，苹果抛弃了与长期竞争对手 Meta 的关系，开始在其操作系统、iPadOS 和 macOS 中集成 ChatGPT。

评论人士常将苹果视为大型科技公司人工智能竞争中的落后者。尽管其内部研究团队发布了高质量的研究成果，但由于风险规避和内部优先级设置的结合，它在快速产品化方面面临挑战。

尽管公司已宣布其 Apple Intelligence 服务，但计划在下一个 iPhone 发布后逐步推出。苹果与 OpenAI 达成了合作，旨在利用 ChatGPT 增强 Siri，并提供图像和文档理解功能以及图像生成⁸⁷。

…but is this a marriage of convenience?

鉴于苹果正在发布将为 Apple Intelligence 功能提供支持的基础模型的研究成果，不禁让人质疑与 OpenAI 的合作关系会持续多久或有多深⁸⁸。

苹果持续发布研究成果，并推出了一系列高性能的小型开放模型，重点在于设备上的推理。

在 7 月，他们发布了一篇论文，记录了将为 Apple Intelligence 功能提供支持的模型。这些服务器和较小的设备版本模型在指令遵循、工具使用、写作和数学方面表现出竞争力。设备上的 3 B 模型在人工评估中优于 Gemma-7 B 和 Mistral-7B。

苹果认为，这表明数据质量在性能上更为重要。预训练包括网页、数学、代码和某些许可的数据集。

他们还在 Apple 硅芯片上投资于 MLX 阵列框架，以支持人工智能研究⁸⁹。

There’s gold in them kernels

鉴于苹果正在发布关于基础模型的工作，这些模型将为苹果智能功能提供动力，那么有理由问一下，苹果与 OpenAI 的任何合作可能会持续多久或者有多深入。

Unsloth ⁹⁰ 自去年年底推出以来，凭借 GPU 内核的改进，迅速成为一个受欢迎的开源项目，提供了高达 30 倍的更快训练和微调速度。

重点在于在使用 LoRA 进行高效微调时优化注意力机制。Unsloth 手动推导了与 LoRA 和注意力输入相关的 6 个矩阵运算的梯度。通过精心安排矩阵乘法的顺序并使用原地操作，可以显著提高速度和内存效率。这些优化应用于所有模型组件，而不仅仅是注意力机制。

生物制药领域动作频频

Two of TechBio’s leading public companies come together in a $688 M deal

在通过高通量、以人工智能为先的实验来扩大生物探索方面表现出色的 Recursion 公司与 Exscientia 公司以人工智能为先的精准化学能力相结合。

这创造了一家全栈式的发现和设计公司，拥有生物制药领域最大的 GPU 计算集群。该公司在未来 18 个月内有可能解读跨越罕见病、精准肿瘤学和传染病领域的 10 项临床试验结果。

Personalising cancer therapy with mRNA vaccines and predicted neoantigens

新冠疫情中的明星企业莫德纳（Moderna）和 BioNTech 正在开发个性化的 “新抗原” 疗法（INT）来对抗癌症。新抗原疗法由编码预测新抗原的 mRNA 组成，新抗原是癌症特有的突变，可作为由肿瘤细胞产生的抗原。这些 “新抗原” 促使患者的免疫系统清除产生它们的肿瘤细胞。新的积极数据表明，新抗原疗法在侵袭性黑色素瘤（皮肤癌）和胰腺癌中具有良好的治疗效果。新抗原疗法在制造和物流方面存在重大问题。

2024 年 4 月，BioNTech 分享了他们在胰腺癌中使用 BNT 122（新抗原疗法）的 1 期试验的三年随访数据。16 名患者中有 8 名出现了对编码新抗原具有高反应性的 T 细胞。

在这 8 名患者中，有 6 名在三年的随访期间保持无病状态。在没有出现免疫反应的 8 名患者中，有 7 名出现了肿瘤复发。

2024 年 6 月，莫德纳和默克宣布了一项 3 年期的 2 b 期试验（157 名患者）数据，显示 mRNA-4157（V 940，新抗原疗法）与可瑞达（一种黑色素瘤药物）联合使用，与单独使用可瑞达相比，在黑色素瘤患者中降低了 49% 的复发或死亡风险以及 62% 的远处转移或死亡风险。

与单独使用可瑞达的 55.6% 相比，mRNA-4157（V 940）与可瑞达联合使用的 2.5 年无复发生存率为 74.8%。

AI 硬件：火热还是伪命题？

Hot or not: smart glasses?

谷歌曾在 2014 年推出了他们的智能眼镜，当时基于深度学习的计算机视觉研究刚刚开始显示出前景，并且比增强现实热潮真正开始达到顶峰早了几年。这款产品失败了，并在 2015 年被撤下。

与此同时，在 2020 年，Meta 开始与流行的太阳镜品牌雷朋合作，开发智能眼镜。第一个版本于 2021 年发布，第二个版本在 2023 年推出，售价 299 美元，具有增强的音频功能以及与 Meta AI 的集成⁹¹⁹²。

它已经大受欢迎。虽然销售数字没有被分享，但扎克伯格表示许多款式和颜色都已售罄。很可能是其外形设计、高质量音频以及人们对隐私观念的改变促成了这种命运的转变。

Hot or not: portable AI assistants?

那些试图打造作为助手的人工智能小设备的尝试则不太成功。最著名的两款是 Rabbit R 1 和 Humane AI Pin。

这些小设备结合了标准的语音助手功能以及其他特性，包括摄像头、图像分析和语言翻译。早期的评价几乎普遍是负面的，常见的抱怨包括不可靠、电池续航差以及缺乏有用的功能。

虽然评论者通常认为在某个世界里这些设备可能会有用，但他们抱怨消费者正在支付高额费用（Pin 为 699 美元，R 1 为 199 美元）来对还未准备好进入市场的产品进行测试。

AI 投资：钱都去哪里了

AI investment surges in every region

在 xAI 和 OpenAI 60 亿美元的巨额融资等生成式人工智能大规模融资的推动下，美国私募市场继续领先。对人工智能公司的总投资接近 1000 亿美元。

Driven by public companies, AI companies reach nearly $9 T in value

虽然私人公司的估值一直在稳步攀升，但少数几家上市公司却像阿特拉斯（希腊神话中的擎天神）一样支撑着市场。现在，仅上市公司的企业价值就超过了 2023 年的整个市场价值。

在所有获得风险投资支持的公司中，人工智能公司占比最高的类别是机器人技术、企业软件、太空和安全领域。

去年，企业软件、健康、金融和营销是获得资金支持最活跃的人工智能类别。

在过去的两年中，超过 2.5 亿美元的巨额融资轮次在人工智能领域的融资中占据主导地位。

似乎存在一个明显的 “GPT-4 前 / 后时代”（2023 年），它触发了所有的融资体系进入高速发展状态……

IPO 市场仍然毫无生气，而并购活动较 2021 年的峰值下降了 23%。

在日益严格的监管审查以及新冠疫情刺激后的市场不稳定的情况下，交易活动一直处于冰冷状态，因为公司都保持着一种 “观望” 态度。

Attention is all you need… to ~~build~~ ~~raise billions for~~ sell your AI start-up

Character. Ai 的 Noam Shazeer 以 25 亿美元的价格将他的团队卖回给了谷歌，而 Adept 被亚马逊以人才收购的方式纳入麾下，Inflection 以 6.5 亿美元的价格被微软收购。这些交易都涉及雇佣创始人及明星员工，同时向投资者支付足够的资金作为技术许可费用以促成交易。