Garden | In The Loop 科技周刊#3：从真实世界中获取数据，从数据中获取智慧

In The Loop 科技周刊记录每周值得分享的科技内容，周日发布。本周刊开源¹，欢迎投稿²。

近日，Lecun 的一条推文³ 引起广泛关注，他指出，「在 4 年内，一个孩子看到的数据比最大的 LLM 多 50 倍… 文本的带宽太低，无法了解世界如何运作，相对来说，视觉数据则丰富的多，4 岁儿童看到的所有视觉数据仅相当于 Youtube 半个小时内的视频上传量。」

I’ve made that point before:

LLM: 1E13 tokens x 0.75 word/token x 2 bytes/token = 1E13 bytes.

4 year old child: 16k wake hours x 3600 s/hour x 1E6 optical nerve fibers x 2 eyes x 10 bytes/s = 1E15 bytes.

In 4 years, a child has seen 50 times more data than the biggest LLMs.³

是的，研究机构 Epoch 在 2022 年即提出，可用于训练的高质量文本可能会在2026年耗尽⁴。

以 Chinchilla 70B 模型⁵为例，其在 1.4T 个 Token 上训练，消耗训练文本数据量已经达到 E12 的量级。LessWrong 的这篇文章「chinchilla’s wild implications」⁶ 粗略分析了目前可以收集到的高质量文本数据大概在 E13 这个量级，指出了目前训练数据将会成为 LLM 进一步 Scaling 的关键瓶颈。

高质量文本的训练数据即将耗尽，下一步将怎么办？对于这个问题有很多探索的方向，其中「多模态」和「数据合成」是目前的两个主流路径。在进一步讨论之前，我们可以先退一步，回顾一下数据到底是什么？

数据是真实世界的若干个切面

数据到底是什么？对计算机而言，它只是一连串的零一序列，而对应到真实世界，数据代表着各种信息实体的最终总结。它可能是你昨天阅读的 Chinchilla 论文「Text」，也可能是你今天在电影院看的热辣滚烫的电影「Video」，它可能是你与父母畅快淋漓的谈话「Audio」，也可能是你与朋友的一个温暖的拥抱「Touch」，它可能是你在年夜饭闻到的香味「Smell」，也可能是你在南方感受到天气的潮湿，etc.

在知识管理中，有一个经典的 DIKM 理论⁷，首先需要从真实世界中收集到各个切面的数据 Data，然后经过处理，将其转换为有用的信息 Information，接下来从信息中正确认知才可以提取出知识 Knowledge，最后经过正确判断才可以获得真正的智慧 Wisdom。

对应到当前的机器学习模型，如果要获取真正的 AGI，当前仅依靠 Language Model 可能并不足够。当前语言模型所依赖的训练数据来自人类智慧高度压缩的文本，人类真实的物理三维世界有着更为丰富的信息，如果能够将通用的数据表示（比如现在的零一序列），给到更加统一的模型统一训练，将来的模型可能会产生更加完备的智能。

「登月」有几个不同的生产要素，算力肯定是一个核心… 今天能看到最好的模型是 E25 到 E26 FLOPs 这种规模…这个数量级接下来肯定还会持续增长… 数据也是一个生产要素，包括真个实际的数字化，和来自用户的数据… 如果视频和多模态的卡点解决不了，那文本的数据瓶颈就会成为关键… 最后可能是多模态解决数据问题，合成数据解决能源问题…⁸

如月之暗面杨植麟所说，我们需要一个更加能够 Scale Up 的架构，进而基于这个架构给模型不停加入各种新的数据类型，从而更好地模拟整个物理世界，进而获取真正的智能。

自从移动互联网以来，全世界几十亿的智能设备从真实物理世界收集了不可胜数的数据，这些数据都各自代表了这个世界的不同切面。随着模型的进一步进化，我们能够在此基础上，获取更进一步的智能吗？

https://github.com/houminz/weekly ↩︎
https://github.com/houminz/weekly/issues ↩︎
https://twitter.com/ylecun/status/1750614681209983231 ↩︎ ↩︎
https://epochai.org/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset ↩︎
https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training ↩︎
chinchilla’s wild implications, https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications ↩︎
https://en.wikipedia.org/wiki/DIKW_pyramid ↩︎
专访月之暗面杨植麟：lossless long context is everything， https://mp.weixin.qq.com/s/UMY0qZsCGh87KnW4wjfvoA ↩︎