人类将世界知识投影到一维的自然语言中,LLM训练将自然语言中的知识压缩到模型的权重中,LLM利用了一个超级智能体(历史上的所有人)的劳动成果,这是我们认为的gpt4令人惊艳,根本且朴素原因之一。 但是更多的世界知识并没有投影到自然语言之中,LLM模型将会受限于人类的知识边界,模型需要直接从原始信号中进行学习。 视频是最大规模可用的原始电磁波信号,必须直接且仅从视频中进行训练才有可能真的走向AGI。