最后更新：2024年10月20日

智能机器的下一步

当前生成式AI内容中的机器学习

文本、图像、视频和音乐的生成模型在架构和学习过程中依赖相似的机制，尽管它们处理的数据类型各不相同，但共享共同的原则。

对于文本生成型人工智能，大型语言模型无疑是机器学习的先进应用。这些模型通过海量文本数据的预训练，能够学习语言结构、词汇关联及使用语境。换言之，它们能以惊人准确度预测句子中的下一个词语。此类模型在文本生成、自动翻译、聊天机器人和虚拟助手方面表现出色，但缺乏推理能力，无法形成观点、做出判断或进行决策。

未来的机器将需要以类似于人类和动物的方式学习物理世界。通过这样做，它们可以变得更高效，并接近人类水平的智能。

人类和动物通过观察和经验，逐渐形成对环境的直觉性和情境性理解。他们逐步掌握对物体、力以及因果关系的认知。例如，儿童会明白物体掉落时会向下坠落。即使不理解重力的作用原理，他们也能据此调整自身行为。

换言之，机器不仅需要识别物体，还需理解它们在不同情境下的行为。这意味着它们必须像动物一样，以情境化的方式解读感官数据——例如动物能判断何种声响具有威胁性，何种食物令人垂涎。

理解物理世界能够获得持久记忆、规划行动、实现目标的能力，简而言之，就是推理能力。尽管人工智能的进展令人瞩目，但在我们谈论人类智能之前，仍有许多障碍需要克服。

当前基于优化推理开发的模型，是模拟人类智能的一种有前景的方法。

推理是一个基于观察得出结论的概念。推理在决策、推理和学习中起着关键作用。

优化是关于找到实现特定目标的最佳可能解决方案。在优化过程中，人们寻求在不同标准（如速度和准确性）之间达到最佳平衡。

通过优化进行推理可以在儿童的认知发展中观察到，甚至在他们开始说话之前。例如，一个试图拉动连接在游戏架上的玩具的婴儿，很快就会发现用力拉或改变方向可以让玩具移动。孩子通过观察自己行为的结果来优化自己的技巧。孩子会记住与每个玩具互动的过往经验，并根据哪种方式曾带来最多乐趣或兴趣来优化自己的选择。

人脑常被比作一个优化系统。它通过优化推理进行思考，不断根据新的观察更新其信念。

当一个人做决定时，他们会评估各种可用选项，并力求最大化某些标准，例如幸福感、满意度或收益。这一决策过程通常涉及在不确定性下评估每个选择相关的风险与回报。但在许多情况下，大脑会使用启发式策略——即近似捷径，这些心理策略或实用规则能够让人无需对所有选项进行详尽分析，从而快速做出决策。

因此，人类基于经验学习和周围世界的模型构建对现实的理解。个体通过整合基于自身经历的新知识来调整自身行为。例如，当某人尝试新食谱时，他们会根据之前尝试所得的口味调整配料用量。

人类智能与情感、自我意识、对世界的感知以及社会互动等方面紧密相连。人类和动物理解环境、运用“常识”进行推理或规划复杂行为的方式，对我们而言似乎自然而然，但截至2024年，这仍是人工智能无法企及的领域。

当前的AI模型缺乏对物理世界的这种理解，这限制了它们预测未来情境的能力。人工智能必须从多模态数据中学习，其中视频将发挥关键作用。然而，这在数据和信息处理方面带来了巨大挑战，但这是一个快速发展的研究领域，其未来发展前景广阔，充满希望。

通用人工智能（AGI）需要海量数据、通过真实世界或模拟环境中的交互学习，以及架构与算法的进步相结合。通往AGI的道路依然漫长，但通过借鉴大脑的认知机制，未来的系统很可能展现出与人类相当的智能。