最近,越来越多的 AI 产品,可以让我们的手机和电脑自己跑起来。如Anthropic 的「computer use」、荣耀的 YOYO 智能体等。 智谱正在内测的应用 AutoGLM,是使用门槛较低的一款 agent,可以AI 语音转文字,也能发起语音通话,帮忙打车、购物它还会给出追问,主动对齐需求。不同于去年很火的Autogpt,今年的多模态大语言模型更为成熟,苹果在 4 月发布了多模态大语言模型 Ferret-UI 的论文,称为了增强模型的推理能力,还编制了一个用于高级任务的数据集。Google也传出开发 agent 的消息,项目就叫贾维斯,由 Gemini 驱动,微软旗下AIPC 的 Recall,还低调开源了 OmniParser。 10月,信通院联合荣耀,为AI手机的智能化,提出了一个类似驾驶自动化的分级标准,分为 L1 到 L5。目前,agent 的水平更接近 L3,AI 助理,理解并完成用户的很多指令。