这个多模态模型Grok-1.5 Vision可以处理各种视觉信息,包括文档、图表、屏幕截图和照片,并且在相关的任务上超越了GPT-4V、Claude 3和Gemini Pro,目前只对早期测试者和现有 Grok 用户推出,并且没有说明是否开源。 除此以外还发布了一个名为RealWorldQA的数据集用来测试多模态模型对真实世界的认知能力。