CC-OCR评测集因其场景丰富性和多语言文档分析能力而备受关注,涵盖了关键信息抽取、多种场景(如照片、门头、标识)识别,甚至包括数学公式和化学方程式的结构化输入输出。评测结果显示,在中文方面GOT及OT模型表现较好,但在其他语言上略显不足;开源的internal V2 76B模型在多场景识别中表现出色。对于文档识别,微软开源的Kosmos小模型在英语方面精准度高。总体而言,大模型在多语言处理上更具优势。