"AI编程会取代程序员吗!AI编程的真实表现究竟怎么样? 加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员一起发布了**LiveCodeBench ,用来评估大语言模型(LLM)的代码生成能力**” 在代码生成方面,OpenAI 的 O1-mini 以 67.2 分占据榜首,领先老对手 Claude 3.5 的 Sonnet 模型(42.6 分)将近 25 分,实力差距显著。而令人惊喜的是,Qwen2.5-Ins-72B 以 41.7 分超越了 ChatGPT-4,进入第二梯队,而 Qwen2.5-Ins-32B 也获得 40.1 分,仅仅比72B少1.6分,看起来32B性价比比较高。 LiveCodeBench 已在 GitHub 上开源,任何人都可以下载测试代码,亲自验证 AI 编程模型的表现! 回到开头的问题**,你觉的大模型第一名67.2分表现怎么样,是否能够威胁到程序员