OmniParser v2 + pyautogui实现自动操作鼠标控制电脑啊!我上两天分享了个OmniParser的视频,没想到喜欢的人还不少。但是omnivision毕竟只实现了屏幕元素坐标解析,要真正发挥功效,还是需要围绕它做点事情的,比如我们不可能只是打开个gradio的ui,每次手动上传个屏幕截图来查看下解析到元素描述坐标地址,如我之前视频中说的,我们的目标应该是这样的。第一,对Omniparser做个封装,在服务器上运行起来,然后通过restful api来调用,这样我们任何客户端的电脑只要上传个屏幕截图给他就能获取到对应的各个元素的信息。第二,客户端要做的事情是,首先是自动截屏...