OpenAI近日发布了名为Operator的新款AI工具,能够直接操作浏览器,执行网页浏览、数据提取和任务自动化等复杂操作。这一发布被视为2025年智能体大战的开端,标志着AI技术在实用性和功能性上的重大突破。Operator不仅能够理解自然语言指令,还能自主完成复杂的在线任务,如预订机票、填写表格和搜索信息等,极大地提升了用户的生产力和效率。这一创新展示了AI在日常生活和工作中的广泛应用潜力,预示着未来智能体将在更多领域取代人工操作,推动智能化时代的加速到来。
1月23日,OpenAI宣布Operator智能体正式发布,这款产品的亮相令人眼前一亮,从OpenAI此前提出的AI发展五阶段来看,以ChatGPT为代表的传统AI工具属于第一阶段的基础AI,而Operator的出现则标志着AI发展进入第三阶段——智能体阶段。
与以往需要明确指令才能执行任务的AI工具不同,Operator展现出了更强的自主性和决策能力,它能够理解模糊的指令,将任务分解成多个步骤,并通过浏览器自主执行操作,这种从"被动处理信息"到"主动完成任务"的转变,体现了AI技术的重大突破。
当你告诉Operator"帮我预定这家餐厅今晚7点的位置"时,它会自动打开浏览器,搜索餐厅信息,选择合适的预订时间,如果所选时间不可用,它还会主动提醒用户,类似的场景还体现在购物场景中,用户只需手写购物清单,Operator就能自动识别并完成在线采购。
Operator的核心突破在于其能够直接操作浏览器,而不再依赖特定API,这得益于其采用的CUA(Computer-Using Agent)模型,CUA基于GPT-4o训练,具备视觉能力,可以通过"查看"屏幕截图来理解页面内容,并模拟鼠标和键盘操作,这种方式大幅提升了通用性,使得Operator可以应对各种网页界面。
Operator强调人机协作理念(HITL),在执行重要操作时,它会主动与用户确认,确保系统的安全性和可靠性,这种设计理念让AI不再是完全自主的黑箱,而是与人类协同工作的智能助手。
不过,作为研究预览阶段的产品,Operator仍存在一些局限性,在演示中,它曾出现预订时间错误、网站重定向等问题,目前它只支持浏览器操作,响应速度还有待提升,这些都表明Operator还有很大的改进空间。
Operator仅对ChatGPT Pro用户开放体验,其他用户将逐步获得使用权限,作为2025年AI智能体大战的开端,Operator的发布无疑为AI技术的发展开启了新的篇章,随着技术的不断完善,我们有理由期待更多令人惊喜的AI创新成果。
网友评论