自运作计算机的崛起:革新科技与自动化的新时代

与新生儿共度的夜晚常常能激发出非凡的创新。这正是OthersideAI开发者乔什·比基特(Josh Bickett)的经历,他在深夜照顾女儿时设想出了一个创新的“自我操作计算机框架”。

比基特分享道:“我在享受与四周岁女儿共度的时光,同时学习为人父的经验。在这些时刻,我被GPT-4视觉演示所启发,意识到我们的当前项目可以利用这一技术。”

抱着女儿,比基特迅速在电脑上勾勒出框架的基础。“我找到了一个初步实现,尽管在准确点击鼠标方面还有欠缺,但我们专注于核心挑战:让计算机能够自主运行。”

当OthersideAI联合创始人兼首席执行官马特·舒默(Matt Shumer)评估该框架时,他意识到其巨大潜力。“这是实现类似于自动驾驶汽车的自我操作计算机技术的重要里程碑。我们拥有必需的传感器和工具,现在需要构建智能。”

引入AI驱动的计算机交互

比基特进一步解释,该框架使AI能够控制鼠标和键盘,独立工作。“这类似于autoGPT等代理,但基于视觉。AI会截取计算机屏幕,决定点击的位置和按下的键,就像人类一样。”

舒默强调,这种方法相比于仅依赖API的以往模型有了显著的进步。“许多计算机任务无法通过API执行,这是创建代理的常用方法。真正的自主性要求系统表现得像人类,因为计算机是为人类使用而设计的。”

通过使用屏幕截图作为输入,框架生成鼠标点击和键盘指令,模拟人类互动。然而,比基特和舒默都承认,真正的力量在于能够集成到框架中的复杂计算机视觉和推理模型。“这是模块化的:插入更好的模型,它就会改善。”比基特说道。

展望AI代理的计算未来

谈及未来的影响,舒默描绘了一个令人兴奋的愿景:“一旦这项技术成熟,它将成为您通往数字世界的主要接口。”有了自我操作计算机框架,先进的AI模型可以通过对话命令无缝管理所有计算机交互。

舒默预计将出现针对特定任务量身定制的专业AI代理模型。有些可能优先考虑快速处理简单活动,而其他则可能专注于复杂推理,其中还包含面向企业和消费者的不同版本。他指出,目标是创造能够帮助用户消除琐碎任务的代理,从而让计算机对技术能力有限的人也变得可用。

利用开源加速开发

比基特相信,框架的开源特性将加速创新,使全球开发者能够探索新的应用。舒默同意这一观点,并指出“行业为多样化的模型提供者和应用创造了丰富的机会,为重大的商业增长铺平了道路。”

尽管两位企业家均预见了巨大的机遇,实现智能计算机代理的愿景需要重要资源和持续的创新。为此,AI研究公司Imbue(前称Generally Intelligent)与戴尔达成了一项价值1.5亿美元的合作,旨在创建强大的AI训练平台。

该计划将利用大约10,000台Nvidia H100 GPU的强大集群,使Imbue能够开发专门优化推理能力的基础模型。Imbue联合创始人兼首席执行官邱侃君(Kanjun Qiu)强调推理的重要性:“这是创造高效代理的核心障碍。”

Imbue专注于培养强大的推理能力,这对于AI代理在不确定性中导航、适应策略、吸收新信息和做出复杂决策至关重要。这些能力对于在动态环境中自主运作的任何系统都是必不可少的。

该公司采用优化模型训练、代理原型制作、工具开发和理论研究相结合的方法,旨在推动深度学习发展到人类水平推理和潜在的人工通用智能。

尽管比基特和舒默承认自我操作计算机框架只是起步,但他们展望一个变革的时代,在这个时代,先进的AI代理将根本替代传统的计算机交互界面。夜晚的灵感有可能引领革命性的突破,但实现每个人都能轻松使用自然语言指令进行直观操作的计算机梦想,需要坚持不懈的努力。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles