自動運行電腦的崛起:顛覆科技與自動化

深夜與新生兒的時光能激發出非凡的創新。OthersideAI 的開發者喬什·比凱特(Josh Bickett)便是在照顧女兒的靜謐夜晚中,構思出一個創新的「自我運行電腦框架」。

比凱特分享說:「我在享受與四週大女兒的相處,同時學習為人父的新課題。在那段時間裡,我受到 GPT-4 視覺技術各種演示的啟發,意識到我們目前的項目能夠利用這項技術。」他一手抱著女兒,迅速在電腦上草擬出框架的基礎。「我找到了一個初步的實現方案。雖然點擊鼠標的準確性尚未完美,但我們專注於核心挑戰:使電腦能夠自主運行。」

當 OthersideAI 的聯合創始人兼首席執行官馬特·舒默(Matt Shumer)評估該框架時,立刻認識到其巨大的潛力。「這標誌著通往類似自駕汽車的自我運行電腦技術的重要里程碑。我們擁有必要的感測器和工具;現在需要構建智能。」

引入 AI 驅動的電腦互動

比凱特進一步解釋,這個框架使 AI 能夠控制鼠標和鍵盤,自主運行。「這類似於 autoGPT 的代理,但基於視覺。AI 將電腦截圖,並決定點擊位置和按鍵,就像人類一樣。」

舒默強調,這一方法比僅依賴 API 的舊模型有顯著進步。「許多電腦任務無法通過 API 執行,這是創建代理的常見方法。真正的自主要求系統像人類一樣互動,因為電腦是為人類使用而設計的。」

透過使用截圖作為輸入,該框架生成鼠標點擊和鍵盤指令,模仿人類互動。不過,比凱特和舒默都承認,真正的力量在於可整合進框架中的高級計算機視覺和推理模型。「這是模組化的:插入更好的模型,性能就會提升。」比凱特表示。

構想 AI 代理計算的未來

當被問及未來的可能性時,舒默描繪出一幅令人興奮的願景:「一旦這項技術成熟,它將成為你進入數位世界的主要介面。」隨著自我運行電腦框架的建立,先進的 AI 模型能夠通過對話命令無縫管理所有電腦互動。

舒默預測將出現專門針對特定任務的 AI 代理模型。有些可能優先考慮速度來處理簡單任務,而另一些則可能專注於複雜推理,並針對企業和消費者應用開發不同版本。他指出,目標是創造能使使用者消除繁瑣任務的代理,讓計算變得更易於那些技術技能有限的人。

利用開源加速發展

比凱特相信,該框架的開源特性將加快創新,讓全球開發者探索新的應用。舒默也同意,指出「行業中對多樣化模型提供者和應用的機會非常豐富,這將促進可觀業務的增長。」

雖然兩位創業者都看到了廣闊的機會,但實現智能電腦代理的願景將需要大量資源與持續創新。為了促進這一進程,人工智慧研究公司 Imbue(前稱 Generally Intelligent)已與 Dell 簽署了 1.5 億美元的合作夥伴關係,以建立一個強大的 AI 訓練平台。

這個計劃將利用約 10,000 顆 Nvidia H100 GPU 的強大集群,使 Imbue 得以開發專為推理能力優化的基礎模型。Imbue 的共同創始人兼首席執行官邱漢俊(Kanjun Qiu)強調推理的重要性:「這是創造高效代理的核心障礙。」

Imbue 專注於培養強大的推理能力,這對於AI 代理在不確定環境中導航、適應策略、吸收新資訊和做出複雜決策至關重要。這些能力對於任何在動態環境中自主運行的系統都是必不可少的。

該公司採取全面的方法,進行優化模型訓練、代理原型開發、工具開發和理論研究,所有這些都旨在推動深度學習走向人類水平的推理和潛在的人工通用智能。

儘管比凱特和舒默承認,自我運行電腦框架僅是初步步驟,但他們憧憬著一個變革時代,先進的 AI 代理將根本取代傳統的計算介面。深夜的靈感或將引發革命性的突破,但要實現人人皆可輕鬆使用的直觀電腦夢想,仍需付出不懈的努力。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles