本文為節(jié)選內(nèi)容
如需更多報告,聯(lián)系客服
或掃碼獲取報告

AI Agent(人工智能體)是能夠感知環(huán)境、自主規(guī)劃、進行決策和執(zhí)行動作以實現(xiàn)目標的智能體,具有自主性、交互性、反應(yīng)性、適應(yīng)性等基本特征。與大模型和人類通過prompt進行交互的指令導向不同,AI Agent具備了通過獨立思考、自主規(guī)劃、調(diào)用工具去逐步完成給定目標的能力,為目標導向。

工作原理方面,根據(jù)《LLM Powered Autonomous Agents》(LilianWeng,2023),AI Agent核心驅(qū)動力為大語言模型,規(guī)劃、記憶和工具使用是其三個關(guān)鍵的組件,即AI Agent=LLM(大語言模型)+Planning(規(guī)劃)+Memory(記憶)+Tools(工具)。具體來看,AI Agent通過傳感器感知周圍環(huán)境,使用LLM進行記憶檢索、決策推理和行動規(guī)劃等,結(jié)合外部工具獲取信息等,最終或使用具體執(zhí)行器做出響應(yīng)。
規(guī)劃(Planning):任務(wù)分解:調(diào)用LLM通過思維鏈能力將復雜任務(wù)分解為較小、可管理的子目標;反思和完善:通過對過去行為進行自我批評和反思,從錯誤行為中吸取教訓并為未來的步驟進行改進,從而提高最終結(jié)果的質(zhì)量。
記憶(Memory):短期記憶:所有輸入會形成短期記憶,以及上下文學習等都是利用模型的短期記憶來學習。短期記憶受到有限上下文窗口長度的限制;長期記憶:提供了長時間保留和調(diào)用信息的能力,外部向量數(shù)據(jù)庫可通過快速檢索進行訪問。
工具使用(Tools):外部工具API:通過使用外部工具API可獲取大模型以外的信息和能力,如查詢行程、設(shè)定鬧鐘等;插件功能:通過調(diào)用插件訪問特定數(shù)據(jù)源等。

按交互對象不同,AI Agent 可分為自主智能體(Autonomous Agent)和生成智能體(GenerativeAgent):自主智能體:交互對象只有人類,是在特定應(yīng)用場景中根據(jù)人類通過自然語言提出的需求,依賴內(nèi)在決策機制自動執(zhí)行任務(wù),從而實現(xiàn)預(yù)期結(jié)果的獨立運行智能體,如AutoGPT、ChatGPT+插件等應(yīng)用形式;生成智能體:交互對象包括人類和其他智能體,如斯坦福和Google 創(chuàng)建的西部世界小鎮(zhèn),其中25 個智能體在小鎮(zhèn)上各自賦予了獨特的個性和背景故事,有著組織結(jié)交、舉辦情人節(jié)、聊八卦等日常生活。

(1)學習范式:大模型賦能下,AI Agent 遷移學習能力快速提升
AI Agent 發(fā)展逾40 年,大模型賦能下跨入新的智能體階段。20 世紀80 年代Wooldridge 等人將Agent引入人工智能,自此之后AI Agent 經(jīng)歷了符號智能體、反應(yīng)型智能體、基于強化學習的智能體、具有遷移學習和元學習功能的智能體四大發(fā)展階段。由于只能基于學習框架學到特定技能,未能理解從而泛化性較差,此前的AI Agent 只能用于特定領(lǐng)域。
符號智能體:主要通過邏輯規(guī)則和符號封裝知識促進推理過程,應(yīng)用在特定技術(shù)領(lǐng)域。如1980 年左右出現(xiàn)的模擬心理治療、醫(yī)學診斷專家系統(tǒng)等。
反應(yīng)型智能體:為基于反應(yīng)機制的智能體,能實時感知環(huán)境并作出快速響應(yīng),主要應(yīng)用于機器人、游戲AI 等領(lǐng)域。如游戲中反應(yīng)型智能體可通過學習玩家的操作習慣和戰(zhàn)術(shù),實時調(diào)整自己的游戲行為?;趶娀瘜W習的智能體:主要為通過智能體與環(huán)境的持續(xù)交互,利用最大化環(huán)境獎勵來實現(xiàn)優(yōu)化以期達到更高的智能水平,標志性的應(yīng)用如圍棋領(lǐng)域的AlphaGo。
基于遷移學習和元學習的智能體:主要為讓智能體從少量樣本中迅速推理出實現(xiàn)指令的最優(yōu)策略。LLM 帶來深度學習新范式,AI Agent 遷移學習能力快速提升。此前的強化學習等范式主要集中在增強特定領(lǐng)域的技術(shù)能力,但通用能力的發(fā)展被忽視,如長期規(guī)劃、有效泛化、知識記憶等。隨著OpenAI 陸續(xù)發(fā)布ChatGPT、GPT-4 推進以文本模型為主的大模型迭代,國內(nèi)外科技巨頭均在AI 大模型領(lǐng)域加快布局,LLM 快速發(fā)展但其仍存在的諸多不足如幻覺、上下文容量限制等使得基礎(chǔ)大模型無法直接通向AGI。
而LLM具備的自然語言理解能力、思維鏈、涌現(xiàn)能力使得AI Agent具備了較好的學習和遷移能力,處理問題的泛化性效果增強,推動著AI Agent進入了新智能體階段,成為通向AGI的主要探索路徑。

(2)工作模式:從過程導向轉(zhuǎn)為目標導向,自動化程度為關(guān)鍵轉(zhuǎn)折點
生成式AI人機協(xié)同模式主要分為嵌入模式(Embedding)、副駕駛模式(Copilot)、智能體模式(Agent)三種:嵌入模式:用戶使用文本或語音交流,通過Prompt輸入使得生成式AI創(chuàng)作小說、音樂作品、代碼等。在該模式下,生成式AI為執(zhí)行指定命令的工具,人類承擔著目標的規(guī)劃和決策,完成絕大部分工作;副駕駛模式:AI介入到工作流程中,承擔如為程序員編寫代碼、檢測錯誤以及優(yōu)化程序等輔助性工作。在該模式下,AI和人類協(xié)作工作,互相彌補短板、糾正錯誤;智能體模式:人類設(shè)定目標,生成式AI獨立承擔大部分工作,人類只負責監(jiān)督進展及評估最后的成果。在該模式下,AI承擔著絕大部分工作,具有獨立思考和規(guī)劃的能力。

基于LLM的AI Agent相較于嵌入模式、副駕駛模式,其工作模式更為高效,主要的差別在于LLM發(fā)展帶來的“自主規(guī)劃”能力。嵌入模式、副駕駛模式均需要人類指揮規(guī)劃,而AI Agent具有自主記憶、推理、規(guī)劃和執(zhí)行的全自動能力,過程中不需要人的介入。

3、Agent—AI 的下一步,包括端側(cè)Agent、應(yīng)用側(cè)AI Agent 兩類載體
AIGC 賦能的第三類場景為AI Agent。Agent 為AI 應(yīng)用的下一步,AI 由副駕駛逐步轉(zhuǎn)向人類生產(chǎn)生活的獨立助手,能夠自主調(diào)用資源完成任務(wù),人類在其中更多起到監(jiān)督和評估的作用。AI Agent 目前有兩類載體,一類為端側(cè)Agent,基于手機、電腦等終端為用戶服務(wù),能自主調(diào)用終端中的功能與信息;另一類為軟件層面的Agent,尤其看到在企業(yè)生產(chǎn)管理類軟件中,基于企業(yè)目前積累的特有知識,實現(xiàn)任務(wù)自動化。Gartner 預(yù)測,到2028 年,至少15%的日常工作決策將通過人工智能代理自主完成(這一比例在2024 年尚為0%)。
(1)端側(cè)AI Agent:終端為個人AI 助理優(yōu)質(zhì)載體
手機等終端設(shè)備承載大量個人專屬信息,能夠幫助AI Agent 實現(xiàn)個性化服務(wù),同時AI 在端側(cè)運行減少用戶數(shù)據(jù)頻繁上云,可兼顧AI 能力與數(shù)據(jù)隱私安全,終端側(cè)為個人AI Agent 的良好載體。
目前,各大手機廠商均推出手機端AI。端側(cè)AI 基于蒸餾剪枝后的輕量化模型在手機本地運行,同時端側(cè)算力不夠的情況下可連接到私有云上計算,確保用戶數(shù)據(jù)安全和隱私。以Apple Intelligence 為例,AI 在端側(cè)可實現(xiàn)自然語言理解,且實現(xiàn)基于個人背景的跨應(yīng)用交互,AI 能夠以個人信息為基礎(chǔ),從所有應(yīng)用中檢索和分析最相關(guān)的數(shù)據(jù),以及讀取屏幕內(nèi)容,實現(xiàn)跨應(yīng)用交互,打通終端信息,成為真正的個人助理。此外,基于生成式AI,用戶在手機端還可實現(xiàn)圖片生成與編輯,文本改寫、校對與摘要,錄音轉(zhuǎn)寫與摘要,郵件快速回復建議等。目前,Apple Intelligence 部分功能已于美國率先上線。除蘋果外,小米、榮耀、三星、谷歌也先后推出手機端AI 功能。除手機外,智能眼鏡、PC、機器人等端側(cè)設(shè)備也為AI Agent 成熟載體。
智譜推出Agent 最新進展,探索LLM-OS 的可能性。智譜于2024 年11 月推出在Agent 探索上的最新進展。包括AutoGLM 可以自主執(zhí)行超過50 步的長步驟操作,也可以跨app 執(zhí)行任務(wù),支持數(shù)十個網(wǎng)站的無人駕駛,以及像人一樣操作電腦的GLM-PC 啟動內(nèi)測,基于視覺多模態(tài)模型實現(xiàn)通用Agent 技術(shù)探索。
更進一步,智譜CEO 張鵬將Agent 看作是大模型通用操作系統(tǒng)LLM-OS 的雛形,與智能設(shè)備結(jié)合后將為端側(cè)智能化帶來新的進展。
(3)應(yīng)用側(cè)AI Agent:企服應(yīng)用為B端Agent優(yōu)質(zhì)載體
從海外進展來看,隨著生成式AI和推理技術(shù)的快速發(fā)展,AI Agent在B端企業(yè)服務(wù)場景中的應(yīng)用潛力正在加速釋放。通過與企業(yè)積累的大量運營數(shù)據(jù)深度結(jié)合,AI Agent能夠基于角色定位和目標導向,實現(xiàn)一定程度的自主操作,有效承擔企業(yè)內(nèi)重復性和低附加值的工作。這不僅幫助企業(yè)簡化流程、提升效率,還通過減少人工投入和優(yōu)化資源配置,顯著降低運營成本,為企業(yè)提供了智能化轉(zhuǎn)型的新路徑。
Salesforce的Agentforce是一個典型的應(yīng)用側(cè)代理平臺。它允許企業(yè)在Salesforce平臺上構(gòu)建和部署自主AI代理,這些代理能夠自動執(zhí)行各種業(yè)務(wù)功能,如銷售、服務(wù)、營銷和商務(wù)等。Agentforce的主要特點包括:
自主操作:代理可以獨立分析數(shù)據(jù)、做出決策并完成任務(wù),如解決客戶問題、篩選銷售線索和優(yōu)化營銷活動。
深度集成:作為Salesforce平臺的一部分,Agentforce代理能夠無縫訪問和交互各種Salesforce應(yīng)用中的數(shù)據(jù),利用客戶信息、觸發(fā)工作流程和更新記錄。
可定制性:用戶可以使用低代碼或無代碼工具,快速構(gòu)建和定制代理,以滿足特定的業(yè)務(wù)需求。
安全性和信任:Agentforce通過Einstein Trust Layer,確保代理在使用任何大型語言模型時,Sales force數(shù)據(jù)不會被第三方模型提供商查看或保留。
Agentforce在Q3最后一周投入生產(chǎn)使用,僅在第三季度就有超過200筆Agentforce交易,且公司在Agentforce層面已看到巨大的潛在需求。Salesforce首席執(zhí)行官MarcBenioff于近期宣布,公司計劃招聘超過1000名員工,以強化Agentforce的推廣。
北京時間2024年10月22日,微軟重磅宣布在Dynamics365中集成了10個自主AI Agent。這10個AI Agent基于OpenAI的最新模型o1,具備自主學習能力,能夠自動執(zhí)行跨平臺的超復雜業(yè)務(wù),節(jié)省大量時間和運營成本。微軟CEO、董事長Satya Nadella親自宣布了這一AI新進展,并表示目前已有60%的財富500強企業(yè)正使用Microsoft365Copilot來加速業(yè)務(wù)成果并增強團隊能力。
