一個異端主張
近五年來,科技產業一直沉醉在一個假設當中:規模就是一切。因此,我們打造了大型語言模型 (LLM) 巨獸,其參數量直逼一些小型國家的 GDP,我們相信只要能投入更多 GPU,就能造出一個神。
然而,事與願違,我們打造了極其昂貴而令人印象深刻的文字產生器,但對實際業務流程來說,它們卻是經濟上的災難。
隨著時序進入 2025 年底,宿醉的後果開始浮現。Hugging Face 執行長 Clement Delangue 稱之為「LLM 泡沫」,這並非對 AI 本身有所懷疑,而是對用偷懶方式來評價大型通用模型的批評。市場正準備自我修正,清除那些「包裝」AI 的新創公司,迫使企業將目光轉向那個無聊、但卻能創造獲利的因素:效率。
「其實我認為,您在未來幾個月和未來幾年之內會看到各式各樣更加客製化、專業化,並且解決各種不同問題的模型。」
未來無關乎單一全知模型,而是關乎數十億個專業化微小模型。
諾貝爾得獎人問題
當前典範效率不彰的核心關鍵是:每一樣工作都用 GPT-5 等級的模型來解決,就好像聘請一名諾貝爾獎得主物理學家來從事資料輸入工作。他們當然可以勝任,甚至還做得有聲有色。但這等於是花 50 萬美元的薪水請人來做 Excel 表複製貼上的工作。
我對開發人員和資安團隊也是這麼問:「為了應付可能刺探您應用程式的潛在駭客,您正在燒多少錢來建立先驅模型,結果它卻回答『抱歉,這我幫不上忙』?」
這就是「單一化謬誤」,我們假設這個單一模型應該要樣樣精通:寫詩、寫 Python 程式碼、診斷疾病,以及解析 JSON。但在現實世界,專業化向來勝過通用化。更棒的是,我們現在有明確的證據可證明這點。
小人物的力量
位於加拿大蒙特婁的 Samsung AI Lab 在最新研究中打破了「規模就是一切的」的教條。他們的微型遞迴模型 (Tiny Recursive Model,簡稱 TRM) 僅有 700 萬個參數,它在「抽象與推理語料庫」(Abstract and Reasoning Corpus,簡稱 ARC-AGI) 這個專為挫折機器而設計的標竿測試中擊敗了全球一些最棒的 LLM。
想像一下它們的差距:一個比先驅 LLM 小一萬倍的模型,在純粹的邏輯上打敗了大它一萬倍的對手。研究人員 Alexia Jolicoeur-Martineau 稱這種「唯有數百萬美元的模型才能應付困難工作」的想法是一種陷阱,因為她的模型不做記憶,只是不斷修正自己的答案,而且在輸出最終結果之前可能自我修正高達 16 次。事實證明,推理並非兆級規模參數下的神奇副產品,而是一種需要用架構來解決的工程問題,不能單純只靠暴力。
這樣的區別對代理式 AI 至關重要。AI 代理不像聊天機器那樣整天坐在那裡等你打字,它們得做事,他們要執行工作流程。AI 代理光是執行一輪工作就可能牽涉到 100 道內部步驟,包括:查詢資料庫、分析結構 (schema)、撰寫程式碼、測試輸出,以及格式化輸出。
如果這 100 道步驟中的每一步都要花費 0.03 美元的推論費用,那麼您的代理就不是一個生產力工具,而是一座燃燒創投資金的火爐。為了讓 AI 代理變得可行,我們得將諾貝爾獎得主換成一千名有效率的實習生。
數位工廠
NVIDIA 研究人員最近完美描繪了這項轉變,他們提出了一個「數位工廠」的概念,大規模地進行智慧的拆分。
在這個架構中,SLM 就是工人,它們是專業化、冷酷、廉價的勞工。某個模型只會撰寫 SQL,另一個只會輸出 JSON 格式。第三個只會摘要法律文字。他們處理了 90% 的工作,也就是數位經濟中的藍領工作。
那大型 LLM 呢? 它們成了顧問。只有在您的工人遇到了困難,或是您需要高階策略規劃時,才打會呼叫它們。將一台「路由器」設置出入口,用來分析每一個請求,然後決定:「這需要每小時 100 美元的天才,還是每小時 0.01 美元的專員來處理?」
這不只是理論,澳洲聯邦銀行 (Commonwealth Bank of Australia,簡稱 CBA) 已經正在實行。他們並未試圖建立一套「銀行 GPT」,而是部署了 1,000 多個專業化模型來處理專門的工作,例如:讀取薪資單和偵測詐騙。成果呢? 詐騙損失減少了 70%。看看先驅 LLM 通用聊天機器人能不能提供這樣的投資報酬。
代理交換經濟
這波朝「專業化」發展的轉變,正在建立一個新的代理交換 (Agent Exchange) 市場架構。
Gartner 預測,到了 2028 年,高達 15 兆美元的 B2B 支出將由 AI 代理居中處理,這不會經由單一模型來達成,而是透過一個專業化的技術市集:一個提供「智慧」的商店,您在這裡不是購買「AI」,而是租用特定能力。
目前有兩項技術來讓這一切變得可能:
- 連線標準 (MCP):由 Anthropic 和其他廠商所推動的「模型情境通訊協定」(Model Context Protocol,簡稱 MCP) 基本上就是 AI 代理界的「USB-C」。它將 AI 代理如何連上資料 (如 Google Drive 或 Slack) 以及工具的方式標準化。如此就能讓整合變得普及,您再也不需開發一個「連線至 Outlook 的法律代理」,而是開發一個「法律代理」,然後插入現有的「Outlook MCP Server」當中。
- 模組化技能 (LoRA Hub):這已不再是理論,Predibase 已經將 LoRAX (LoRA Exchange) 這套框架轉成開放原始碼,讓單一 GPU 能同時服務數千個專業化的適配器 (adapter)。同樣地,Together AI 也推出了無伺服器多重 LoRA 端點,讓開發人員只需支付特定適配器用到的詞元 (token)。這套基礎架構可讓 AI 代理載入一個「撰寫 Python 程式碼」的適配器來撰寫腳本,然後立即切換至一個「資安稽核」適配器來檢查腳本,而這一切相較於部署一個專用的執行個體,支付的費用只有九牛一毛。
如此就能創造一個「技能」的流動性市場。一家物流公司不需專門訓練一套用來報關的模型,他們可以向律師事務所租用一個「報關 LoRA」,每次呼叫收費 0.001 美元,然後插入他們的供應鏈集群來執行這項工作。市場正逐漸從販售大型模型,轉變成販售專業化、可互通的「工人」。
休謨的道德應然 (Hume's Moral Ought)
哲學上有一個關於道德的爭論,NVIDIA 在「小型語言模型是代理式 AI 的未來」(Small Language Models are the Future of Agentic AI) 這篇報告中提出了一個「休謨式道德應然」(Humean ethics ought):基本上,如果我們能夠以更少的能源和運算來完成一件工作,那我們就應該這麼做。
「最終,我們觀察到,從以 LLM 為中心的典範轉移至 SLM 優先的架構,對許多人來說不僅代表技術上的精進,更代表一種休謨式道德應然。」
使用一個 1,750 億個參數的模型來總結一封 100 個字的電子郵件,是一種殺雞用牛刀的運算行為。它不僅浪費能源、增加電網負擔,並且將電力集中在少數能夠負擔得起這種基礎架構的超大規模廠商手中。
SLM 讓這股力量能夠普及。您可以在手機上執行 Llama 3.2 (1B) 模型,這讓智慧從雲端移至邊緣,一夕之間解決隱私問題。一個「健康教練」AI 代理可分析您手錶上蒐集的生物特徵資料,讓這些敏感資訊永遠不需離開您手腕。這不只是效率,更是主權。
利用隔離來實現安全
針對這種作法最最懶惰的批評之一就是「安全性」。他們說:「更多模型意味著更多攻擊途徑。」
錯!
單一模型才等同於單一故障點,假使我駭入了你的「神級模型」,我就掌握了你的整套系統。在一個異質系統中,自然會形成隔離。您的「公開聊天」代理可能與您的「交易執行」代理實體上分開,但即使這樣,您也會想要將資安集中管理,這就是為何控管措施會匯聚在顯而易見的檢查點上,也就是 API 閘道 (例如:Kong AI Gateway 或 LiteLLM)。
除此之外,像 Salesforce 的 xLAM 這類專業化的動作模型 (LAM) 也是被訓練得很無趣,他們只輸出嚴格的 JSON 結構。如果駭客試著注入一個提示來產生惡意程式,那麼該模型的結構驗證器 (schema validator) 就會拒絕,因為不符合格式的要求。這是個語法防火牆,而且比一個很會聊天、很樂意助人的 LLM 更難駭入。
巨人倒下
Gartner 預測,到了 2027 年,40% 的代理式 AI 專案將因成本和價值不明而徹底失敗。他們是對的。那些會失敗的專案,將是過去那些仰賴暴力擴充來解決問題的專案。
而會成功的,則是那些建立集群的專案。
我們正在進入超級代理 (Superagency) 的時代,專業化 SLM 的集體智慧將超越任何單一巨人的表現。這將是通用化的末日、專業化的崛起。
所以,別再試圖造神,請打造一個工廠。這雖然沒那麼浪漫,但卻能實實在在獲利。
資料來源
- Hugging Face 執行長表示,我們正處於「LLM 泡沫」(而非 AI 泡沫) 當中 | TechCrunch
- 微型 AI 模型在邏輯測試中擊敗大型 LLM
- 小型語言模型如何成為可擴充代理式 AI 的關鍵 | NVIDIA 技術部落格
- 小型語言模型是代理式 AI 的未來
- CBA 應用情境 | H2O.ai
- 模型情境通訊協定介紹 \ Anthropic
- AI 的影響力比您想像的更深層 — 2026 年 Gartner 策略預測說明了一切
- TGI Multi-LoRA: 一次部署即可服務 30 個模型
- 為何專為特殊目的開發的代理是職場 AI 的未來
- Gartner 預測超過 40% 的代理式 AI 專案將在 2027 年底前取消
- 職場 AI:一份針對 2025 年的報告 | McKinsey