類ChatGPT新賽道 百度為何能率先起跑?
作為人工智能實驗室OpenAI發(fā)布的“聊天生成預訓練轉換器”,ChatGPT在短短數日便席卷了國內各大社交平臺。隨著ChatGPT的“出圈”,在引發(fā)AI產業(yè)變革的同時,也引發(fā)了科技巨頭間一場新的較量,谷歌、微軟、百度、阿里、騰訊、字節(jié)跳動相繼宣布跟進入局。不過目前來看,參與者眾,能迅速落地者寡。
那么此次,百度能夠迅速拔得頭籌、做出自己的大語言模型,其原因何在?
這離不開百度深耕人工智能領域十余年的久久之功,正是基于長期的技術投入,使得百度擁有芯片、框架、模型和應用四層技術棧,具備率先起跑的基礎能力和綜合優(yōu)勢,不僅能夠實現整體與ChatGPT持平,甚至還有可能做到在知識增強、檢索增強和對話增強等領域的局部超越。
在知識增強方面,知識圖譜是機器認知世界的重要基礎,能夠以結構化的形式描述真實世界中的實體、屬性、關系等,百度文心作為全球首個知識增強千億大模型,擁有世界上最大規(guī)模的知識圖譜,包含50億實體和5500億級事實,每天調用量超過400億次。
而檢索增強則是指在大模型底層方面,搜索架構和生成式AI架構能夠融合,在這方面,百度在真實數據和用戶需求理解上具備先發(fā)優(yōu)勢,能提升大語言模型的準確性和實效性。
此外,在對話一致性、長期記憶和多輪對話豐富度上,文心一言也可能有更好的表現。在這方面,百度的實力不容小覷,其“知識與深度學習融合的通用對話技術及應用”曾獲中國人工智能協(xié)會吳文俊獎特等獎,是歷史上首個特等獎;“百度大腦核心技術與開放平臺”獲中國電子學會科技進步獎一等獎;百度超級智能助手也曾獲中國專利金獎。
海量應用或將激發(fā)更多潛能
毫無疑問,ChatGPT已經展現出巨大潛力,有望打開千行百業(yè)的海量應用場景,但我們也必須看到,類ChatGPT賽道的迅速崛起之下,大語言模型依然存在技術難度。
據了解,文心一言和ChatGPT都是基于SFT(模型微調)、RLHF(強化學習)、prompt(用戶指令)等技術。在訓練階段,SFT和RLHF通過學習真實的用戶數據,提升模型效果;部署階段,用戶的prompt能夠給預訓練大語言模型提示,使模型能更好地理解人類問題。
百度方面表示,與其他模型通過海量無標注數據訓練不同,大語言模型需要有人的參與,才能更好地理解人的意圖,進而生成符合人的價值觀和表達習慣的回復。因此,與ChatGPT的進化史一樣,隨著文心一言逐漸開始內測與邀測,真實的用戶、開發(fā)者調用和模型迭代之間的飛輪開始轉動,相信今后,隨著應用人數的增多,文心一言也將以更快的速度成長、會變得越來越聰明。