如今,隨著科技的進(jìn)步與技術(shù)的革新,汽車正在從傳統(tǒng)的移動代步工具,向智能移動空間乃至智能生命體演變。而商湯絕影,正是這一轉(zhuǎn)變的堅(jiān)實(shí)推動者。
今年5月,GPT-4o帶來的流式多模態(tài)交互體驗(yàn),如同一股清風(fēng),吹散了人機(jī)交互領(lǐng)域的傳統(tǒng)界限,讓外界進(jìn)一步看到了通用人工智能(AGI)帶來的革新交互體驗(yàn)。而在汽車領(lǐng)域,這一技術(shù)同樣激起了巨大漣漪。
2024年7月4日至7日,WAIC 2024(世界人工智能大會)在上海舉辦。本次大會上,商湯科技正式對外發(fā)布了“日日新5.5”大模型體系,同時(shí),商湯絕影也帶來了多個(gè)基于“日日新5.5”多模態(tài)大模型在智能汽車領(lǐng)域的一系列最新進(jìn)展和創(chuàng)新成果。
作為智能汽車行業(yè)領(lǐng)先的AGI核心供應(yīng)商,如今,商湯絕影正在加速推動智能汽車邁向超級智能體,引領(lǐng)AGI時(shí)代穩(wěn)步向前。
多模態(tài),讓夢想照進(jìn)現(xiàn)實(shí)
首先,讓我們構(gòu)想一個(gè)場景:某日,你悠然坐在車上,而你的車能夠?qū)崟r(shí)理解你的語音指令、面部表情和手勢動作,并準(zhǔn)確識別周圍環(huán)境中的視覺信息。比如在自動駕駛模式下,導(dǎo)航原本規(guī)劃在下一個(gè)路口調(diào)頭才能抵達(dá)目的地,但你知道前方有個(gè)便捷的缺口允許直接左轉(zhuǎn)。此時(shí),你只需輕聲一句“直接左拐”,系統(tǒng)便能迅速分析當(dāng)前路況,智能調(diào)整行駛計(jì)劃,執(zhí)行你的指令,確保行程既高效又安全。
或許你會認(rèn)為上述場景頗具科幻色彩,不太現(xiàn)實(shí)?其實(shí),未來商湯絕影基于“日日新5.5”多模態(tài)大模型的能力,就可以將這樣的體驗(yàn)帶進(jìn)現(xiàn)實(shí)。
看到這里,或許你已心生疑惑:多模態(tài)究竟何物,竟讓智能汽車“恐怖如斯”?其實(shí),這一概念并不復(fù)雜。正如人類擁有觸覺、聽覺、視覺等多感官體驗(yàn),智能汽車也借助傳感器、雷達(dá)、攝像頭等“感官”,捕捉外界紛繁復(fù)雜的信息。每一種信息獲取的方式或形式,便構(gòu)成了一種獨(dú)特的模態(tài)。
多模態(tài),簡而言之,即是從多個(gè)維度、多種渠道去感知和理解世界。多模態(tài)大模型的興起,恰如為智能汽車插上了一對翅膀,使其未來充滿了無限可能與暢想。
在過往的中小規(guī)模模型中,研究往往聚焦于語言識別、視頻分析、圖形識別及文本處理等單一模態(tài)的深耕細(xì)作,這種割裂的處理方式無形中束縛了AI算法的智能潛力。而多模態(tài)機(jī)器學(xué)習(xí),恰似一門精湛的藝術(shù),它引領(lǐng)算法穿梭于跨模態(tài)的數(shù)據(jù)洪流之中,汲取各領(lǐng)域的精髓,實(shí)現(xiàn)持續(xù)的進(jìn)化與飛躍。
不過,這一領(lǐng)域的挑戰(zhàn)亦非同小可,每增添一種模態(tài),都意味著技術(shù)難度的指數(shù)級增長。正是在此背景下,商湯絕影率先布局,積極推動多模態(tài)大模型技術(shù)與智能汽車的融合。
自去年4月首次發(fā)布,商湯“日日新SenseNova”大模型體系已正式推出五個(gè)大版本迭代。該模型基于超過10TB tokens訓(xùn)練、覆蓋數(shù)千億量級的邏輯型合成思維鏈數(shù)據(jù),其綜合處理能力已達(dá)到全球領(lǐng)先水平。此前,“商湯日日新”5.0版本曾在多模態(tài)大模型權(quán)威綜合基準(zhǔn)測試MMBench中,綜合得分排名首位,并在多個(gè)知名多模態(tài)榜單MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU取得領(lǐng)先成績,這充分展現(xiàn)了其作為頂尖基礎(chǔ)模型的非凡實(shí)力與無限潛力。
而此次發(fā)布的“商湯日日新”5.5版本在繼承了前代強(qiáng)大功能的基礎(chǔ)上,對多模態(tài)能力方面進(jìn)行了全方位的優(yōu)化與升級,可為用戶帶來前所未有的流式多模態(tài)交互體驗(yàn),這一技術(shù)革新不僅拓寬了智能汽車的應(yīng)用邊界,更預(yù)示著一個(gè)全新發(fā)展范式的誕生。
它既可以讓智能座艙更懂人,成為“賈維斯”一樣的全能助手;也可以讓智能駕駛具備更強(qiáng)的世界認(rèn)知和理解能力,成為真正讓用戶安心、信賴的“AI老司機(jī)”。
端云一體,打造智能座艙里的“賈維斯”
如果你是忠實(shí)的漫威粉絲,那你一定知道鋼鐵俠的智能管家賈維斯(J.A.R.V.I.S.)。在漫威電影宇宙中,“賈維斯”以其高度智能化的特性,為鋼鐵俠提供了無微不至的協(xié)助,展現(xiàn)了AI技術(shù)在日常生活中的無限潛力。而在智能汽車領(lǐng)域,商湯絕影就將這樣的“賈維斯”帶進(jìn)了智能座艙場景。
在商湯絕影的愿景中,多模態(tài)是智能汽車進(jìn)化為超級智能體的重要支點(diǎn),能夠賦予智能汽車全面的世界感知能力,讓智能座艙從原來“?問?答”的被動響應(yīng),演變?yōu)?模型系統(tǒng)主動關(guān)懷,提供深度個(gè)性化和有??關(guān)懷的全新座艙交互體驗(yàn),從而開啟全新的人機(jī)交互紀(jì)元。
為此,商湯絕影打造了多模態(tài)?模型引擎產(chǎn)品CockpitBrain,成功推出了超過15個(gè)行業(yè)首發(fā)的智能座艙產(chǎn)品與功能,展現(xiàn)出強(qiáng)大的持續(xù)創(chuàng)新能力和量產(chǎn)上車實(shí)力。
以多模態(tài)哨兵功能為例,搭載該功能的智能座艙能夠?qū)崟r(shí)監(jiān)測車輛周圍的環(huán)境和車內(nèi)乘員的狀態(tài),一旦發(fā)現(xiàn)異常情況(如車輛被非法入侵、乘員健康狀態(tài)異常、離車后車內(nèi)人員檢測功能等),便能夠立即發(fā)出警報(bào)并采取相應(yīng)措施。
此外,在這次更新迭代中,商湯絕影還帶來了全球首個(gè)車載生成式UI-FlexInterface以及AgentFlow。其中,F(xiàn)lexInterface可以讓用戶使用簡單的自然語?,讓AI自由地?成和修改用戶操作界?。用戶可以根據(jù)天?、時(shí)間、 節(jié)?、紀(jì)念?和周圍環(huán)境自動變換界??格(有系統(tǒng)控制開關(guān))。
AgentFlow則進(jìn)一步展現(xiàn)了AI在智能汽車中的潛力,它利用多模態(tài)大模型的能力,將用戶的復(fù)雜需求自動拆解并生成跨應(yīng)用和網(wǎng)站的任務(wù)流。這種能力使得用戶可以通過簡單的語音指令,輕松完成原本需要多個(gè)步驟和多個(gè)應(yīng)用協(xié)同才能完成的任務(wù)。例如,用戶想要聽上世紀(jì)90年代的華語搖滾音樂,AgentFlow會自動啟動車載音樂應(yīng)用,搜索并播放相關(guān)歌曲,極大地提高了操作效率。
在確保高性能的同時(shí),商湯絕影也十分注重用戶隱私保護(hù)以及資源的高效利用,從而推動了智能座艙技術(shù)的持續(xù)創(chuàng)新與發(fā)展。為了實(shí)現(xiàn)這一目標(biāo),商湯絕影在端側(cè)部署(即設(shè)備本地處理)方面進(jìn)行了深入優(yōu)化,并結(jié)合了端云協(xié)同的部署方案,進(jìn)一步提升了技術(shù)的安全性和效率。
其中,端側(cè)部署能夠?qū)I處理能力直接集成到車輛內(nèi)部或用戶設(shè)備中,減少了數(shù)據(jù)上傳到云端的需求,從而大大降低了用戶隱私泄露的風(fēng)險(xiǎn)。敏感信息如語音指令、面部特征等可以在本地處理,確保用戶隱私得到最大程度的保護(hù)。而由于數(shù)據(jù)處理發(fā)生在本地,端側(cè)部署能夠顯著降低響應(yīng)時(shí)間,實(shí)現(xiàn)即時(shí)反饋。這對于需要高度實(shí)時(shí)性的應(yīng)用場景(如自動駕駛輔助系統(tǒng)中的緊急避障)尤為重要。
而端云協(xié)同的部署方案,則進(jìn)一步發(fā)揮了端側(cè)和云端各自的優(yōu)勢。通過智能分配任務(wù),系統(tǒng)能夠根據(jù)實(shí)際情況,將適合在本地處理的任務(wù)交給端側(cè),而將需要大規(guī)模計(jì)算資源或數(shù)據(jù)共享的任務(wù)交給云端處理。
基于端云結(jié)合的架構(gòu),商湯端側(cè)大模型大幅超越同量級?模型,越級?肩7B、13B?模型。換句話說,“商湯??新”的強(qiáng)?端側(cè)部署能?和智能汽?是“天??對”,能夠幫助?企合作伙伴?更小的參數(shù)量,實(shí)現(xiàn)更加強(qiáng)?、流暢和個(gè)性化的全新智能座艙體驗(yàn)。據(jù)悉,目前商湯絕影的端云部署方案已經(jīng)開始在各大主機(jī)廠定點(diǎn)落地。
敢為人先,讓端到端智駕可感知、可信賴
作為行業(yè)內(nèi)第一個(gè)提出端到端自動駕駛的廠商,商湯絕影在自動駕駛方面的布局也收獲了行業(yè)內(nèi)的廣泛認(rèn)可。
得益于行業(yè)領(lǐng)先的多模態(tài)?模型加持,商湯絕影新一代自動駕駛大模型DriveAGI具備了更加強(qiáng)大的泛化能?。即便在0樣本的情況下, DriveAGI也可以針對不同道路環(huán)境或交通狀況并做出精準(zhǔn)決策。
據(jù)悉,該自動駕駛解決方案可在無高精地圖條件下,僅依靠視覺感知實(shí)際道路情況,無論是復(fù)雜城市道路還是無中線的鄉(xiāng)村道路上,車輛都能高效準(zhǔn)確地完成包括大角度轉(zhuǎn)向、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作,做到“像人一樣開車”。
此外,DriveAGI還為自動駕駛系統(tǒng)賦予強(qiáng)大的空間智能,讓?輛能夠?qū)⒉蹲降降亩S圖像信息轉(zhuǎn)化為三維空間中的具體感知,從而能夠準(zhǔn)確理解現(xiàn)實(shí)開放世界中各類交通參與者的行為動機(jī),指導(dǎo)自動駕駛系統(tǒng)做出恰當(dāng)?shù)男袆樱⒛芨玫貞?yīng)對特殊場景。
例如,在路上遇到救護(hù)車,它可以自動避讓;遇到潮汐車道或公交車道時(shí),它能根據(jù)限行規(guī)則自動規(guī)避;在綠燈同時(shí)有交警在路口指揮交通的情況下,DriveAGI還能夠理解交警的手勢并且將這類信息的優(yōu)先級提高到紅綠燈等道路信息之上;除此之外,它也可以切換不同的駕駛風(fēng)格,當(dāng)需要趕時(shí)間時(shí),你可以告訴DriveAGI開得更快?些;如果是想要放松?下,你還可以讓它開得平穩(wěn)?些。
商業(yè)化落地方面,目前在智能座艙領(lǐng)域,商湯絕影已成功助力LEVC L380、小米SU7等車型實(shí)現(xiàn)量產(chǎn),將“賈維斯”移植在了智能座艙里,帶來前所未有的智能體驗(yàn)。而在智能駕駛領(lǐng)域,商湯絕影的量產(chǎn)智駕產(chǎn)品已落地包括廣汽埃安LX Plus、合眾哪吒S、廣汽昊鉑GT、紅旗等品牌及車型,高速NOA等功能也開始落地。
值得一提的是,在本屆WAIC上,絕影也是唯一承擔(dān)VIP接駁任務(wù)的自動駕駛小巴服務(wù)提供商,提供多個(gè)地點(diǎn)之間的需求響應(yīng)式自動駕駛巴士出行體驗(yàn)。
絕影L4級別自動駕駛小巴不僅適用于開放道路上短途高頻次的循環(huán)接駁場景,也適用于園區(qū)、景區(qū)、校區(qū)、機(jī)場等內(nèi)部有短途接駁需求的場景。目前已陸續(xù)在成都、福州、廣州、青島、蘇州等城市亮相,并在上海、無錫等多地實(shí)現(xiàn)常態(tài)化運(yùn)行,累計(jì)行駛總里程已超300萬公里。
AGI,讓汽車從單純的“出行工具”
變?yōu)榭煽康摹爸悄芑锇椤?/strong>
在AGI時(shí)代,人工智能不再局限于簡單的感知與生成,而是具有通過不斷學(xué)習(xí)與進(jìn)化的能力,更好地理解和適應(yīng)復(fù)雜多變的環(huán)境。
在AGI時(shí)代,汽車也將迎來一場革命性的轉(zhuǎn)變,從單一的“出行工具”升級為具備全面感知、決策與執(zhí)行能力的“智能伙伴”。
商湯絕影,正在加速多模態(tài)大模型的前沿創(chuàng)新,驅(qū)動智能汽車邁入AGI時(shí)代。與此同時(shí),商湯絕影也具備豐富工程化量產(chǎn)交付經(jīng)驗(yàn),能夠針對不同芯?算?平臺全?適配等,由此積極推動大模型上車,引領(lǐng)大模型在智能汽車的量產(chǎn)突破。現(xiàn)階段,商湯絕影已能夠兼容國內(nèi)外多款主流芯片平臺,完整適配從低算力、中算力到大算力的多種不同域控。
同時(shí),針對市場上常見的多種傳感器型號,商湯絕影也都已經(jīng)進(jìn)行了全面適配,能夠全面滿足行業(yè)中主流智能駕駛方案的需求,為智能汽車的量產(chǎn)提供了強(qiáng)有力的支持。
在此次WAIC上,商湯絕影的亮相不僅展示了其最新的技術(shù)成果,更向外界傳遞了一個(gè)明確的信息:智能汽車正在從傳統(tǒng)的出行工具,向智能伙伴轉(zhuǎn)變,而商湯絕影正是這一轉(zhuǎn)變的堅(jiān)實(shí)推動者。
從歷史的角度來看,“絕影”作為三國時(shí)期曹操的坐騎,不僅以其卓越的速度和耐力而聞名,更是人類的忠實(shí)伙伴。如今,商湯科技以“絕影”之名,將這一精神傳承至智能汽車領(lǐng)域,作為智能汽車駛?cè)階GI時(shí)代的長期、可靠的戰(zhàn)略合作伙伴,加速AGI與汽車產(chǎn)業(yè)的深度融合。
在商湯絕影的助力下,智能汽車不僅能夠全面理解世界,更將開啟未來出行的新篇章,讓曾經(jīng)只存在于科幻電影中的未來出行體驗(yàn),逐步成為現(xiàn)實(shí)。