陳沛/文 谷歌DeepMind曾在五月I/O大會上重點展示了新的多模態(tài)AI助理項目Project Astra,用戶可在手機上打開Astra觀察現(xiàn)場環(huán)境并進行問答,展示了多模態(tài)AI助理在實時視覺識別和低延遲語音交互方面的能力。
不過,由于OpenAI正好搶在前一天展示了GPT-4o的實時交互效果,很大程度上搶走了本屬于谷歌Astra的關(guān)注熱度。盡管如此,谷歌在I/O大會之后繼續(xù)發(fā)布Astra的最新展示效果,Astra的多模態(tài)理解能力仍在持續(xù)進化。
理解現(xiàn)實物理世界的復雜信息
在近期的一項展示中,研究者在手機上打開Astra環(huán)視辦公室環(huán)境,要求Astra在看到能發(fā)出聲音的物體時進行指出。
Astra隨即在用戶走到辦公桌附近時,成功指出了桌上放的音箱,并能根據(jù)用戶進一步指向位置,對應解釋音箱上的高頻揚聲器的功能。
隨著研究者在辦公室中繼續(xù)移動,Astra還能接連看懂程序員電腦屏幕上的加密算法代碼、根據(jù)桌上的彩色筆進行造句、識別窗外的著名建筑——國王十字車站——并推理出當前位置處于英國倫敦。
以上一系列過程展示了Astra對于現(xiàn)實世界的深度理解能力。它至少已經(jīng)能夠橫跨物理、編程、文學、地理等多個維度,與研究者在現(xiàn)實世界中進行實時交流。
發(fā)展出了短期記憶能力
在展示過Astra以上綜合理解能力后,研究者突然來了個“回馬槍”,向Astra提問剛才在辦公室中走動時,是否還記得眼鏡放在哪里?
Astra簡單停頓片刻,就立即回答出眼鏡放在剛才走過窗邊的桌上。
雖然研究者沒有專門展示Astra的記憶周期有多長,但很明顯它至少具備了短期記憶能力。在它看過的環(huán)境中,就算當時出現(xiàn)時沒有被問到的物體,在后續(xù)被追問時依然能檢索視覺記憶信息并回答出來。
已與眼鏡實現(xiàn)無縫集成
研究者找到眼鏡戴上后,展示了另一段Astra搭載在眼鏡上的交流效果。這也是很多人對多模態(tài)AI助理的期待,將多模態(tài)AI助理搭載在眼鏡上直接觀察世界。
在眼鏡上的展示過程中,Astra的深度理解和實時交流能力沒有任何打折。它依然能夠理解IT系統(tǒng)草圖并給出優(yōu)化建議,看懂黑板上兩只貓簡筆畫加上實物紙盒組合出了“薛定諤的貓”的含義,并能結(jié)合寵物品種和玩偶外觀起一個適當?shù)拿帧?/p>
這表明,為Astra提供理解能力的基礎(chǔ)模型已經(jīng)在可穿戴設(shè)備端實現(xiàn)了適配,甚至是在眼鏡這種計算、內(nèi)存、能耗遠低于智能手機的設(shè)備環(huán)境中,也能運行起來。
總體來看,Astra的實時視覺理解和交互能力已經(jīng)非常突出,特別是集成到眼鏡上的展示效果更令人印象深刻。
但是也要看到,盡管在眼鏡上集成多模態(tài)AI助理值得期待,但是語音交互的應用場景很有限,在現(xiàn)實中還要面臨噪聲、續(xù)航、光照環(huán)境、佩戴舒適性等諸多限制因素,因此Astra未來的產(chǎn)品化過程還會經(jīng)歷很多取舍,實際產(chǎn)品前景仍需謹慎觀察。