新V觀海外：谷歌多模態(tài)AI助理Astra仍在持續(xù)進化

陳沛2024-07-18 09:41

陳沛/文 谷歌DeepMind曾在五月I/O大會上重點展示了新的多模態(tài)AI助理項目Project Astra，用戶可在手機上打開Astra觀察現(xiàn)場環(huán)境并進行問答，展示了多模態(tài)AI助理在實時視覺識別和低延遲語音交互方面的能力。

不過，由于OpenAI正好搶在前一天展示了GPT-4o的實時交互效果，很大程度上搶走了本屬于谷歌Astra的關(guān)注熱度。盡管如此，谷歌在I/O大會之后繼續(xù)發(fā)布Astra的最新展示效果，Astra的多模態(tài)理解能力仍在持續(xù)進化。

理解現(xiàn)實物理世界的復雜信息

在近期的一項展示中，研究者在手機上打開Astra環(huán)視辦公室環(huán)境，要求Astra在看到能發(fā)出聲音的物體時進行指出。

Astra隨即在用戶走到辦公桌附近時，成功指出了桌上放的音箱，并能根據(jù)用戶進一步指向位置，對應解釋音箱上的高頻揚聲器的功能。

隨著研究者在辦公室中繼續(xù)移動，Astra還能接連看懂程序員電腦屏幕上的加密算法代碼、根據(jù)桌上的彩色筆進行造句、識別窗外的著名建筑——國王十字車站——并推理出當前位置處于英國倫敦。

以上一系列過程展示了Astra對于現(xiàn)實世界的深度理解能力。它至少已經(jīng)能夠橫跨物理、編程、文學、地理等多個維度，與研究者在現(xiàn)實世界中進行實時交流。

發(fā)展出了短期記憶能力

在展示過Astra以上綜合理解能力后，研究者突然來了個“回馬槍”，向Astra提問剛才在辦公室中走動時，是否還記得眼鏡放在哪里？

Astra簡單停頓片刻，就立即回答出眼鏡放在剛才走過窗邊的桌上。

雖然研究者沒有專門展示Astra的記憶周期有多長，但很明顯它至少具備了短期記憶能力。在它看過的環(huán)境中，就算當時出現(xiàn)時沒有被問到的物體，在后續(xù)被追問時依然能檢索視覺記憶信息并回答出來。

已與眼鏡實現(xiàn)無縫集成

研究者找到眼鏡戴上后，展示了另一段Astra搭載在眼鏡上的交流效果。這也是很多人對多模態(tài)AI助理的期待，將多模態(tài)AI助理搭載在眼鏡上直接觀察世界。

在眼鏡上的展示過程中，Astra的深度理解和實時交流能力沒有任何打折。它依然能夠理解IT系統(tǒng)草圖并給出優(yōu)化建議，看懂黑板上兩只貓簡筆畫加上實物紙盒組合出了“薛定諤的貓”的含義，并能結(jié)合寵物品種和玩偶外觀起一個適當?shù)拿帧?/p>

這表明，為Astra提供理解能力的基礎(chǔ)模型已經(jīng)在可穿戴設(shè)備端實現(xiàn)了適配，甚至是在眼鏡這種計算、內(nèi)存、能耗遠低于智能手機的設(shè)備環(huán)境中，也能運行起來。

總體來看，Astra的實時視覺理解和交互能力已經(jīng)非常突出，特別是集成到眼鏡上的展示效果更令人印象深刻。

但是也要看到，盡管在眼鏡上集成多模態(tài)AI助理值得期待，但是語音交互的應用場景很有限，在現(xiàn)實中還要面臨噪聲、續(xù)航、光照環(huán)境、佩戴舒適性等諸多限制因素，因此Astra未來的產(chǎn)品化過程還會經(jīng)歷很多取舍，實際產(chǎn)品前景仍需謹慎觀察。