下午5點(diǎn),臨近飯點(diǎn)的時(shí)刻,字節(jié)跳動(dòng)旗下火山引擎在深圳舉辦的AI創(chuàng)新巡展上依舊人氣爆棚,論壇內(nèi)擠滿了站著的觀眾,線上評(píng)論區(qū)的人時(shí)不時(shí)發(fā)出驚呼聲。火山引擎旗下的豆包大模型一口氣放了3個(gè)大招:推出2款視頻模型PixelDance、Seaweed,一款音樂(lè)模型,一款同聲傳譯模型,把其他公司可以展示很多次的技術(shù),在一場(chǎng)發(fā)布會(huì)上釋放的淋漓盡致。
這也是豆包模型家族的首次集體亮相。截至9月,豆包語(yǔ)言模型的日均tokens使用量超過(guò)1.3萬(wàn)億,相比5月首次發(fā)布時(shí)猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬(wàn)張圖片和85萬(wàn)小時(shí)語(yǔ)音。據(jù)QuestMobile數(shù)據(jù),截至7月,豆包月活用戶規(guī)模達(dá)到3042萬(wàn),是國(guó)內(nèi)用戶量最大的AI原生應(yīng)用。
此次豆包視頻及其他模型的亮相,意味著火山引擎AI服務(wù)能力進(jìn)一步提升。“在我們努力下,大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價(jià)格走向卷性能,卷更好的模型能力和服務(wù)。” 火山引擎總裁譚待表示。
模型家族集體亮相
今年5月豆包首次提出模型家族概念后,不斷有人問(wèn),什么時(shí)候能看到豆包文生視頻模型的發(fā)布。很多人認(rèn)為,抖音和剪映對(duì)視頻有長(zhǎng)期理解和積累,豆包一定能在視頻生成領(lǐng)域做的非常好。
9月24日亮相的豆包視頻模型沒(méi)有令人失望。在譚待的演示中,輸入“特寫(xiě)?個(gè)??的面部,有些??,戴上了?副墨鏡;這時(shí)?個(gè)男?從畫(huà)?右側(cè)?進(jìn)來(lái)抱住了她。“豆包文生視頻模型立刻生成了接近電影畫(huà)質(zhì)的畫(huà)面,以及完整的情節(jié)。這句指令的難點(diǎn)在于,它講了一個(gè)人情緒的變化、動(dòng)作前后時(shí)間的變化,而且還會(huì)出現(xiàn)一個(gè)新的人物。這種復(fù)雜指令,在此前的文生視頻模型中很難實(shí)現(xiàn),但豆包做到了非常驚艷的效果。
?包視頻模型還可以讓視頻在主體的?動(dòng)態(tài)與鏡頭中進(jìn)行炫酷和平滑切換,擁有變焦、環(huán)繞、平搖、縮放、?標(biāo)跟隨等多鏡頭語(yǔ)?的實(shí)現(xiàn),靈活控制視?,這種能力讓視頻更像真實(shí)世界的體驗(yàn),而不是PPT版視頻。
發(fā)布會(huì)當(dāng)天,豆包同時(shí)發(fā)布了同時(shí)發(fā)布了音樂(lè)模型和同聲傳譯模型。與同類產(chǎn)品相比,豆包模型的特色是真實(shí)。音樂(lè)模型中,用戶只需通過(guò)簡(jiǎn)單的描述或上傳一張圖片,就能輕松生成一首包含旋律、歌詞和演唱的1分鐘高品質(zhì)音樂(lè)作品。得益于強(qiáng)大的豆包語(yǔ)音能力,歌曲的歌唱的方面非常真實(shí),包括對(duì)氣口,還有真假音轉(zhuǎn)化技巧的模擬,可以媲美真人演唱效果。
豆包的同聲傳譯模型采用了全新的端到端模型架構(gòu),可以讓翻譯更加精準(zhǔn)、質(zhì)量更高、時(shí)延更低。同時(shí)疊加豆包語(yǔ)音克隆的能力,可以媲美真人的同傳效果。
目前豆包模型家族已經(jīng)在字節(jié)跳動(dòng)內(nèi)部50多個(gè)業(yè)務(wù),外部30多個(gè)行業(yè)得到廣泛應(yīng)用。豆包視頻生成模型也已經(jīng)面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。譚待表示,“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會(huì)持續(xù)演進(jìn),在解決關(guān)鍵問(wèn)題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地。”
大模型為云服務(wù)帶來(lái)變革
今年5月,火山引擎在國(guó)內(nèi)第一個(gè)把模型成本做到每千token低于一厘錢,其他廠商也跟隨豆包的步伐,不斷把模型進(jìn)行降價(jià)。9月,豆包視頻模型突破了三個(gè)業(yè)內(nèi)難題,讓文生視頻畫(huà)面質(zhì)量和效果更加真實(shí)。作為國(guó)內(nèi)成立時(shí)間較晚的云廠商,火山引擎在大模型時(shí)代總是引領(lǐng)先機(jī)。
業(yè)內(nèi)人士認(rèn)為,大模型的興起,會(huì)讓云廠商面臨重新洗牌。火山引擎正成為AI時(shí)代云服務(wù)的一股重要力量。
火山引擎率先降價(jià)后,大模型行業(yè)進(jìn)入新的發(fā)展階段。9月份,豆包大模型的日均tokens調(diào)用量達(dá)到每天13000億次,和5月相比漲了10倍。這說(shuō)明,當(dāng)選價(jià)格不再是模型的瓶頸。譚待認(rèn)為,接下來(lái)大模型行業(yè)要做的,是在這個(gè)價(jià)格基礎(chǔ)上,提高質(zhì)量和性能。豆包的最終目的是讓?xiě)?yīng)用的生態(tài)更加繁榮,解鎖更多應(yīng)用場(chǎng)景。
除引領(lǐng)大模型降價(jià)外,火山引擎還提出全新性能標(biāo)準(zhǔn),發(fā)起智能終端、汽車、零售大模型聯(lián)盟,推動(dòng)行業(yè)AI應(yīng)用創(chuàng)新。目前豆包模型家族已經(jīng)在幫助客戶提效方面做出突出成績(jī)。比如一家AI角色社區(qū)和平臺(tái),與豆包模型合作后人均對(duì)話人次提升150% - 350%,千萬(wàn)量級(jí)的TPM綜合線上成功請(qǐng)求率高達(dá)99.95%。還有一家AI客服公司,用豆包模型做AI客服訓(xùn)練平臺(tái)全渠道智能知識(shí)庫(kù),初始支持的RPM提升2000多倍,高并發(fā)狀態(tài)下保障業(yè)務(wù)穩(wěn)定性。
譚待認(rèn)為,火山引擎所服務(wù)企業(yè)的核心需求是降本增效,在AI時(shí)代,這需要自下而上的創(chuàng)新。在這個(gè)認(rèn)知基礎(chǔ)上,火山引擎除了做好豆包模型,還做扣子平臺(tái)和HiAgent開(kāi)發(fā)平臺(tái)。他的最終目標(biāo)是實(shí)現(xiàn)火山引擎的使命,成為全球領(lǐng)先的云和AI服務(wù)商,幫助企業(yè)降本增效加速創(chuàng)新,這個(gè)使命4年未變,未來(lái)10年也不會(huì)變。
文/劉暢