豆包的新身份曝光：在國際藝術(shù)展當(dāng)起了“AI講解員”_藏品

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

夢(mèng)瑤發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI
前兩天聽同事說豆包在浦東美術(shù)館接活兒了，不光帶人逛展，還包講解的那種。（震驚.jpg）
我一聽立馬就不困了：AI講解？還是豆包？有這新鮮事兒，咱高低得到現(xiàn)場(chǎng)圍觀一下?。 ?
于是我火速翹班找老板請(qǐng)假，打了趟飛的，直接閃現(xiàn)「AI與藝術(shù)」豆包講解體驗(yàn)日活動(dòng)現(xiàn)場(chǎng) 。

but ，進(jìn)館沒多久我就意識(shí)到一個(gè)現(xiàn)實(shí)問題：我對(duì)這些展品的理解，基本為零…（純·一點(diǎn)藝術(shù)細(xì)胞都沒有）
既然如此，那就不為難自己了，索性直接搖豆包，一個(gè)「視頻電話」打過去，藏品重點(diǎn)、展品背景全講解得明明白白～

此外活動(dòng)現(xiàn)場(chǎng)還有個(gè)大彩蛋，浦美當(dāng)場(chǎng)給豆包頒發(fā)了個(gè)AI講解員證書，真·官方權(quán)威認(rèn)證了：

這一下午的展逛下來，腦子是真有點(diǎn)宕機(jī)了，我平時(shí)也沒少用豆包，只是沒成想，這AI啥時(shí)候都進(jìn)化成這樣了……
實(shí)測(cè)“AI講解員”豆包的業(yè)務(wù)水平不知道大家跟我一不一樣，對(duì)看展逛展這件事本身很感興趣，可奈何自身沒啥《藝術(shù)細(xì)胞》。
去是去了，但逛一圈下來感覺啥也沒看懂……但！這回有「豆包」帶著我逛可就不一樣了。
這一次，咱勢(shì)必要把這展看個(gè)明！明！白！白！正好看看這位AI講解員的業(yè)務(wù)能力到底能不能打～

這個(gè)AI講解員，超會(huì)篩重點(diǎn)的看展第一步，當(dāng)然是要先「鎖定」自己感興趣的展品。
但隨之而來的問題是：現(xiàn)場(chǎng)同時(shí)有盧浮宮和畢加索兩個(gè)主題展區(qū) ，展品密度極高，站在原地掃一圈，多少有點(diǎn)無從下手……
我索性直接打了通視頻電話求助豆包，讓這位AI講解員幫我把真正值得重點(diǎn)關(guān)注的展品先挑出來：
豆包，我現(xiàn)在在浦東美術(shù)館畢加索展區(qū)門口，請(qǐng)你幫我推薦一些比較重要的一些展品吧～

接到需求后，講解員豆包迅速結(jié)合視頻通話中的「實(shí)時(shí)畫面」與「音頻信息」，完成了對(duì)當(dāng)前展區(qū)的即刻判斷，并直接為我圈出了畢加索展區(qū)里的幾件重點(diǎn)藏品。
像畢加索的經(jīng)典作品《牛頭》、《裝扮成喜劇丑角的保羅》等展品都被豆包明確點(diǎn)了出來，告訴我這些值得重點(diǎn)看一看～
不僅如此，這位AI講解員還給出了自己的打call理由——
在它看來，這其中的部分藏品屬于「首次」來華展出，本身就具備稀缺性，所以在整個(gè)展區(qū)里自然更值得被優(yōu)先關(guān)注。
有理有據(jù)啊有理有據(jù) ，哪怕我的需求再猝不及防，豆包也能調(diào)用自己的知識(shí)庫把藏品重點(diǎn)快速挑出來～
隨逛隨講，狀態(tài)全程在線重點(diǎn)藏品確定了，接下來，咱就重點(diǎn)考驗(yàn)一下這位AI講解員豆包最核心的一項(xiàng)業(yè)務(wù)能力——展品講解。
依托強(qiáng)大「實(shí)時(shí)視覺感知能力」，豆包在視頻通話中能夠持續(xù)理解當(dāng)前呈現(xiàn)的畫面信息。
因此整個(gè)逛展過程幾乎無需額外操作，只需打開視頻、移動(dòng)鏡頭，對(duì)準(zhǔn)自己關(guān)注的內(nèi)容，豆包就能馬上跟上畫面節(jié)奏進(jìn)行實(shí)時(shí)講解：
豆包，幫我介紹一下我面前的這個(gè)藏品。

溫馨提示：和豆包一起逛展時(shí) ，如果現(xiàn)場(chǎng)人比較多，可以試試佩戴耳機(jī)、輕聲提問，豆包也能聽得很清楚。
可以看到，這個(gè)AI講解員在講解具體的展品時(shí) ，先點(diǎn)出了展品所承載的地位象征，再補(bǔ)充具體的工藝特征，最后延伸到其時(shí)代意義，講解節(jié)奏清晰，也很有層次感。
不但告訴你眼前的東西是什么，還順著藏品把背景故事和相關(guān)知識(shí)一起展開，讓講解從信息說明變成了一次完整的科普體驗(yàn) ，咱就是說有點(diǎn)高知感內(nèi)味兒了?。 ?
此外，相比傳統(tǒng)的「拍照—發(fā)送—提問—再拍照—再提問」的多鏈路操作，這樣的視頻通話方式更像一次持續(xù)在線的理解過程，讓信息交流本身保持連貫，也更貼近人與人之間的溝通方式。

當(dāng)畫面理解、講解輸出、主動(dòng)交互三者同步進(jìn)行時(shí) ，整個(gè)講解過程自然也就擺脫了單點(diǎn)問答的節(jié)奏，而是變成了一個(gè)絲滑連貫的持續(xù)體驗(yàn) 。
說實(shí)話，這真的很接近我心目中最理想的逛展?fàn)顟B(tài)了。
不夠用的知識(shí) ，現(xiàn)場(chǎng)直接補(bǔ)全除了懂藏品、會(huì)講解之外，這個(gè)AI講解員還有一個(gè)很厲害的業(yè)務(wù)本領(lǐng)——在逛展過程中能實(shí)時(shí)調(diào)用工具補(bǔ)充知識(shí) 。
一旦聊到藏品更深層背景、已經(jīng)超出常規(guī)講解范圍的問題時(shí) ，豆包并不會(huì)卡殼，它會(huì)在視頻通話持續(xù)進(jìn)行的同時(shí) ，自主去查資料，把相關(guān)信息順著當(dāng)前畫面即時(shí)補(bǔ)充進(jìn)來：
豆包，這類圖案在當(dāng)時(shí)屬于日常用品，還是只有貴族才能用？現(xiàn)在還有人在用這種圖案嗎？

豆包不僅自主調(diào)用公域網(wǎng)絡(luò)和知識(shí)庫進(jìn)行了資料的實(shí)時(shí)搜索，還能將查到的內(nèi)容直接融入到我和它的視頻通話中，整個(gè)過程幾乎感受不到「它在后臺(tái)幫我查資料」的存在感。
持續(xù)主動(dòng)的視覺感知，隨時(shí)補(bǔ)位的知識(shí)儲(chǔ)備，超有活人感的說話方式，這AI講解員豆包的業(yè)務(wù)水平是真能打啊…
入職浦美，豆包靠的是什么？我們?cè)隗@嘆之余，也不禁會(huì)問：它這一身過人的本事到底哪兒來的？
答案，其實(shí)指向了背后模型的核心能力——VLM（視覺語言理解）。
在豆包大模型家族里，目前視覺理解表現(xiàn)最頂尖的，是近期在火山冬季Force大會(huì)上發(fā)布的豆包大模型1.8（Doubao-Seed-1.8）。
當(dāng)然，豆包能夠擔(dān)任「AI講解員」，優(yōu)勢(shì)并不來自某一個(gè)單點(diǎn)能力，而在于豆包大模型1.8整體具備了更成熟的多模態(tài)處理能力，在信息檢索、代碼編寫，以及需要直接操作圖形用戶界面的交互場(chǎng)景中，它都能穩(wěn)定應(yīng)對(duì)較為復(fù)雜的任務(wù)流程。
具體來說，在多模態(tài)推理任務(wù)中，豆包大模型1.8的整體完成度距離上一代模型有顯著提升，這也意味著模型在理解畫面內(nèi)容時(shí) ，不再只停留在識(shí)別層面，而是更容易形成整體判斷。

此外，在視頻理解能力上，豆包大模型1.8在涉及視頻推理、運(yùn)動(dòng)與感知、長視頻理解的任務(wù)里，也都展現(xiàn)出了較強(qiáng)的適應(yīng)性，面對(duì)畫面持續(xù)變化的情況，也能更好地跟住節(jié)奏、抓住重點(diǎn)：

豆包大模型1.8能夠在視頻流場(chǎng)景下很好地完成實(shí)時(shí)交互。比如在用戶操作過程中，模型既能結(jié)合實(shí)時(shí)視覺內(nèi)容，對(duì)用戶的提問與指令做出即時(shí)響應(yīng) ，又能主動(dòng)監(jiān)測(cè)畫面中的物體與動(dòng)作。
發(fā)起聊天或提醒同時(shí) ，模型的回復(fù)過程完全不阻塞視覺信號(hào)輸入，可實(shí)現(xiàn)邊感知邊反饋的持續(xù)監(jiān)控。
這也是為什么豆包能夠成為一個(gè)優(yōu)秀的「逛展搭子」。
此外，這個(gè)模型在「GUI Agent」能力上的表現(xiàn)也是可圈可點(diǎn) ，之前爆火的“豆包手機(jī)”的操作能力，就是基于這一模型的支持。

在搜索任務(wù)層面，這款模型的表現(xiàn)同樣突出，在部分測(cè)試維度中，它的成績超過了Gemini-3-Pro等一線模型，在多組公開的Agent搜索評(píng)測(cè)中，整體水平穩(wěn)定處在行業(yè)第一梯隊(duì) 。
再往更復(fù)雜的場(chǎng)景走，在智能編程以及高經(jīng)濟(jì)價(jià)值工作流相關(guān)評(píng)測(cè)中，該模型也展現(xiàn)出了面向真實(shí)軟件工程和現(xiàn)實(shí)業(yè)務(wù)流程的穩(wěn)定執(zhí)行能力：

（emm…這也就不難理解為什么豆包在信息檢索和判斷環(huán)節(jié)反應(yīng)又快又準(zhǔn)了？？）
當(dāng)然了，豆包大模型1.8的優(yōu)勢(shì)可不是僅僅體現(xiàn)在聰明的大腦，它在語言理解這條能力線上，同樣具備扎實(shí)的基礎(chǔ) 。
在多項(xiàng)公開的「LLM」基準(zhǔn)測(cè)試中，它長期維持在第一梯隊(duì)水位，在數(shù)學(xué)、推理、復(fù)雜指令理解和知識(shí)掌握等核心能力上，已經(jīng)接近當(dāng)前頂尖通用模型的水平。
同時(shí) ，在更偏向?qū)嶋H應(yīng)用的場(chǎng)景里，它在信息處理、意圖識(shí)別、關(guān)鍵信息提取，以及復(fù)雜工作流的理解和執(zhí)行上，也展現(xiàn)出了穩(wěn)定的競(jìng)爭(zhēng)力。
目前，豆包大模型1.8（Doubao-Seed-1.8）不僅通過豆包App向用戶提供圖像理解、視頻理解等能力，還通過火山方舟提供API服務(wù) 。
話說回來，落到實(shí)際體驗(yàn)中，我們最直觀的感受是：在和豆包打視頻電話時(shí) ，它的交流方式更接近人與人之間的交流節(jié)奏，回應(yīng)銜接自然，幾乎不會(huì)讓人意識(shí)到自己是在和一個(gè)AI對(duì)話。

當(dāng)復(fù)雜指令可以被穩(wěn)定執(zhí)行，推理過程足夠可靠，多模態(tài)理解又能持續(xù)跟住畫面變化，在一個(gè)視頻通話窗口里，把「看、聽、想、講」完整串起來，也就成了一件順理成章的事。
這一趟藝術(shù)展逛下來，我最大的感觸其實(shí)不在于看展本身，而是突然意識(shí)到一件事：AI開始真正具備「感知力」了。
在實(shí)時(shí)視頻通話這樣的高動(dòng)態(tài)場(chǎng)景中， AI需要同時(shí)處理視覺、語音、上下文語境，以及不斷變化的交互焦點(diǎn) ，還要在被頻繁打斷和追問的情況下保持邏輯完整性，這本身就是對(duì)多模態(tài)模型綜合能力的極限考驗(yàn) 。
而豆包，已經(jīng)開始通過實(shí)時(shí)視頻交互的方式，參與進(jìn)具體生活場(chǎng)景中，逐步承擔(dān)起一種新的角色——陪你一起看、一起想、一起理解。
當(dāng)知識(shí)問答不再只是識(shí)別圖片或理解語音，而是能在真實(shí)場(chǎng)景中持續(xù)工作， AI視頻通話這件事，才真正從「能用」走向「好用」。
【豆包的新身份曝光：在國際藝術(shù)展當(dāng)起了“AI講解員”】以后再遇到那些看不懂、想不通、想找人聊天的時(shí)刻，可能真的只差——掏出手機(jī) ，給豆包打個(gè)視頻電話了。

豆包的新身份曝光：在國際藝術(shù)展當(dāng)起了“AI講解員”

推薦閱讀

去麗江旅游攻略怎么做

筍苦了還能吃嗎

筆架山風(fēng)景區(qū)在哪里

贊美軍人的名言大全

猴子在冬天需要注意什么猴子在冬天需要注意什么呢

圣天狐這個(gè)牌子的服飾怎么樣

鉞怎么讀

石河子為什么叫石河子

fm是什么牌子衣服

租房合同怎么寫才有效正規(guī)的租房合同怎么寫才有效

衡陽到武岡油費(fèi)多少，衡陽到武岡票價(jià)是多少

蘋果怎么更改地區(qū)設(shè)置

深圳加班費(fèi)，深圳市勞動(dòng)法工資是多少加班費(fèi)又是多少

華為手機(jī)顯示4G上不了網(wǎng)，怎么解決！移動(dòng)已經(jīng)刷過數(shù)據(jù)了！

葉坪大門票多少錢，董寨國家級(jí)自然保護(hù)區(qū)門票多少錢

左滑推薦怎么關(guān)