
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

夢(mèng)瑤 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
前兩天聽同事說豆包在浦東美術(shù)館接活兒了 , 不光帶人逛展 , 還包講解的那種 。 (震驚.jpg)
我一聽立馬就不困了:AI講解?還是豆包?有這新鮮事兒 , 咱高低得到現(xiàn)場(chǎng)圍觀一下?。 ?
于是我火速翹班找老板請(qǐng)假 , 打了趟飛的 , 直接閃現(xiàn)「AI與藝術(shù)」豆包講解體驗(yàn)日活動(dòng)現(xiàn)場(chǎng) 。
but , 進(jìn)館沒多久我就意識(shí)到一個(gè)現(xiàn)實(shí)問題:我對(duì)這些展品的理解 , 基本為零…(純·一點(diǎn)藝術(shù)細(xì)胞都沒有)
既然如此 , 那就不為難自己了 , 索性直接搖豆包 , 一個(gè)「視頻電話」打過去 , 藏品重點(diǎn)、展品背景全講解得明明白白~
此外活動(dòng)現(xiàn)場(chǎng)還有個(gè)大彩蛋 , 浦美當(dāng)場(chǎng)給豆包頒發(fā)了個(gè)AI講解員證書 , 真·官方權(quán)威認(rèn)證了:
這一下午的展逛下來 , 腦子是真有點(diǎn)宕機(jī)了 , 我平時(shí)也沒少用豆包 , 只是沒成想 , 這AI啥時(shí)候都進(jìn)化成這樣了……
實(shí)測(cè)“AI講解員”豆包的業(yè)務(wù)水平不知道大家跟我一不一樣 , 對(duì)看展逛展這件事本身很感興趣 , 可奈何自身沒啥《藝術(shù)細(xì)胞》 。
去是去了 , 但逛一圈下來感覺啥也沒看懂……但!這回有「豆包」帶著我逛可就不一樣了 。
這一次 , 咱勢(shì)必要把這展看個(gè)明!明!白!白!正好看看這位AI講解員的業(yè)務(wù)能力到底能不能打~
這個(gè)AI講解員 , 超會(huì)篩重點(diǎn)的看展第一步 , 當(dāng)然是要先「鎖定」自己感興趣的展品 。
但隨之而來的問題是:現(xiàn)場(chǎng)同時(shí)有盧浮宮和畢加索兩個(gè)主題展區(qū) , 展品密度極高 , 站在原地掃一圈 , 多少有點(diǎn)無從下手……
我索性直接打了通視頻電話求助豆包 , 讓這位AI講解員幫我把真正值得重點(diǎn)關(guān)注的展品先挑出來:
豆包 , 我現(xiàn)在在浦東美術(shù)館畢加索展區(qū)門口 , 請(qǐng)你幫我推薦一些比較重要的一些展品吧~
接到需求后 , 講解員豆包迅速結(jié)合視頻通話中的「實(shí)時(shí)畫面」與「音頻信息」 , 完成了對(duì)當(dāng)前展區(qū)的即刻判斷 , 并直接為我圈出了畢加索展區(qū)里的幾件重點(diǎn)藏品 。
像畢加索的經(jīng)典作品《牛頭》、《裝扮成喜劇丑角的保羅》等展品都被豆包明確點(diǎn)了出來 , 告訴我這些值得重點(diǎn)看一看~
不僅如此 , 這位AI講解員還給出了自己的打call理由——
在它看來 , 這其中的部分藏品屬于「首次」來華展出 , 本身就具備稀缺性 , 所以在整個(gè)展區(qū)里自然更值得被優(yōu)先關(guān)注 。
有理有據(jù)啊有理有據(jù) , 哪怕我的需求再猝不及防 , 豆包也能調(diào)用自己的知識(shí)庫把藏品重點(diǎn)快速挑出來~
隨逛隨講 , 狀態(tài)全程在線重點(diǎn)藏品確定了 , 接下來 , 咱就重點(diǎn)考驗(yàn)一下這位AI講解員豆包最核心的一項(xiàng)業(yè)務(wù)能力——展品講解 。
依托強(qiáng)大「實(shí)時(shí)視覺感知能力」 , 豆包在視頻通話中能夠持續(xù)理解當(dāng)前呈現(xiàn)的畫面信息 。
因此整個(gè)逛展過程幾乎無需額外操作 , 只需打開視頻、移動(dòng)鏡頭 , 對(duì)準(zhǔn)自己關(guān)注的內(nèi)容 , 豆包就能馬上跟上畫面節(jié)奏進(jìn)行實(shí)時(shí)講解:
豆包 , 幫我介紹一下我面前的這個(gè)藏品 。
溫馨提示:和豆包一起逛展時(shí) , 如果現(xiàn)場(chǎng)人比較多 , 可以試試佩戴耳機(jī)、輕聲提問 , 豆包也能聽得很清楚 。
可以看到 , 這個(gè)AI講解員在講解具體的展品時(shí) , 先點(diǎn)出了展品所承載的地位象征 , 再補(bǔ)充具體的工藝特征 , 最后延伸到其時(shí)代意義 , 講解節(jié)奏清晰 , 也很有層次感 。
不但告訴你眼前的東西是什么 , 還順著藏品把背景故事和相關(guān)知識(shí)一起展開 , 讓講解從信息說明變成了一次完整的科普體驗(yàn) , 咱就是說有點(diǎn)高知感內(nèi)味兒了?。 ?
此外 , 相比傳統(tǒng)的「拍照—發(fā)送—提問—再拍照—再提問」的多鏈路操作 , 這樣的視頻通話方式更像一次持續(xù)在線的理解過程 , 讓信息交流本身保持連貫 , 也更貼近人與人之間的溝通方式 。
當(dāng)畫面理解、講解輸出、主動(dòng)交互三者同步進(jìn)行時(shí) , 整個(gè)講解過程自然也就擺脫了單點(diǎn)問答的節(jié)奏 , 而是變成了一個(gè)絲滑連貫的持續(xù)體驗(yàn) 。
說實(shí)話 , 這真的很接近我心目中最理想的逛展?fàn)顟B(tài)了 。
不夠用的知識(shí) , 現(xiàn)場(chǎng)直接補(bǔ)全除了懂藏品、會(huì)講解之外 , 這個(gè)AI講解員還有一個(gè)很厲害的業(yè)務(wù)本領(lǐng)——在逛展過程中能實(shí)時(shí)調(diào)用工具補(bǔ)充知識(shí) 。
一旦聊到藏品更深層背景、已經(jīng)超出常規(guī)講解范圍的問題時(shí) , 豆包并不會(huì)卡殼 , 它會(huì)在視頻通話持續(xù)進(jìn)行的同時(shí) , 自主去查資料 , 把相關(guān)信息順著當(dāng)前畫面即時(shí)補(bǔ)充進(jìn)來:
豆包 , 這類圖案在當(dāng)時(shí)屬于日常用品 , 還是只有貴族才能用?現(xiàn)在還有人在用這種圖案嗎?
豆包不僅自主調(diào)用公域網(wǎng)絡(luò)和知識(shí)庫進(jìn)行了資料的實(shí)時(shí)搜索 , 還能將查到的內(nèi)容直接融入到我和它的視頻通話中 , 整個(gè)過程幾乎感受不到「它在后臺(tái)幫我查資料」的存在感 。
持續(xù)主動(dòng)的視覺感知 , 隨時(shí)補(bǔ)位的知識(shí)儲(chǔ)備 , 超有活人感的說話方式 , 這AI講解員豆包的業(yè)務(wù)水平是真能打啊…
入職浦美 , 豆包靠的是什么?我們?cè)隗@嘆之余 , 也不禁會(huì)問:它這一身過人的本事到底哪兒來的?
答案 , 其實(shí)指向了背后模型的核心能力——VLM(視覺語言理解) 。
在豆包大模型家族里 , 目前視覺理解表現(xiàn)最頂尖的 , 是近期在火山冬季Force大會(huì)上發(fā)布的豆包大模型1.8(Doubao-Seed-1.8) 。
當(dāng)然 , 豆包能夠擔(dān)任「AI講解員」 , 優(yōu)勢(shì)并不來自某一個(gè)單點(diǎn)能力 , 而在于豆包大模型1.8整體具備了更成熟的多模態(tài)處理能力 , 在信息檢索、代碼編寫 , 以及需要直接操作圖形用戶界面的交互場(chǎng)景中 , 它都能穩(wěn)定應(yīng)對(duì)較為復(fù)雜的任務(wù)流程 。
具體來說 , 在多模態(tài)推理任務(wù)中 , 豆包大模型1.8的整體完成度距離上一代模型有顯著提升 , 這也意味著模型在理解畫面內(nèi)容時(shí) , 不再只停留在識(shí)別層面 , 而是更容易形成整體判斷 。
此外 , 在視頻理解能力上 , 豆包大模型1.8在涉及視頻推理、運(yùn)動(dòng)與感知、長視頻理解的任務(wù)里 , 也都展現(xiàn)出了較強(qiáng)的適應(yīng)性 , 面對(duì)畫面持續(xù)變化的情況 , 也能更好地跟住節(jié)奏、抓住重點(diǎn):
豆包大模型1.8能夠在視頻流場(chǎng)景下很好地完成實(shí)時(shí)交互 。 比如在用戶操作過程中 , 模型既能結(jié)合實(shí)時(shí)視覺內(nèi)容 , 對(duì)用戶的提問與指令做出即時(shí)響應(yīng) , 又能主動(dòng)監(jiān)測(cè)畫面中的物體與動(dòng)作 。
發(fā)起聊天或提醒同時(shí) , 模型的回復(fù)過程完全不阻塞視覺信號(hào)輸入 , 可實(shí)現(xiàn)邊感知邊反饋的持續(xù)監(jiān)控 。
這也是為什么豆包能夠成為一個(gè)優(yōu)秀的「逛展搭子」 。
此外 , 這個(gè)模型在「GUI Agent」能力上的表現(xiàn)也是可圈可點(diǎn) , 之前爆火的“豆包手機(jī)”的操作能力 , 就是基于這一模型的支持 。
在搜索任務(wù)層面 , 這款模型的表現(xiàn)同樣突出 , 在部分測(cè)試維度中 , 它的成績超過了Gemini-3-Pro等一線模型 , 在多組公開的Agent搜索評(píng)測(cè)中 , 整體水平穩(wěn)定處在行業(yè)第一梯隊(duì) 。
再往更復(fù)雜的場(chǎng)景走 , 在智能編程以及高經(jīng)濟(jì)價(jià)值工作流相關(guān)評(píng)測(cè)中 , 該模型也展現(xiàn)出了面向真實(shí)軟件工程和現(xiàn)實(shí)業(yè)務(wù)流程的穩(wěn)定執(zhí)行能力:
(emm…這也就不難理解為什么豆包在信息檢索和判斷環(huán)節(jié)反應(yīng)又快又準(zhǔn)了??)
當(dāng)然了 , 豆包大模型1.8的優(yōu)勢(shì)可不是僅僅體現(xiàn)在聰明的大腦 , 它在語言理解這條能力線上 , 同樣具備扎實(shí)的基礎(chǔ) 。
在多項(xiàng)公開的「LLM」基準(zhǔn)測(cè)試中 , 它長期維持在第一梯隊(duì)水位 , 在數(shù)學(xué)、推理、復(fù)雜指令理解和知識(shí)掌握等核心能力上 , 已經(jīng)接近當(dāng)前頂尖通用模型的水平 。
同時(shí) , 在更偏向?qū)嶋H應(yīng)用的場(chǎng)景里 , 它在信息處理、意圖識(shí)別、關(guān)鍵信息提取 , 以及復(fù)雜工作流的理解和執(zhí)行上 , 也展現(xiàn)出了穩(wěn)定的競(jìng)爭(zhēng)力 。
目前 , 豆包大模型1.8(Doubao-Seed-1.8)不僅通過豆包App向用戶提供圖像理解、視頻理解等能力 , 還通過火山方舟提供API服務(wù) 。
話說回來 , 落到實(shí)際體驗(yàn)中 , 我們最直觀的感受是:在和豆包打視頻電話時(shí) , 它的交流方式更接近人與人之間的交流節(jié)奏 , 回應(yīng)銜接自然 , 幾乎不會(huì)讓人意識(shí)到自己是在和一個(gè)AI對(duì)話 。
當(dāng)復(fù)雜指令可以被穩(wěn)定執(zhí)行 , 推理過程足夠可靠 , 多模態(tài)理解又能持續(xù)跟住畫面變化 , 在一個(gè)視頻通話窗口里 , 把「看、聽、想、講」完整串起來 , 也就成了一件順理成章的事 。
這一趟藝術(shù)展逛下來 , 我最大的感觸其實(shí)不在于看展本身 , 而是突然意識(shí)到一件事:AI開始真正具備「感知力」了 。
在實(shí)時(shí)視頻通話這樣的高動(dòng)態(tài)場(chǎng)景中 , AI需要同時(shí)處理視覺、語音、上下文語境 , 以及不斷變化的交互焦點(diǎn) , 還要在被頻繁打斷和追問的情況下保持邏輯完整性 , 這本身就是對(duì)多模態(tài)模型綜合能力的極限考驗(yàn) 。
而豆包 , 已經(jīng)開始通過實(shí)時(shí)視頻交互的方式 , 參與進(jìn)具體生活場(chǎng)景中 , 逐步承擔(dān)起一種新的角色——陪你一起看、一起想、一起理解 。
當(dāng)知識(shí)問答不再只是識(shí)別圖片或理解語音 , 而是能在真實(shí)場(chǎng)景中持續(xù)工作 , AI視頻通話這件事 , 才真正從「能用」走向「好用」 。
【豆包的新身份曝光:在國際藝術(shù)展當(dāng)起了“AI講解員”】以后再遇到那些看不懂、想不通、想找人聊天的時(shí)刻 , 可能真的只差——掏出手機(jī) , 給豆包打個(gè)視頻電話了 。
推薦閱讀
- 人人都能編程的時(shí)代來了嗎?專家深度解讀“AI 編程”
- 蘋果換購計(jì)劃擴(kuò)員,庫克要搶華為小米Ov的換機(jī)用戶
- 那些說社交媒體“沒那么壞”的研究,可能有一半是他們自己人做的
- ColorOS 1月更新來襲:AI生圖、拜年神器全都有,你的機(jī)型有嗎?
- OpenAI首席財(cái)務(wù)官弗萊爾:公司今年將專注于人工智能的“實(shí)際應(yīng)用”
- 榮耀Magic 8 RSR保時(shí)捷設(shè)計(jì)評(píng)測(cè):調(diào)教最好的第五代驍龍8至尊版機(jī)皇
- 又一款國產(chǎn) Air 新機(jī)來了,配置真的猛!
- 庫克尷尬了,蘋果花費(fèi)10億美元1年,還失去了自己的“靈魂”
- 超2億!阿里螞蟻聯(lián)手投了一款“能給你點(diǎn)奶茶的AI 3D男友”
- 我的桌面終極進(jìn)化:安克黑神話聯(lián)名套裝,顏值與實(shí)力雙重震撼
