豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

文章圖片

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

文章圖片

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

文章圖片

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

文章圖片

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
智東西AI前瞻7月29日報道 , 今日 , 豆包App宣布“視覺推理能力”全面升級 , 正式上線圖像分析的深度思考模式 。
用戶只需拍攝或上傳一張圖片 , 即可在“深度思考”模式下使用放大、裁剪、圖搜等功能 , 結合邊看圖邊發問的交互方式 , 實現更高精度的圖片語義理解和推理能力 。
這一升級不僅支持識別圖中物體 , 更進一步延伸到對圖像背后場景的理解判斷 。

一、拍圖就能提問 , 豆包開啟“邊看圖邊思考”新交互在本次升級中 , 豆包新增的“深度思考”模式 , 支持用戶圍繞圖片本身進行自由提問 。
無論是拍攝街景、上傳老照片 , 還是記錄物件 , 都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個年代”等問題 , 系統會結合圖像內容進行推理分析 , 給出解釋 。
功能入口已集成在豆包App對話界面中 , 用戶選擇“深度思考” , 上傳圖片后即可觸發分析流程 。
“以圖搜圖”模式下 , 豆包還可自動激活圖像放大、裁剪、圖片搜索等工具 , 幫助用戶進一步觀察細節 , 提升問答準確性 。

二、一次完整旅行對話:豆包從“在哪”到“帶啥相機”都能幫你安排這次體驗中 , 智東西模擬了一次“從照片出發規劃旅行”的完整對話流程 。
1、上傳街拍圖 , 豆包識別出“你在哪”
第一步 , 智東西上傳了一張街頭照片 , 并詢問“我在哪?” 。
豆包在未提供任何位置信息的情況下 , 識別出畫面為“上海的武康大樓附近” , 并補充說明其為“上海具有代表性的歷史建筑 , 也是網紅打卡地” 。
進一步追問“這幅圖是不是照騙”“暑假適合去嗎” , 豆包的回答也較為全面:指出照片中建筑外觀與實景一致 , 但構圖和光線可能增強了美感;同時給出天氣、人流、交通等方面的旅游建議 , 提醒避高溫、錯峰出行、準備防暑物品等 , 具有實際參考意義 。
2、上傳江南街景圖 , 豆包識別景點 , 并生成2天1夜旅行攻略
接著 , 智東西上傳了一張江南水鄉風格的街景圖 , 想讓豆包生成“換場”的旅游攻略 。
豆包識別出這是“蘇州平江歷史文化街區(平江路)” , 并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場景特征 。
隨后提出“我想同時去這兩個地方 , 如何安排行程?”的問題后 , 豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略 。
內容覆蓋每日路線、跨城交通、拍照點位、文藝店鋪、餐館推薦、防暑提醒等細節 , 結構清晰 , 實用性強 。
整體來看 , 豆包在“圖片分析”模式下 , 具備地點識別能力 , 還能基于多個目標地點 , 串聯生成完整的旅行計劃 , 展現出較強的上下文理解與推理能力 。
3、拍CCD攤位 , 豆包識別型號并推薦適合“出片”的機型
【豆包學會看圖思考了,一張圖就能幫你規劃暑假出行】在確定了行程后 , 智東西又上傳了一張街邊復古相機攤的圖 , 想讓豆包推薦適合拍照的機型 。
豆包迅速識別出圖中主要為“膠片傻瓜機”“旁軸相機”等類型 , 并準確指出Olympus μ2、Canon Autoboy D5、Leica CM等具體型號 , 細節識別能力表現較為扎實 。
此后 , 圍繞“如何選出片效果好的相機”的問題 , 豆包還提供了分層級的購機建議 , 包括新手入門、進階玩家的不同選擇 , 并對操作難度、風格偏好、預算區間等做出說明 。
它還特別提示了購買二手機時需檢查快門、鏡頭等細節 , 并估算了拍攝和沖洗膠片的實際成本 。
在這類物品識別與使用建議任務中 , 豆包已初步具備“看圖-識別-建議”閉環能力 , 尤其適用于旅游類消費決策場景 。

三、冷門景點識別挑戰:這回豆包也拿不準為測試在“非熱門地標+自然景觀”條件下的表現 , 智東西還上傳了一張南京止馬嶺的實拍照片 。
這張圖沒有明顯的地標建筑或文字提示 , 視覺線索相對稀少 。 豆包未能識別出“止馬嶺”這一具體地點 , 但結合杉樹的外形特征、水中生長環境以及秋季色彩 , 判斷其為“池杉或水杉濕地景觀” 。
調用10篇資料后 , 豆包推測可能拍攝于“成都白鷺灣濕地公園” , 并在參考結果中提及“常州翠竹公園”“南京止馬嶺”等相似景點——雖未命中 , 但說明其在模糊場景下具備一定類比和搜索整合能力 。
不過 , 從整體判斷來看 , 豆包對于這類非網紅、無標識的自然景觀 , 其定位準確性仍有限 。

結語:視覺能力升級 , 讓圖片成為“主動提問入口”通過此次體驗可以看到 , 豆包在視覺推理能力升級后 , 已不再局限于“看圖識物” , 而是圍繞圖片內容展開多輪對話式分析 , 支持定位、推薦、規劃、選品等復雜需求 。
無論是上傳旅游照片判斷城市位置、分析圖中場景是否值得游覽 , 還是識別老物件類型并給出購買建議 , 豆包均展示出清晰的答案與解釋 。
對于用戶而言 , 這種“邊看圖邊問圖”的交互方式 , 不再要求精準描述 , 而是讓圖像本身成為入口 , 推動AI推理主動向前走一步 。
雖然在部分冷門場景下還存在判斷不準、搜索依賴重的問題 , 但豆包在圖片分析中的表現已初步具備“能看圖、敢思考、會回答”的雛形 , 未來或將向更深入的圖像語義理解能力演進 。

    推薦閱讀