靈隆科技CEO魏強也曾對媒體表示, 目前消費者普遍反饋智能音箱存在遠場識別差、誤喚醒率高、連續對話功能不穩定和語義理解能力差、音質不好等問題, 看似火爆的智能音箱行業正在面臨創新能力弱、產品體驗差、內容和技能不足、用戶認知度低等諸多挑戰 。
水平有限 仍是簡單場景的人機交互
谷歌演示Duplex AI的過程引發了真實與否的爭議:人們注意到, 這些通話中的兩位女性員工都沒有在電話上提到自己公司的名稱, 另外這兩個錄音中也都沒有環境噪音 。 不過谷歌并沒有對是否編輯過電話錄音的問題發表評論 。
對于Duplex AI的表現, 王金橋表示:“這只是展示了一個效果, 不能說機器通過了圖靈測試, 也不代表理論上的突破 。 況且真實性沒有驗證 。 如果是真實的, 那確實是先進的自然語言理解, 這說明大家都在往自然語言處理的方向努力 。 ”
思必馳副總裁、語音交互科學家初敏表達了類似的觀點 。 “這個預約的過程難度不大, 是一個簡單場景的人機交互 。 只是角色置換了一下, 不是我們常見的‘人問機器’, 而是‘機器問人’, 引發了大家的熱議 。 ”初敏說 。
初敏表示, 谷歌展示的“機器預約餐廳、發廊”一定是可以實現的, 沒有被對方聽出來說明語音合成的效果不錯, 但整體來看, 全程“沒有展現有挑戰性的問題”——如多任務切換、跨場景、噪音、上下文邏輯理解等 。 她同樣表達了對視頻真實性的懷疑:“餐廳聽起來應該是亂七八糟的, 但視頻中沒有背景噪音, 所以不排除表演的可能 。 ”
要想質變 需要自然語言處理技術突破
自然語言處理是語音交互的核心技術, 也是三十年來幾乎沒有突破的痛點 。 通俗來說, 這項技術就是“讓機器理解人” 。 據王金橋介紹, 自然語言處理的核心是理解, 希望機器能理解人的語言和目的 。 但每個人都是個性化的, 說話的輕重緩急、重音位置, 看到夕陽西下時或開心或傷感的個人感受, 這些都是目前的機器無法理解的 。 尤其是在中文語境下, 常見的一語雙關、倒裝、句式簡化等, 人有時候都理解不了, 對機器來說更是難上加難 。
初敏表示, 在語音交互背后, 是語音識別、自然語言理解、對話管理、自然語言生成等諸多環節, 各環節充分配合才能實現良好的交互效果 。 “相比于谷歌展示的預約, 我們已經可以處理更復雜的交互, 只是效果沒那么好 。 ”初敏說 。
“機器的認知推理和理解是一個系統的處理工程, 是各種復雜算法的結合, 不是單項技術能解決的 。 ”王金橋表示 。 目前比較可行的限定場景下的自然語言處理, 比如兒童陪伴、學科細分的語料庫, 可以實現智能化交互 。 中國科學院院士譚鐵牛也在兩院院士大會期間談到人工智能正處在從“不能用”到“可以用”的技術拐點, 距離“很好用”還有諸多瓶頸 。 “像‘那輛白車是黑車’‘能穿多少是多少’一類的表述, 機器無法準確理解和翻譯 。 ”譚鐵牛說 。
【會打電話的AI: 不值得大驚小怪】語言交互是智能音箱的核心功能 。 智能音箱的銷量劇增, 大量的語音交互會帶來多樣化的數據樣本, “目前研究界都在試圖突破自然語言處理的難關, 雖然從事這項研究的人比以前多很多, 研究條件也很好, 但理論的瓶頸、語言理解的語義鴻溝問題, 不是一時半會能解決的 。 ”王金橋說 。 (實習采訪人員崔爽)
推薦閱讀
- 寶馬研發可自動駕駛的機車 旨在提高駕駛安全性
- 市值破萬億美金的蘋果 近年在AI上搞了些新動作
- 技術如何重塑行業與社會?——斯坦福大學、DARPA與硅谷公司共論前沿科技發展
- 賣火柴的小女孩作者 賣火柴的小女孩作者是誰
- 超市的100年發展史:好日子終結,無人店是趨勢
- 你知道什么是含肩嗎?這個動作習慣了可能會讓你變丑
- 什么是奶牛貓
- 田忌賽馬是根據漢代司馬遷的什么相關內容改寫的 田忌賽馬是根據司馬遷的什么相關內容改寫的
- 水煮蝦的料汁怎么調
- 什么是高地折耳貓
