應用程序的未來是語音交互

應用程序的未來是語音交互

然而 , 我即將提出的觀點并不意味著您將被迫與設備進行語音交互 , 也不意味著人類正在盲目地走向一個充滿過度依賴、喜愛AI的技術宅用戶公共空間的未來 。

圖形用戶界面不會消失 , 就像計算器在 Lotus 1-2-3 發布后沒有消失一樣 。 事實上 , 即使在今天 , 如果您愿意 , 仍然可以購買算盤 , 而且有些算盤價格確實很貴 。
但現在看來 , 應用程序開發者和操作系統越來越傾向于語音交互已經是不可避免的趨勢了 。
這樣做有充分的理由 , 最明顯的就是可訪問性 。
我不僅指那些無法與設備進行物理交互的用戶 , 盡管僅這一點就已經非常出色 。 我還指那些技術水平可能不如您的用戶 , 但他們有同樣的需求 , 他們試圖導航那些似乎只對其他人輕松工作的手機、計算機和平臺 。
如果您的本能反應是將這些用戶視為懶惰或類似的想法 , 我很抱歉地告訴您 , 您錯過了現代計算整個承諾的要點 。
技術進步應該降低準入門檻 , 幫助人們到達他們想去的地方 , 無論他們對從終端到Safari的任何東西有多熟悉 。
事實上 , 蘋果公司的存在大部分都基于這一前提 , 即使其領導層偶爾似乎忘記了這一點 。
話雖如此 , 語音優先方法不可避免的另一個重要原因是:實現這一目標所需的實際底層技術終于變得足夠好了 。
是的 , 每個大語言模型仍然會犯愚蠢的錯誤 , 而且只要它們基于當前的自回歸Transformer方法 , 它們很可能總是會犯錯誤 。
但公司、前沿AI實驗室 , 甚至獨立開發者要么正在學習如何解決這些限制 , 要么轉向完全不同的架構 , 其中一些架構顯示出巨大的潛力 。
在過去的一年中 , 語音界面取得了重大進展 , 包括Wispr和Speechify等工具 , 這些工具的采用率呈現出日益陡峭的增長趨勢 。
據Wispr Flow創始人兼首席執行官Tanay Kothari稱 , 他的用戶最終會達到語音占產品所有輸入約75%的程度 。 在成熟用戶中 , 鍵盤使用率降至5%以下 。
如果他們沒有在開發適當的智能體能力來配合他們的聽寫工具 , 我就把我的帽子吃掉 。 事實上 , Speechify已經明顯朝著這個方向發展 。
另外 , 我們不要忘記最近由OpenClaw引起的海嘯 , 盡管存在缺陷 , 它完全顛覆了任何人對自主智能體能夠在短期內實現的期望 。 事實上 , 許多用戶依賴ElevenLabs等平臺與他們的智能體進行大聲交談 , 其中一些看到ElevenLabs API被OpenClaw主動實現 。
任何了解情況的人都會告訴您這是多么了不起 , 盡管仍然存在缺陷 。
這就是事情發展的速度:我開始寫這篇文章是在一段時間之前 , 在OpenClaw成為今天的樣子之前 。
原本我寫道:
事實證明 , 真的不是這樣 。
最初 , 我還打算通過提及Anthropic的MCP以及Apple的App Intents等內容來結束這篇文章 , 以說明實現語音就緒界面的各個部分是如何落實到位的 。 我甚至打算建議我們可能會在明年6月的WWDC期間看到相關消息 。
現在 , 雖然我仍然相信我們可能會在6月份看到更多面向語音的功能、API和便利設施 , 但即使是它們將依賴于開發者的概念也開始顯得短視或過時 。
我可能記錯了細節 , 但我相信是John Gruber談論過在某個地方 , 可能是德雷塞爾大學 , 他們最終鋪設了人們在草地上走出的小徑 , 因為它比建筑師設計的路線更短 。
我真誠地相信 , 對許多用戶來說 , 語音就是那條最短的路徑 。
從向iPhone或Mac說出請求并獲得高級快捷方式的回報 , 到調整照片、查找和編輯文檔 , 甚至請求跨應用程序的多步驟工作流程 , 隨著技術終于追上 , 越來越明顯的是 , 大多數用戶會發現最容易導航的界面根本就沒有界面 。 或者說 , 是人類自第一聲呼嚕以來一直在完善的界面 。
盡管如此 , 當人們給我發語音消息時 , 我仍然討厭它 。
Q&A
Q1:語音界面為什么會成為應用程序發展的必然趨勢?
A:語音界面成為趨勢主要有兩個原因:首先是可訪問性 , 它能幫助那些無法物理交互或技術水平較低的用戶更容易使用設備;其次是底層技術已經足夠成熟 , 大語言模型和相關AI技術的進步使得語音交互變得更加實用和可靠 。
Q2:Wispr Flow的用戶語音使用情況如何?
A:據Wispr Flow創始人兼首席執行官Tanay Kothari介紹 , 用戶最終會達到語音占產品所有輸入約75%的使用比例 。 在成熟用戶群體中 , 鍵盤使用率甚至降至5%以下 , 這顯示了語音交互的強大吸引力和實用性 。
Q3:語音界面的發展會完全取代圖形用戶界面嗎?
【應用程序的未來是語音交互】A:不會完全取代 。 就像計算器在Lotus 1-2-3發布后沒有消失一樣 , 圖形用戶界面也不會消失 。 語音交互更像是提供了一條最短路徑 , 讓用戶能夠更容易地完成任務 , 但傳統的界面仍然有其存在價值和使用場景 。

    推薦閱讀