AI打破自然語言處理和視覺處理的邊界
此前 , OpenAI斥巨資打造的自然語言處理模型GPT-3 , 擁有1750億超大參數量 , 是自然語言處理領域最強AI模型 。 人們發現GPT-3不僅能夠答題、寫文章、做翻譯 , 還能生成代碼、做數學推理、數據分析、畫圖表、制作簡歷 。 自2020年5月首次推出以來 , GPT-3憑借驚人的文本生成能力受到廣泛關注 。
與GPT-3一樣 , DALL·E也是一個具有120億參數的基于Transformer架構的語言模型 , 不同的是 , GPT-3生成的是文本 , DALL·E生成的是圖像 。
在互聯網上 , OpenAI大秀了一把DALL·E的“超強想象力” , 隨意輸入一句話 , DALL·E就能生成相應圖片 , 這個圖片內容可能是現實世界已經存在的 , 也可能是根據自己的理解創造出來的 。
此前 , 關于視覺領域的深度學習方法一直存在三大挑戰——訓練所需大量數據集的采集和標注 , 會導致成本攀升;訓練好的視覺模型一般只擅長一類任務 , 遷移到其他任務需要花費巨大成本;即使在基準測試中表現良好 , 在實際應用中可能也不如人意 。
對此 , OpenAI聯合創始人曾發文聲稱 , 語言模型或是一種解決方案 , 可以嘗試通過文本來修改和生成圖像 。 基于這一愿景 , CLIP應運而生 。 只需要提供圖像類別的文本描述 , CLIP就能將圖像進行分類 。
至此 , AI已經打破了自然語言處理和視覺處理的邊界 。 “這主要得益于計算機視覺領域中語義類別分析方面的飛速發展 , 使得AI已經能夠進一步進行更高層次的視覺語義理解 。 ”黃巖說 。
具體來說 , 隨著深度學習的興起 , 計算機視覺領域從2012年至今已經接連攻克一般自然場景下的目標識別、檢測、分割等語義類別分析任務 。 2015年至今 , 越來越多的視覺研究者們開始提出和研究更加高層的語義理解任務 , 包括基于圖像生成語言描述、用語言搜索圖片、面向圖像的語言問答等 。
“這些語義理解任務通常都需要聯合視覺模型和語言模型才能夠解決 , 因此出現了第一批橫跨視覺領域和語言領域的研究者 。 ”黃巖說 , 在他們推動下 , 兩個領域開始相互借鑒優秀模型和解決問題的思路 , 并進一步影響到更多傳統視覺和語言處理任務 。
【把文本變成畫作,AI對藝術“下手”了】多模態交互方式會帶來全新的應用
隨著人工智能技術發展 , 科學家也正在不斷突破不同研究領域之間的界限 , 自然語言處理和視覺處理的交叉融合并不是個例 。
“語音識別事實上已經加入其中 , 最近業內出現很多研究視覺+語音的新任務 , 例如基于一段語音生成人臉圖像或者跳舞視頻 。 ”黃巖說 , 但是要注意到 , 語音其實與語言本身在內容上可能具有較大的重合性 。 在現在語音識別技術非常成熟的前提下 , 完全可以先對語音進行識別將其轉換為語言 , 進而把任務轉換為語言與圖像交互的常規問題 。
無論是DALL·E還是CLIP , 都采用不同的方法在多模態學習領域跨出了令人驚喜的一步 。 今后 , 文本和圖像的界限是否會被進一步打破 , 能否順暢地用文字“控制”圖像的分類和生成 , 將會給現實生活帶來怎樣的改變 , 都值得期待 。
對于多模態交互方式可能會帶來哪些全新應用?黃巖舉了兩個具有代表性的例子 。
第一個是手機的多模態語音助手 。 該技術可以豐富目前手機語音智能助手的功能和應用范圍 。 目前的手機助手只能進行語音單模態交互 , 未來可以結合手機相冊等視覺數據、以及網絡空間中的語言數據來進行更加多樣化的推薦、查詢、問答等操作 。
推薦閱讀
- 老鼠躲起來了怎么把它引出來
- 原味雙皮奶的制作方法 雙皮奶的做法
- Ubuntu無法安裝vim怎么辦?
- 黃色加什么顏色變成橙色
- 微博怎么變成黑色模式
- 善良是一種習慣,把這種習慣作為禮物送給孩子!
- ps怎么把雜物p掉
- 如何把深色衣服漂成淺色
- 寶寶巴士原創3D早教動畫 雪人變成雪球,災難來臨,怎么辦?
- 寶寶巴士原創3D動畫 情急之下,把充氣輪胎做為救生圈救人
