把文本變成畫作，AI對藝術“下手”了( 二 ) _模態

AI打破自然語言處理和視覺處理的邊界
此前， OpenAI斥巨資打造的自然語言處理模型GPT-3 ，擁有1750億超大參數量，是自然語言處理領域最強AI模型。人們發現GPT-3不僅能夠答題、寫文章、做翻譯，還能生成代碼、做數學推理、數據分析、畫圖表、制作簡歷。自2020年5月首次推出以來， GPT-3憑借驚人的文本生成能力受到廣泛關注。
與GPT-3一樣， DALL·E也是一個具有120億參數的基于Transformer架構的語言模型，不同的是， GPT-3生成的是文本， DALL·E生成的是圖像。
在互聯網上， OpenAI大秀了一把DALL·E的“超強想象力” ，隨意輸入一句話， DALL·E就能生成相應圖片，這個圖片內容可能是現實世界已經存在的，也可能是根據自己的理解創造出來的。
此前，關于視覺領域的深度學習方法一直存在三大挑戰——訓練所需大量數據集的采集和標注，會導致成本攀升；訓練好的視覺模型一般只擅長一類任務，遷移到其他任務需要花費巨大成本；即使在基準測試中表現良好，在實際應用中可能也不如人意。
對此， OpenAI聯合創始人曾發文聲稱，語言模型或是一種解決方案，可以嘗試通過文本來修改和生成圖像。基于這一愿景， CLIP應運而生。只需要提供圖像類別的文本描述， CLIP就能將圖像進行分類。
至此， AI已經打破了自然語言處理和視覺處理的邊界。 “這主要得益于計算機視覺領域中語義類別分析方面的飛速發展，使得AI已經能夠進一步進行更高層次的視覺語義理解。 ”黃巖說。
具體來說，隨著深度學習的興起，計算機視覺領域從2012年至今已經接連攻克一般自然場景下的目標識別、檢測、分割等語義類別分析任務。 2015年至今，越來越多的視覺研究者們開始提出和研究更加高層的語義理解任務，包括基于圖像生成語言描述、用語言搜索圖片、面向圖像的語言問答等。
“這些語義理解任務通常都需要聯合視覺模型和語言模型才能夠解決，因此出現了第一批橫跨視覺領域和語言領域的研究者。 ”黃巖說，在他們推動下，兩個領域開始相互借鑒優秀模型和解決問題的思路，并進一步影響到更多傳統視覺和語言處理任務。
【把文本變成畫作，AI對藝術“下手”了】多模態交互方式會帶來全新的應用
隨著人工智能技術發展，科學家也正在不斷突破不同研究領域之間的界限，自然語言處理和視覺處理的交叉融合并不是個例。
“語音識別事實上已經加入其中，最近業內出現很多研究視覺+語音的新任務，例如基于一段語音生成人臉圖像或者跳舞視頻。 ”黃巖說，但是要注意到，語音其實與語言本身在內容上可能具有較大的重合性。在現在語音識別技術非常成熟的前提下，完全可以先對語音進行識別將其轉換為語言，進而把任務轉換為語言與圖像交互的常規問題。
無論是DALL·E還是CLIP ，都采用不同的方法在多模態學習領域跨出了令人驚喜的一步。今后，文本和圖像的界限是否會被進一步打破，能否順暢地用文字“控制”圖像的分類和生成，將會給現實生活帶來怎樣的改變，都值得期待。
對于多模態交互方式可能會帶來哪些全新應用？黃巖舉了兩個具有代表性的例子。
第一個是手機的多模態語音助手。該技術可以豐富目前手機語音智能助手的功能和應用范圍。目前的手機助手只能進行語音單模態交互，未來可以結合手機相冊等視覺數據、以及網絡空間中的語言數據來進行更加多樣化的推薦、查詢、問答等操作。

把文本變成畫作，AI對藝術“下手”了( 二 )

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢

建成房屋如何挖地下室

我買了堅果手機，感覺系統好像沒有過度動畫

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

麥昆小白鞋黃斑怎么去

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別