把文本變成畫作，AI對藝術“下手”了 _模態

自然語言處理與視覺處理，都重在對不同模態數據所包含的語義信息進行識別和理解，但是兩種數據的語義表現形式和處理方法不同，導致存在所謂的“語義壁壘” ，現在這種壁壘正在被AI打破。
1月初，美國人工智能公司OpenAI推出兩個跨越文本與圖像次元的模型：DALL·E和CLIP ，前者可以基于文本生成圖像，后者則可以基于文本對圖片進行分類。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。自然語言處理和視覺處理的邊界已經被打破，多模態AI系統正在逐步建立。
“數據的來源或者形式是多種多樣的，每一種都可以稱為一種模態。例如圖像、視頻、聲音、文字、紅外、深度等都是不同模態的數據。單模態AI系統只能處理單個模態的數據。例如對于人臉識別系統或者語音識別系統來說，它們各自只能處理圖像和聲音數據。 ”中國科學院自動化研究所副研究員黃巖在接受科技日報采訪人員采訪時表示。
相對而言，多模態AI系統可以同時處理不止一種模態的數據，而且能夠結合多種模態數據進行綜合分析。 “例如服務機器人系統或者無人駕駛系統就是典型的多模態系統，它們在導航的過程中會實時采集視頻、深度、紅外等多種模態的數據，進行綜合分析后選擇合適的行駛路線。 ”黃巖說。
不同層次任務強行關聯會產生“壁壘”
就像人類有視覺、嗅覺、聽覺一樣， AI也有自己的“眼鼻嘴” ，而為了研究的針對性和深入，科學家們通常會將其分為計算機視覺、自然語言處理、語音識別等研究領域，分門別類地解決不同的實際問題。
自然語言處理與視覺處理分別是怎樣的過程，二者之間為什么會有壁壘？
語義是指文字、圖像或符號之間的構成關系及意義。 “自然語言處理與視覺處理，都重在對不同模態數據所包含的語義信息進行識別和理解，但是兩種數據的語義表現形式和處理方法不同，導致存在所謂的‘語義壁壘’ 。 ”黃巖說。
視覺處理中最常見的數據就是圖像，每個圖像是由不同像素點排列而成的二維結構。像素點本身不具有任何語義類別信息，即無法僅憑一個像素點將其定義為圖像數據，因為像素點本身只包含0到255之間的一個像素值。
“例如對于一張人臉圖像來說，如果我們只看其中某些像素點是無法識別人臉圖像這一語義類別信息的。因此，目前計算機視覺領域的研究人員更多研究的是如何讓人工智能整合像素點數據，判斷這個數據集合的語義類別。 ”黃巖說。
“語言數據最常見的就是句子，是由不同的詞語序列化構成的一維結構。不同于圖像像素，文本中每個詞語已經包含了非常明確的語義類別信息。而自然語言處理則是在詞語的基礎上，進行更加高級的語義理解。 ”黃巖說，例如相同詞語排列的順序不同將產生不同的語義、多個句子聯合形成段落則可以推理出隱含語義信息。
可以說，自然語言處理主要研究實現人與計算機直接用自然語言進行有效信息交流，這個過程包括自然語言理解和自然語言生成。自然語言理解是指計算機能夠理解人類語言的意義，讀懂人類語言的潛在含義；自然語言生成則是指計算機能以自然語言文本來表達它想要達到的意圖。
由此可以看出，自然語言處理要解決的問題的層次深度超過了計算機視覺，自然語言處理是以理解人類的世界為目標，而計算機視覺所完成的就是所見即所得。這是兩個不同層次的任務。目前來說，自然語言處理在語義分析層面來說要高于視覺處理，二者是不對等的。如果強行將兩者進行語義關聯的話，則會產生“語義壁壘” 。

把文本變成畫作，AI對藝術“下手”了

推薦閱讀

手機變色了怎么設置回來

艾杜紗洗面奶能卸彩妝嗎

照片與視頻怎么合成怎樣將視頻和照片合成視頻

新鮮玫瑰食用方法

上海戶口遷入南京辦理流程

一個月的新生兒如何照顧

小麥秸稈是什么材質

我只會什么寫句子怎么用我只會造句

如何讓E908用視頻做待機墻紙

筆記本連接投影儀方法步驟筆記本電腦怎么連接投影儀

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

紅瑰寶是紅木嗎

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

兩個小故事，與生活攜手的文章，直面世俗一角

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組