會議論文怎么檢索,論文相似度怎么檢索( 二 )


因而,客服領域對話系統的一個關鍵任務就是正確地將用戶的輸入分類到相應業務類型下的具體意圖(即識別出用戶輸入到對話系統執行某個動作之間的一個映射關系)中,從而達到識別和理解用戶要表達的意圖,幫助提高語言、語音導航系統的語義識別能力 。目前基于詞嵌入的低維稠密向量表示能比較好的表示詞、段落、文檔的語義和次序信息方法上:1)可利用word2vec能訓練詞的向量表示,在基于詞的向量表示的基礎上去表示文檔向量 。
2)可直接訓練文檔向量,詞向量的提出者Tomas Mikolov在2014年也提出了Doc2vec(在word2vec的基礎上),與Word2vec一樣,Doc2Vec也有兩種模型,分別為:Distributed Memory(DM)和Distributed Bag of Words(DBOW) 。DM模型在給定上下文和文檔向量的情況下預測單詞的概率,DBOW模型在給定文檔向量的情況下預測文檔中一組隨機單詞的概率 。
其中,在一個文檔的訓練過程中,文檔向量共享(意味著在預測單詞的概率時,都利用了本文檔的語義) 。Distributed Memory(DM):Distributed Bag of Words(DBOW)3)此外還可以利用深度神經網絡模型,比如以LSTM、biLSTM等結構為基礎的模型訓練文本向量,計算文本相似度 。

推薦閱讀