如何進行相似度的計算，主要用什麼方式

如何計算句子的語義相似度,很容易想到的是向量空間模型（VSM）和編輯距離的方法,比如A：“我爸是李剛”,B：“我兒子是李剛”,利用VSM方法A（我,爸,是,李剛）B（我,兒子,是,李剛）,計算兩個向量的夾角餘弦值,不贅述；編輯距離就更好說了將“爸”,“兒子”分別替換掉,D（A,B）= replace_cost；

這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A：“樓房如何建造?”,B：“高爾夫球怎麼打?”,C:“房子怎麼蓋?”,如果用VSM算很明顯由於B,C中有共同的詞“怎麼”,所以BC相似度高於AC；編輯距離同理；

解決這種問題方法也不難,隻要通過同義詞詞典對所有句子進行擴展,“如何”、“怎麼”,“樓房”、“房子”都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解.這種方法一定程度上解決了召回率低的問題,但是擴展後引入噪聲在所難免,尤其若原句中含有多義詞時.例如：“打醬油”、“打毛衣”.在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網（hownet）中對這種類型漢字有很好的語義關係解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量.

問題到這裏似乎得到了不錯的解答,但實際中遠遠不夠.VSM的方法把句子中的詞語看做相互獨立的特征,忽略了句子序列關係、位置關係對句子語義的影響；Edit Distance考慮了句子中詞語順序關係,但是這種關係是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同.What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位.實際效果要待實驗證實.

對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果.當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個.想想還是不錯的方法!

如何通過詞向量技術來計算2個文檔的相似度

最近正好組內做了一個文檔相似度的分享。

決定回答一發。

首先，如果不局限於NN的方法，可以用BOW+tf-idf+LSI/LDA的體係搞定，也就是俗稱的01或one hot representation。

其次，如果樓主指定了必須用流行的NN，俗稱word-embedding的方法，當然首推word2vec（雖然不算是DNN）。

然後得到了word2vec的詞向量後，可以通過簡單加權/tag加權/tf-idf加權等方式得到文檔向量。

這算是一種方法。

當然，加權之前一般應該先幹掉stop word，詞聚類處理一下。

還有，doc2vec中的paragraph vector也屬於直接得到doc向量的方法。

特點就是修改了word2vec中的cbow和skip-gram模型。

依據論文《Distributed Representations of Sentences and Documents》（ICML 2014）。

還有一種根據句法樹加權的方式，是ICML2011提出的，見論文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，後續也有多個改編的版本。

當然，得到詞向量的方式不局限於word2vec,RNNLM和glove也能得到傳說中高質量的詞向量。

ICML2015的論文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一種計算doc相似度的方式，大致思路是將詞之間的餘弦距離作為ground distance，詞頻作為權重，在權重的約束條件下，求WMD的線性規劃最優解。

最後，kaggle101中的一個word2vec題目的tutorial裏作者如是說：他試了一下簡單加權和各種加權，不管如何處理，效果還不如01，歸其原因作者認為加權的方式丟失了最重要的句子結構信息（也可以說是詞序信息），而doc2vec的方法則保存了這種信息。

在剛剛結束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘詞共現信息的內在含義，據說是基於全局統計的方法（LSI為代表）與基於局部預測的方法（word2vec為代表）的折衷，而且輸出的詞向量在詞聚類任務上幹掉了word2vec的結果，也可以看看。

《GloVe: Global Vectors forWord Representation》

電大畢業論文要相似度要低於多少才可以合格畢業,本人在網上查的相...

知網檢測，就是用一定的算法將你的論文和知網數據庫中已收錄的論文進行對比，從而得出你論文中哪些部分涉嫌抄襲。

目前的對比庫有：中國學術期刊網絡出版總庫中國博士學位論文全文數據庫/中國優秀碩士學位論文全文數據庫中國重要會議論文全文數據庫中國重要報紙全文數據庫中國專利全文數據庫互聯網資源英文數據庫（涵蓋期刊、博碩、會議的英文數據以及德國Springer、英國Taylor&Francis期刊數據庫等）港澳台學術文獻庫優先出版文獻庫互聯網文檔資源關於學校查重率、相似率、抄襲率：各個學校不一樣，全文重複率在30%一下（而有的學校，本科是20%）。

每章重複率應該沒有要求，這個每個學校會出細則的，並且學校也出給出他們查重複率的地方——基本都是中國知網。

具體打電話問老師，每界每個學校要求都不一樣相關查重係統名詞的具體作用：查重率的具體概念就是抄襲率，引用率，要用專業軟件來測試你的文章與別人論文的相似度，杜絕抄襲。

基本就這意思。

一個是自寫率就是自己寫的一個是複寫率就是你抄襲的還有一個引用率就是那些被畫上引用符號的是合理的引用別人的資料關於知網相關抽查規定：有規定的，可以進行第一次修改，修改之後通過就可以答辯，如果第二次不通過就算結業，在之後4個月內還要交論文或者設計的。

這個是在抄襲30%的基礎上的。

如果抄襲50%以上的話，直接結業在之後4個月內還要交論文或者設計的。

1.被認定為抄襲的本科畢業設計（論文），包括與他人已有論文、著作重複總字數比例在30%至50%（含50%）之間的，需經本人修改。

修改後經過再次檢測合格後，方可參加學院答辯。

再次檢測後仍不合格的，按結業處理。

須在3 個月後提交改寫完成的畢業設計（論文），檢測合格後再參加答辯。

2.被認定為抄襲的本科畢業設計（論文），且與他人已有論文、著作重複總字數比例超過50%的，直接按結業處理。

須在4 個月後提交改寫的畢業設計（論文），檢測合格後再參加答辯。

修改重複率或抄襲率論文的經驗： CNKI是連續的字數相同不能超過13個字，萬方是連續的字數相同不能超過15個字。

否則就會標注出來，算進重複率。

我們學校規定是CNKI檢測重複率不能超過30%.兩種數據庫檢測重複率會有結果上的誤差，一般CNKI會更嚴格一點，先在用萬方檢測一下，然後對照重複段落，句子反複修改一下，最後用CNKI檢測一下，就放心了。

現在是學生寫作畢業論文的關鍵時期，許多學生在論文寫作中要利用一些文獻資料，這樣就涉及到一個問題，如何應用別人的文獻資料，如何形成一個良好的學術規範，避免抄襲。

這在現在是一個非常迫切的問題，但是我們許多同學缺乏嚴格的訓練，也不知道什麼情況下是抄襲，什麼情況下是引用別人的文章。

在這裏我想對這個問題作出一個簡單的討論。

這僅僅隻能算是個拋磚引玉而已，目的是想和大家一起討論這個話題。

什麼是抄襲行為？簡單地說就是使用了別人的文字或觀點而不注明就是抄襲。

“照抄別人的字句而沒有注明出處且用引號表示是別人的話，都構成抄襲。

美國現代語言聯合會《論文作者手冊》對剽竊（或抄襲）的定義是：‘剽竊是指在你的寫作中使用他人的觀點或表述而沒有恰當地注明出處。

……這包括逐字複述、複製他人的寫作，或使用不屬於你自己的觀點而沒有給出恰當的引用。

’可見，對論文而言，剽竊有兩種：一種是剽竊觀點，用了他人的觀點而不注明，讓人誤以為是你自己的觀點；一種是剽竊文字，照抄別人的文字表述而沒有注明出處且用引號，讓人誤以為是你自己的表述。

當然，由於論文注重觀點的原創性，前者要比後者嚴重。

至於普及性的文章卻有所不同，因為並不注重觀點的原創性，所以並不要求對來自別人的觀點一一注明，因此隻看重文字表述是否剽竊。

”那麼如何使用別人的文獻資料呢？美國哈佛大學在其相關的學生手冊中指出，“如果你的句子與原始資料在觀點和句子結構上都非常相似，並且結論與引語相近而非用自己的話重述，即使你注明出處，這也是抄襲。

你不能僅僅簡單改變原始資料中的幾個詞語或者對其進行摘要總結，你必須用你自己的語言和句子結構徹底地重塑你的總結，要不就直接引用。

”（引自哈佛大學的相關規定，該原文是我1年前看到的，現在找不到出處了）。

可見，對別人的內容的使用必須進行全麵的重寫，否則就有抄襲的嫌疑。

但這裏要避免胡亂拚湊和揉合。

總之來說，我們必須尊重別人的智力成果，在文章中反映出哪些是你做的哪些是別人做的。

當然現在做到這些還很難，但我想我們至少要有這個意識，因為在剽竊的概念裏，除過強調未注明這點外，還強調不是成心的。

我們許多人寫東西，正是因為不知道什麼是抄襲，如何避免抄襲才犯了錯誤，所以明確什麼是抄襲非常重要。

從現實來看，我們的同學要寫一篇10000字左右的沒有任何抄襲嫌疑的畢業論文是很困難的，但是我們至少應該從主觀上盡可能的避免出現嚴重抄襲行為，逐步形成好的習慣。

在國內就是知網/paperpass/萬方這三大係統，這裏麵的資源是不斷更新的，每一年畢業生的論文除有保密要求外的基本上都是收這三大係...

機器學習句子相似度計算,最後怎麼根據相似度高低排序返回原來的句...

先說一個還是從詞的角度出發考慮的，最後的效果非常好，就是怎麼樣從詞的向量得到句子的向量，首先選出一個詞庫，比如說10萬個詞，然後用w2v跑出所有詞的向量，然後對於每一個句子，構造一個10萬維的向量，向量的每一維是該維對應的詞和該句子中每一個詞的相似度的最大值。

這種方法實際上是bag of words的一個擴展，比如說對於我喜歡用蘋果手機這麼一句話，對應的向量，會在三星，諾基亞，小米，電腦等詞上也會有比較高的得分。

這種做法對於bag of words的稀疏性問題效果非常好。

還做過一個直接訓練句子的相似度的一個query2vec模型，效果也不錯，就不細說了。

論文怎麼檢測相似度

第一步：初稿一般重複率會比較高（除非你是自己一字一句寫的大神），可以采用萬方、papertest去檢測，然後逐句修改。

這個係統是逐句檢測的，也就是說你抄的任何一句話都會被檢測出來。

這種檢測算法比較嚴格，從程序的角度分析這種算法比較簡單。

因而網上賣的都很便宜，我測的是3萬字，感覺還是物美價廉的。

（注意：1 這個庫不包含你上一屆研究生師兄的大論文，修改一定注意. 2 個人建議如果學校是用萬方檢測，就不要去檢測維普之類的先把論文電子版複製一份，保存一份。

看檢測結果，其中一份複製的備份論文，把檢測出重複的部分能刪了先刪了，把不能刪的，15字以內改一改，最好是加減字符，不要改順序，改順序沒太大用，參考文獻刪掉一部分，不能刪的話，先改下，英文文獻可以15個字符換一個詞。

把修改過的上交，重新過係統檢查。

保存的原論文稍做改動上交紙質版。

那個係統很麻煩的，很多沒看過沒應用過的文獻都能給你加上，可見中國人抄襲的功夫，都是互相抄，但是為了保證論文的完整性和表述的準確性，不要隨意改動，上交的紙質版，一定要斟酌，一般檢查完就不會再過檢測係統了，所以紙質版的不用擔心。

第二步：經過修改後，重複率大幅下降了。

這時你可以用知網查了，知網查重係統是逐段檢測的，比較智能。

檢測後再做局部修改就基本上大功告成了，我最後在網上用知網查是4%，簡單修改後，在學校查是1.5%。

注意：記住，最忌諱的是為了查重，把論文語句改得語句不通、毫無邏輯，這樣是逃不過老師的，哈哈，大家加油！知網係統計算標準詳細說明： 1.看了一下這個係統的介紹，有個疑問，這套係統對於文字複製鑒別還是不錯的，但對於其他方麵的內容呢，比如數據，圖表，能檢出來嗎？檢不出來的話不還是沒什麼用嗎？學術不端的各種行為中，文字複製是最為普遍和嚴重的，目前本檢測係統對文字複製的檢測已經達到相當高的水平，對於圖表、公式、數據的抄襲和篡改等行為的檢測，目前正在研發當中，且取得了比較大的進展，歡迎各位繼續關注本檢測係統的進展並多提批評性及建設性意見和建議。

2.按照這個係統39%以下的都是顯示黃色，那麼是否意味著在可容忍的限度內呢？最近看到對上海大學某教師的國家社科基金課題被撤消的消息，原因是其發表的兩篇論文有抄襲行為，分別占到25%和30%. 請明示超過多少算是警戒線？百分比隻是描述檢測文獻中重合文字所占的比例大小程度，並不是指該文獻的抄襲嚴重程度。

隻能這麼說，百分比越大，重合字數越多，存在抄襲的可能性越大。

是否屬於抄襲及抄襲的嚴重程度需由專家審查後決定。

3.如何防止學位論文學術不端行為檢測係統成為個人報複的平台？這也是我們在認真考慮的事情，目前這套檢測係統還隻是在機構一級用戶使用。

我們製定了一套嚴格的管理流程。

同時，在技術上，我們也采取了多種手段來最大可能的防止惡意行為，包括一係列嚴格的身份認證，日誌記錄等。

4.最小檢測單位是句子，那麼在每句話裏改動一兩個字就檢測不出來了麼？我們對句子也有相應的處理，有一個句子相似性的算法。

並不是句子完全一樣才判斷為相同。

句子有句子級的相似算法，段落有段落級的相似算法，計算一篇文獻，一段話是否與其他文獻文字相似，是在此基礎上綜合得出的。

5.如果是從相關書籍上摘下來的原話，但是此話已經被數據庫中的相關文獻也抄了進去，也就是說前麵的文章也從相關書籍上摘了相同的話，但是我的論文中標注的這段話來自相關的書籍，這個算不算學術抄襲？檢測係統不下結論，是不是抄襲最後還有人工審查這一關，所以，如果是您描述的這種情況，專家會有相應判斷。

我們的係統隻是提供各種線索和依據，讓人能夠快速掌握檢測文獻的信息。

6.知網檢測係統的權威性？學術不端文獻檢測係統並不下結論，即檢測係統並不對檢測文獻定性，隻是將檢測文獻中與其他已發表文獻中的雷同部分陳列出來，列出客觀事實，而這篇檢測文獻是否屬於學術不端，需專家做最後的審查確認。

關於知網相關抽查規定：有規定的，可以進行第一次修改，修改之後通過就可以答辯，如果第二次不通過就算結業，在之後4個月內還要交論文或者設計的。