用去噪法清洗檢索結果

在日常的檢索分析中,大家經(jīng)常會在檢索結果中遇到很多不相關的文件。正是因為檢索結果中存在很多問題,所以檢索結果不能直接用于分析,需要對檢索結果進行清理和處理,通過對修改后的結果進行分析,使得分析更加準確。常用的清洗方法有四種:去噪法、去重法、標準化法和分度法。
去噪法,即排除不相關的文獻,提高分析樣本的純度,可以通過人工的方式單篇去噪,也可以尋找到噪音源設備進行快速的批量去噪。
1.人工和批量去噪。
數(shù)據(jù)清洗一般先去噪,通過人工和批量相結合,先批量后人工。
根據(jù)申請日期等篩選出相關文獻并進行排序,使噪聲源隨機分布。瀏覽過濾后的文獻,瀏覽過程采用表格視圖和圖形視圖相結合的方式,確定噪聲源,修改檢索類型。
“噪聲關鍵字”可以通過人工閱讀識別,也可以通過文本聚類識別。
2.文本聚類去噪。
3D專利地圖和專利數(shù)據(jù)庫Insights都涉及文本聚類,只是聚類方法略有不同。將上述檢索結果保存到工作區(qū),找到噪聲文獻后再進行邏輯運算,實現(xiàn)去噪。
(1)3D專利地圖方式。
3D專利地圖的文本聚類,是將語義結構相似度較高的專利文獻聚集在一起,根據(jù)聚類后的專利標題、摘要、權利要求中的關鍵詞作為標簽進行展示,地圖上的高峰低谷代表了文獻量的多少。
在專利地圖上檢索噪音關鍵字,查看相關文獻,并將噪音文獻保存在工作區(qū)文件夾中。同時,對檢索結果的文件夾進行邏輯計算,以消除文獻噪聲。
(2)英策方式。
英策的文本聚類,是將該技術領域內(nèi)最熱門的技術主題詞聚集在一起,提取了該技術領域中最近5,000條專利標題和摘要中最常見的關鍵詞進行展示,詞匯的大小代表了相關文獻的數(shù)量。
在英策的技術全景報告--創(chuàng)新詞云中尋找到噪音關鍵詞,查看相關文獻,并將噪音文獻保存在工作區(qū)文件夾中。同時,對檢索結果的文件夾進行邏輯計算,以消除文獻噪聲。



