關鍵詞:主題語義標注 概率主題模型 隱含狄利克雷分布
摘要:【目的】對面向主題模型的主題自動語義標注方法進行總結與評述,以促進主題模型的發展與應用。【文獻范圍】在Web of Science和CNKI數據庫中分別以“Topic Labeling OR Topic Labelling OR Topic Tagging ORTopicIndexing”和“主題模型AND(標注OR標簽)”等檢索式進行檢索,通過手工篩選獲得代表性文獻57篇?!痉椒ā繉ο嚓P論文進行深入閱讀與分析,以主題標注過程中主題標簽的生成來源為線索,對已有方法進行分類與比較分析。【結果】面向主題模型的主題自動語義標注包括候選標簽生成與排序兩個主要步驟,根據候選標簽的生成來源可分為依靠自身語料庫和依靠外部語料庫兩類方法?!揪窒蕖磕壳霸擃I域的研究還不是很豐富,分析與評述不夠系統和全面。【結論】該領域的研究仍具有較大探索空間,面向社交媒體內容的主題語義標注是未來研究方向,可結合更豐富的知識庫并采用深度學習技術進行改進提升。
數據分析與知識發現雜志要求:
{1}所有作者的作者簡介(姓名、工作單位、職稱、研究方向);通訊作者請再提供電子郵箱。
{2}稿件文責自負。編輯部有權對來稿進行文字和技術性刪改,對實質性內容的修改,則應征求作者同意。
{3}標題序號:可按四級小標題的格式寫:一、(一)、1、(1);一級、二級標題另起段,正文另起段;三級、四級小標題另起段,但正文接排;正文內序號用①……②……等。
{4}參考文獻:(1)正文格式:作者,發表年(多版次文獻請同時提供第 1 版的發表時間),頁碼,外加圓括號。(2)文末格式:中、外文獻分開,各按音序排列。
{5}摘要應反映論文的目的、方法及主要結果、結論,并充分反映論文的創新點,表達簡明、語義確切,以100 ~300 字為宜。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社