關鍵詞:文本分類 詞向量 卷積神經網絡 主題模型
摘要:【目的】更加全面地提取文本語義特征,提高文本向量對文本語義的表示能力。【方法】通過卷積神經網絡提取詞粒度、主題粒度和字粒度文本特征向量,通過“融合門”機制將三種特征向量融合得到最終的文本向量,并進行文本分類實驗。【結果】該模型在搜狗語料庫文本分類實驗上的準確率為92.56%,查準率為92.33%,查全率為92.07%,F1值為92.20%,較基準模型Text-CNN分別提高2.40%,2.05%,1.77%,1.91%。【局限】詞序關系范圍較小,語料庫規模較小。【結論】該模型可以更加全面地提取文本語義特征,得到的文本向量對文本語義表示能力更強。
數據分析與知識發現雜志要求:
{1}所有作者的作者簡介(姓名、工作單位、職稱、研究方向);通訊作者請再提供電子郵箱。
{2}稿件文責自負。編輯部有權對來稿進行文字和技術性刪改,對實質性內容的修改,則應征求作者同意。
{3}標題序號:可按四級小標題的格式寫:一、(一)、1、(1);一級、二級標題另起段,正文另起段;三級、四級小標題另起段,但正文接排;正文內序號用①……②……等。
{4}參考文獻:(1)正文格式:作者,發表年(多版次文獻請同時提供第 1 版的發表時間),頁碼,外加圓括號。(2)文末格式:中、外文獻分開,各按音序排列。
{5}摘要應反映論文的目的、方法及主要結果、結論,并充分反映論文的創新點,表達簡明、語義確切,以100 ~300 字為宜。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社