基于均值漂移算法的文本聚類數(shù)目優(yōu)化研究

趙華茗; 余麗; 中國科學(xué)院文獻(xiàn)情報(bào)中心; 北京100190

關(guān)鍵詞:均值漂移 文本聚類 聚類數(shù) 聚類有效性 

摘要:【目的】探索最佳文本聚類數(shù)目的優(yōu)化方法,為提升文本聚類算法的有效性和質(zhì)量提供參考?!痉椒ā拷Y(jié)合TF-IDF和Word2Vec算法,提取TopN關(guān)鍵詞向量作為語料庫文本特征表達(dá);結(jié)合均值漂移算法、聚類有效性指標(biāo)(Silhouette)和均方誤差(MSE)指標(biāo),確定最佳文本聚類數(shù)目?!窘Y(jié)果】Top 4 500關(guān)鍵詞向量規(guī)模能較好呈現(xiàn)文本特征;基于均值漂移算法確定的最佳文本聚類數(shù)與人工研判優(yōu)化的聚類數(shù)相符。【局限】選取的實(shí)驗(yàn)數(shù)據(jù)集合不夠充足,缺少在其他領(lǐng)域的應(yīng)用對比?!窘Y(jié)論】本文方法可以在無監(jiān)督方式下高質(zhì)量完成文本聚類個(gè)數(shù)的確定。

數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)雜志要求:

{1}所有作者的作者簡介(姓名、工作單位、職稱、研究方向);通訊作者請?jiān)偬峁╇娮余]箱。

{2}稿件文責(zé)自負(fù)。編輯部有權(quán)對來稿進(jìn)行文字和技術(shù)性刪改,對實(shí)質(zhì)性內(nèi)容的修改,則應(yīng)征求作者同意。

{3}標(biāo)題序號:可按四級小標(biāo)題的格式寫:一、(一)、1、(1);一級、二級標(biāo)題另起段,正文另起段;三級、四級小標(biāo)題另起段,但正文接排;正文內(nèi)序號用①……②……等。

{4}參考文獻(xiàn):(1)正文格式:作者,發(fā)表年(多版次文獻(xiàn)請同時(shí)提供第 1 版的發(fā)表時(shí)間),頁碼,外加圓括號。(2)文末格式:中、外文獻(xiàn)分開,各按音序排列。

{5}摘要應(yīng)反映論文的目的、方法及主要結(jié)果、結(jié)論,并充分反映論文的創(chuàng)新點(diǎn),表達(dá)簡明、語義確切,以100 ~300 字為宜。

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)

CSSCI南大期刊
1-3個(gè)月下單

關(guān)注 8人評論|1人關(guān)注
相關(guān)期刊
服務(wù)與支付
国产精品视频线观看26uuu,免费av网站在线观看,免费一级a四片久久精品网,国产成人无码精品久久久露脸
综合色 一区二区 | 在线观看亚洲午夜天堂 | 尤物视频在线国自产视频 | 亚洲国产精品久久一线北 | 欧美亚洲另类日韩在线网页 | 婷婷中文视频在线 |