基于結巴分詞的詞頻統計·簡單專業
導語
大眾對文本分詞的需求日益增多,讓NLP技術的日益成熟,基于開源分詞方案實現的分詞工具也越來越多,最普遍看到的就是基于結巴分詞庫做出的分詞器了
我抓取了來自幾個權威技術站關于結巴分詞方案的講解,本次推薦一款基于結巴分詞開發的分詞器,讓不懂技術的用戶也可以輕松實現分詞詞頻統計,保證專業精準!
權威網站上關于結巴分詞講解
1.github上的一篇關于結巴分詞的詳細講解
https://github.com/fxsjy/jieba

2.騰訊云關于初級者的結巴分詞講解
https://cloud.tencent.com/developer/article/1411082

需求描述
有需求的用戶都知道分詞的重要性,可以說是文本挖掘的基礎,主要用于自然語言處理、分詞搜索、大數據智能推薦等,那么分詞精準度和數據過濾詞性標注都是分詞非常重要的核心功能
繞了這么大的一個彎子,那么小白群體到底應該如何實現分詞詞頻統計分析呢?
分詞工具
我們大可以放心的借助分詞工具來實現,微詞云工具是基于結巴分詞庫進行實現的分詞詞頻統計,擁有專業的分詞技術,獲得很多數據人和學術研究者的青睞!
分詞工具·微詞云詞頻統計工具
地址:http://m.kaiyuehotel.com.cn/
微詞云分詞功能包括:文本分詞詞頻統計、關鍵詞過濾、自定義詞典、生成詞云圖可視化效果!

分詞與詞頻統計操作方法
基本上簡單三個步驟就可以實現文本的詞頻統計,首先我們打開微詞云后,進入編輯器頁面,左側那一列是功能模塊
導入文本內容
點擊左側的內容功能列表,我們會看到【導入單詞】入口,選擇「分詞篩詞后導入」,把要分詞的文本復制進去就行,微詞云目前不支持txt/excel導入格式,所以需要手動復制下文本粘貼到文本輸入框中,一次最大導入文本是20M。
如果不夠用,可以選擇多次導入方法。

自定義詞典
因每個行業的適合的詞典不一樣,很可能你需要的關鍵詞未被分出來,例如你是美妝行業,總是把粉底很好用,分成“粉底”和“好用”,這是一個很頭痛的問題
特別是現在新興行業的詞典庫還沒有建立起來時,更需要一個“自定義詞典”解決分出的詞不準的問題。
所以微詞云增加了自定義詞典的功能,希望能解決一部分這個問題;不希望被分來的關鍵詞輸入到自定義詞典中,格式需要額外的注意下;并且建議你一定保留好自己的自定義文本,因為微詞云沒有存儲用戶自定義的功能。未來會增加詞典修改與保存的功能。

過濾關鍵詞
自定義完自己的詞典后,我們會看到底部有幾個過濾關鍵詞的選項,如“去掉單子”,“去掉未知詞”和“只返回高頻詞”
我解釋下這是什么意思(1)“去掉單子”,就是分詞中一個字的關鍵詞會被過濾掉;(2)“去掉未知詞”,就是不在詞典中的詞會被過濾掉;(3)“只返回高頻詞”,低頻詞被過濾掉,1M文本中之返回前500個關鍵高頻詞,那么點擊取消“只返回高頻詞”,會得到最大的關鍵詞取量。
大家根據對文本過濾的需求來決定如何勾選篩詞選項;緊接著點擊右下角的【開始分詞】,我們進入詞性篩詞頁面,想要留下來的詞選擇對勾選上就行了。

下載詞頻統計結果
過濾好關鍵詞后,可以點擊頂部的下載分詞結果就行了。
如果想做一成詞頻圖,可以點擊右下角的【確定使用所選的單詞】就可以進入詞云圖編輯頁面了

常遇到的分詞問題
1.詞頻統計不準:文本中某個關鍵詞出現的次數與微詞云分詞中的提取關鍵詞詞頻數對不上,例如”發展“這詞,在原文本中出現260次,但是微詞云中“發展”只有256次,一般是因為發展與其他的詞組新的關鍵詞了,例如發展性,發展行業等等,所以在核實數據準確性時,還要查看這個詞的相關詞有哪些
2.下載分詞結果,過濾掉的詞仍顯示:微詞云分詞結果下載后,把全部的數據都下載了,并提供了詞頻占比和詞性關鍵詞表,并對過濾掉的詞標記勾選位置為“否”,保留的詞勾選標記為“是”,所以大家可以一鍵篩選“是”的詞就是您保留下來的詞了。
我們盡可能的保留用戶的所有分詞數據以備不時之需。
利用結巴分詞方案的成型工具做分詞詞頻統計的操作就到這里。不管懂技術也好,不懂技術也好,可以利用一款專業的分詞工具,節省更多的工作時間,高效的做文本分析,早下班,多休息!