中文分詞詞頻統(tǒng)計與分析指南【全版】
詞頻統(tǒng)計與分析簡單三步即可
- 上傳文本數(shù)據(jù)
- 詞頻詞性篩詞
- 生成文本分析數(shù)據(jù)與可視化

那么接下來我會對每個步驟詳細的解說,在這里您可以找到所有問題的答案,最全的詞頻統(tǒng)計與分析使用教程了!
01.
如何導入文本
這一步我們主要“導入文本數(shù)據(jù)”與進行基礎的“數(shù)據(jù)過濾”配置以及“導入詞典”,讓分詞結(jié)果更有意義更精準。
1、文本導入格式與方法
打開在線分詞地址:中文分詞統(tǒng)計分析
點擊左側(cè)頂部的「從文本中導入內(nèi)容」就可以了

這里支持excel和txt兩種導入格式,也支持文本內(nèi)容復制粘貼導入方法
我們更推薦txt純文本導入方式
1)導入文本支持大小
每次最大支持10Mtxt純文本導入,大概1千萬字節(jié),大概500萬中文。
每次免費用戶最大支持1M純文本導入,大概1百萬字節(jié),大概50萬中文。
超標的文本詞頻統(tǒng)計,可找我們的客服小姐姐“文本定制”,會員用戶還有贈送。
2)導入的txt文本出現(xiàn)亂碼怎么辦?
一般這種情況的發(fā)生,可能在格式轉(zhuǎn)換過程出現(xiàn)的問題,在這里你可以使用這個亂碼轉(zhuǎn)換器來處理這個問題
亂碼轉(zhuǎn)換器體驗地址

操作步驟
- 選擇文本
- 點擊左側(cè)“復制”或者點擊“導出UTF-8文件”
2、文本過濾與配置
文本上傳成功后,請留步,看下這里的文本過濾和配置功能吧,對接下來的文本分詞篩詞絕對有影響。
主要影響單詞分詞長度、詞頻量、分詞量和分詞結(jié)果顯示等數(shù)據(jù)。
1)計算單詞相關(guān)性
解釋: 是一種共詞分析方法,研究分析關(guān)鍵詞之間的親疏遠近關(guān)系,還支持查看單詞所在數(shù)據(jù)的位置。
影響: 勾選了計算單詞相關(guān)性,您可以查看和下載Top20共詞網(wǎng)絡關(guān)系圖、單詞之間的共詞數(shù)據(jù)、關(guān)系詞云圖
所在位置: 在頂部的左側(cè)位置
注意: 計算單詞相關(guān)性是會員功能。

2)單詞長度篩選
如果你只想保留單詞長度為2及以上的,那么“單詞長度”就是輸入2就可,如果還想保留單詞長度為1及以上的,可以輸入1就行
其他的單詞長度配置同理。
所在位置:在頂部的便左位置

3)詞頻數(shù)過濾
如果您想過濾低頻詞,那么“詞頻”框就輸入對應的數(shù)值就行,例如只保留詞頻大于10的高頻詞,那么數(shù)值就輸入10就行了
所在位置:在頂部的中間位置

4)單詞提取量最大與最小
如果您想盡可能的保留文本的所有分詞結(jié)果,那么您就配置選擇返回所有單詞
如果您只想保留高頻詞那么提取前500個詞就夠了
注意:單詞提取量只有前200和500是免費的,其他的配置是會員功能。

5)分出關(guān)心詞與自定義詞典
我們經(jīng)常遇到,分詞結(jié)果被分開的現(xiàn)象,例如新時代,被分成新和時代兩個詞了,那么自定義詞典就是解決用戶“想分出來的詞”系統(tǒng)卻“沒有給分來”的問題。
那么您可以在自定義詞典中輸入或者導入您已經(jīng)準備好的詞典詞就行了。
注意: 自定義詞典免費用戶可體驗前5個詞。

6)進入詞頻統(tǒng)計頁面
點擊左側(cè)【下一步】我們就可以進入到詞頻統(tǒng)計篩詞頁面,內(nèi)容導入與配置就完成了。
02.
詞頻詞性篩詞
這一步非常關(guān)鍵,是生成報告數(shù)據(jù)與可視化重要的一步。主要就是選詞。
左側(cè)是詞性詞頻表,右側(cè)是詞頻從高到低的詞頻表,左側(cè)底部是詞頻過濾表。

1、詞性篩詞
我們可以點擊關(guān)心的詞性,進行單獨的篩選單詞,也可以勾選關(guān)心的詞性,全部選擇該詞性下的所有詞頻
希望選擇所有詞頻:點擊詞性列表上面的「選擇所有」就行了,只要把所有詞性都勾選了,所有詞頻就會勾選。
但是單詞量很大時,生成報告會很卡,特別是查看相關(guān)性時,大家可以額外注意下。

2、詞頻篩詞
右側(cè)是有詞頻高到低展示關(guān)鍵詞,此處是讓大家看下哪些關(guān)鍵詞被選中了,同時也是大家粗略篩選和過濾一些自己不需要的詞

3、搜索關(guān)心詞篩詞
右上角有個搜索框,可以輸入自己關(guān)心的詞,迷糊查詢,會查詢到所有包含這個詞的所有關(guān)鍵詞
可以點擊勾選需要的詞
并且可以點擊下載關(guān)心詞的詞頻表

4、詞頻數(shù)過濾
左下角有個詞頻數(shù)過濾功能,可以輸入過濾的詞頻數(shù),并點擊提交即可。

5、下載詞頻統(tǒng)計結(jié)果
在頂部的右側(cè)上面會有「下載分詞結(jié)果」
最好提前下載詞頻統(tǒng)計結(jié)果數(shù)據(jù),因為不同的電腦性能,可能會在第三步生成報告時存在卡頓現(xiàn)象,以防數(shù)據(jù)丟失

03.
生成文本分析數(shù)據(jù)與可視化
1、數(shù)據(jù)報告頁面必知道的幾個隱藏功能
1)下載功能圖標
頁面上箭頭向下的圖標都是下載功能按鈕,可以在對應的可視化和數(shù)據(jù)頁面中進行點擊下載即可

2)編輯功能圖標
三條橫杠的圖標是此處可視化圖可進行編輯的意思,并且點擊這個圖標就會彈出配置的功能

3)如何查看單詞相關(guān)性
點擊報告中任意詞頻關(guān)鍵詞都可以進入到單詞相關(guān)性頁面
4)詞性與詞頻如何創(chuàng)建更多詞云圖
很多的詞頻表和詞云圖旁都有「創(chuàng)建詞云圖」的文字提示,點擊它會進入到詞云圖編輯器中,可以生成更多亮眼的詞云圖哦!
關(guān)于詞云圖設計可參考詞云圖生成指

2、文本統(tǒng)計信息
- 文本大小:以txt為準的純文本大小
- 字數(shù):文本的內(nèi)容字數(shù)總量
- 分詞單詞總數(shù):文本分詞詞頻統(tǒng)計后不重復的單詞總量
- 篩詞總數(shù):分詞后被保留下來的單詞量
- 選擇單詞數(shù):勾選單詞總量

3、詞性占比
解釋: 也就是說詞性之間的單詞量之比
下載可視化:這里直接可以點擊右側(cè)頂部的下載按鈕下載可視化效果圖
隱藏不關(guān)心的詞性:點擊頂部詞性顏色柱,就可取消餅狀圖對應的詞性占比

4、單詞相關(guān)性查看
解釋: 是對一個詞與其他詞統(tǒng)計他們在同句子中出現(xiàn)的次數(shù),以此對這些詞作基礎的共現(xiàn)分析,從而反映出現(xiàn)這些詞之間的親疏,遠近關(guān)系。
備注:單詞相關(guān)性的分析是會員功能,免費用戶可查看基礎的報告展示。

1)查看一個和多個單詞相關(guān)性
查看方法: 點擊右側(cè)詞頻列表中的任意高頻詞就能進入到單詞相關(guān)性頁面;報告中任意能點擊的單詞位置都可以進入到單詞相關(guān)性頁面
下載詞云圖: 可點擊右側(cè)下載按鈕,下載詞云圖
導出詞頻表: 點擊右側(cè)頂部的導出按鈕,可導出詞頻表
可查看最多三層關(guān)系: 我們可查看三個詞之間共同出現(xiàn)的詞頻表和數(shù)據(jù)所在的位置相關(guān)性數(shù)據(jù)
2)單詞“所在文本數(shù)據(jù)的位置”數(shù)據(jù)下載
在相關(guān)性頁面位置,我們會看到左側(cè)列表是單詞在數(shù)據(jù)中的位置,那么我們點擊左側(cè)頂部的下載按鈕,就可以成功下載數(shù)據(jù)了
這里的數(shù)據(jù)可幫助用戶分析單詞具體放入語境以及深度的關(guān)系分析。

5、詞頻表
在最左側(cè)的列表是詞頻表,我們下載詞頻表,也可以點擊查看單詞相關(guān)性

創(chuàng)建詞云圖: 可點擊右側(cè)頂部的「創(chuàng)建詞云圖」進入到詞云圖編輯器,可生成更多樣式的詞云圖
如果想生成更多關(guān)鍵詞的詞頻圖:點擊右側(cè)頂部的詞頻表的「創(chuàng)建詞云圖」,選擇「使用所有單詞」
關(guān)于詞云圖設計可參考詞云圖生成指
6、高頻詞云圖
在報告中見位置,就會看到高頻詞云圖,鼠標移動到單詞身上就會顯示詞頻數(shù)值,單詞顯示越大,表示詞頻越大

7、共詞網(wǎng)絡關(guān)系圖
1)解釋
共詞分析(Co-word Analysis)是一種較新的文獻計量學方法,其屬于內(nèi)容分析方法的一種。

2)原理
是對一-組詞兩兩統(tǒng)計它們在同一篇文獻中出現(xiàn)的次數(shù),以此為基礎對這些詞進行共現(xiàn)分析,從而反映出這些詞之間的“親疏”關(guān)系,進而分析這些詞所代表的學科或主題的結(jié)構(gòu)與變化。
3)可視化關(guān)系解讀
- 節(jié)點邊框越大,表明該詞影響程度越大

- 鼠標移動到某個詞位置處,可顯示該詞與哪些詞關(guān)系連線,以及該詞的詞頻

- 鼠標移動到兩個詞的連線位置,顯示的數(shù)值代表兩兩詞共同出現(xiàn)的次數(shù)

- 共同出現(xiàn)的次數(shù)越大,可以反應他們之間的親密關(guān)系。
5)生成
如果分析的文本較大時,不會主動顯示,可點擊「顯示關(guān)系圖」
因為網(wǎng)絡關(guān)系圖是遍歷算法,所以關(guān)系網(wǎng)絡會很多,計算會存在卡頓的現(xiàn)象,請耐心等待。

6)選詞
在右側(cè)的功能按鈕位置,可以刪除和增加關(guān)系的詞,進行生成關(guān)系網(wǎng)絡圖,建議詞不要太多,渲染關(guān)系圖時會卡頓
刪除詞:取消勾選當前頁面的詞就行
增加詞:在搜索框中輸入關(guān)心的詞,并點擊「查找」按鈕,點擊查找到的詞后,即可添加成功。
確定關(guān)鍵詞后,點擊右側(cè)「確定」按鈕

7)美化共詞網(wǎng)絡關(guān)系圖
具體說下如何美化下網(wǎng)絡關(guān)系圖,讓線條和關(guān)系網(wǎng)絡更清晰,我們可以修改主題、布局配置、改變顏色等。
步驟1: 點擊左側(cè)的“選擇主題”按鈕

步驟2: 選擇主題模版樣式,一個是引力布局,一個是環(huán)形布局
步驟3: 修改配置布局
(1)加權(quán)次數(shù),可控制關(guān)系圈的顯示大小,若關(guān)鍵詞沒有交叉或者顯示大小大的離譜的情況,可不考慮改變
(2)關(guān)系圈的最小尺寸,就是最小圈的顯示大小的意思,如果沒有使用加權(quán)值,可能無效。
(3)邊的曲度,就是關(guān)系線的展示的樣式而已,都可以點擊試試看,一般默認“正常”
(4)排斥力:如果使用的是環(huán)形主題,排斥力無效,近適合“引力布局”主題
(5)距離:就是關(guān)鍵詞之間的距離值
(6)節(jié)點形狀:就是關(guān)鍵詞外部輪廓形狀

步驟4: 自定義顏色
(1)節(jié)點顏色:關(guān)鍵詞外部輪廓的背景色
(2)節(jié)點邊框顏色:就是關(guān)鍵詞外部輪廓線的顏色
(3)節(jié)點的【文本顏色】:就是關(guān)鍵詞的顏色
(4)【連接線】的顏色:網(wǎng)絡關(guān)系線的顏色

備注: 如果我們使用的主題是引力布局,我個人覺得邊的曲度為“無”時,效果比較好看,并且有3D立體感

8、詞性高頻詞柱狀圖
詞性柱狀圖可視化我們增加了修改配置功能,如增加和刪除不想展示的詞,以及修改柱狀顏色,和正序還是倒序展示效果等配置功能

1)如何修改詞性柱狀圖展示的關(guān)鍵詞?
這里的功能可以解決“詞性分類不精準”問題,和剔除不關(guān)心的詞,人工的修正數(shù)據(jù),讓展示結(jié)果更準確。

取消關(guān)鍵詞: 點擊詞性柱狀圖的右側(cè)的「編輯圖標」,可以取消勾選某個關(guān)鍵詞
增加關(guān)鍵詞: 點擊詞性柱狀圖的右側(cè)的「編輯圖標」,把關(guān)心的詞輸入到文本框中點擊查找。
2)如何修改柱狀圖展示顏色
- 點擊詞性柱狀圖的右側(cè)的「編輯圖標」,我們就會看到顏色修改,
- 最右側(cè)中間的顏色框是可以自定義選擇顏色值的功能
- 選擇好顏色后,記得點擊右側(cè)底部的「確定」就行

3)如何修改柱正序還是倒序的狀態(tài)
- 點擊詞性柱狀圖的右側(cè)的「編輯圖標」,我們就會看到兩個選擇展示序列的方式按鈕
- 點擊正序或倒序
- 記得點擊右側(cè)底部的「確定」就行

4)創(chuàng)建詞性詞頻詞云圖
- 在每次詞性詞頻柱狀圖頂部都會看到「創(chuàng)建詞云圖」的文字提示
- 點擊它就可以進入到詞云圖生成器頁面
- 關(guān)于詞云圖設計可參考詞云圖生成指南
5)下載詞性柱狀圖可視化
在每次詞性詞頻柱狀圖頂部都會看到下載的圖標,點擊下載圖標即可下載