Python使用K-means实现文本聚类 python文本聚类例子
csdh11 2024-12-22 14:58 2 浏览
前言
最近遇到了这样一个需求,将N个文本内容聚类成若干个主题词团,减少人工分析文本和分类文本呢的工作量。
实现思路是使用 K-means算法通过高频词对文本内容进行聚类,K-means算法实现原理简单易于理解,缺点是词与词之间的顺序性和相互关系不能在分类中得到体现。实现步骤如下:
- 使用 jieba对文本内容进行分词处理;
- 去掉停用词;
- 使用 TF-IDF算法将上一步过滤后的分词列表转换成矩阵形式;
- 使用 K-means聚类算法对矩阵计算相似性;
- 获取每个聚类的主题词/词团;
准备样本
周杰伦的30首歌曲的歌词金句作为我们聚类样本的内容,保存到 sourceData/周杰伦.txt 文本中。
分词
使用 python的 pip安装结巴分词组件
pip install jieba
定义一个函数方法,读取 周杰伦.txt文件,并对文件内容的每一行文本做分词处理。
import jieba
def get_jiebaword():
try:
with open('sourceData/周杰伦.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
jiebaword = []
for line in lines:
line = line.strip('\n')
# 清除多余的空格
line = "".join(line.split())
# 默认精确模式
seg_list = jieba.cut(line, cut_all=False)
word = "/".join(seg_list)
jiebaword.append(word)
return jiebaword
分词后的文本列表,打印出来如图所示:
停用词
停用词是一些没有具体含义但在文本中经常会出现的词语,例如“的”、“是”、“许多”、“不仅”等。
中文停用词我们可以去网上下载,地址如下:
https://gitcode.com/open-source-toolkit/63e0e/overview?utm_source=highlight_word_gitcode&word=停用词表&isLogin=1
下载后的停用词在一个 hit_stopwords.txt 文件中,如图所示:
停用词不只是只有文字,也包括一些标点符号。
定义一个函数方法读取停用词。
def get_stopword():
stopword = []
try:
with open('sourceData/hit_stopwords.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
for line in lines:
line = line.strip('\n')
stopword.append(line)
return stopword
定义一个函数方法从样本分词列表中过滤掉停用词,过滤后的结果保存到 CleanWords.txt 文件中。
def clean_stopword(jiebaword, stopword):
fw = open('resultData/周杰伦/CleanWords.txt', 'a+', encoding='utf-8')
for words in jiebaword:
words = words.split('/')
for word in words:
if word not in stopword:
fw.write(word + '\t')
fw.write('\n')
fw.close()
CleanWords.txt 文件如图所示。
如果发现CleanWords.txt 文件中还有一些词语会影响聚类的效果,可以使用如下语句添加停用词。
for i in range(30):
stopword.append(str(i+1))
stopword.append('一路')
stopword.append('向北')
TF-IDF算法
为了让计算机能够理解词语的相似度,我们可以将文本格式的数据转换成矩阵类型的数据, TF-IDF矩阵在这方面是应用最为广泛的。
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种在信息检索和文本挖掘领域广泛使用的统计方法,用于评估一个词在文档或语料库中的重要程度。
- TF 词频,表示某个词在文档中出现的频率。词频反映了词语在文档中的重要性,出现次数越多,TF值越高。计算公式:
- IDF 逆文档频率,表示某个词在整个文档集合中的稀有程度。逆文档频率反映了词语在整个文档集合中的普遍性,出现次数越多的词,IDF值越低;反之,则越高。计算公式:
包含词t的文档书 +1 是为了防止除以 0 导致溢出。
总结一下 TF-IDF , TF 表示相同的词在两篇文章中出现的频次越高,两篇文章越相似; IDF 表示某个词在所有文本中出现次数较少,只在某两篇文章中出现几次,则该两篇文章具有较高相似度。
scikit-learn 已经实现了 TF-IDF 算法,我们首先要安装scikit-learn 组件。
pip install scikit-learn
使用python 实现,定义一个函数方法生成 TF-IDF 矩阵。
from sklearn.feature_extraction.text import TfidfVectorizer
def get_tfidf():
try:
with open('resultData/周杰伦/CleanWords.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
transformer = TfidfVectorizer()
tfidf = transformer.fit_transform(lines)
# 转为数组形式
tfidf_arr = tfidf.toarray()
return tfidf_arr
打印输出的矩阵,如下图所示:
这个矩阵的形状是 30 * 217 ,它表示 217 个分词在 30 个文本中的 TF-IDF 值,值为0表示在此文章中没有出现过。由于打印的不是完整的矩阵,所以上图中的矩阵没有将非0的值显示出来。
K-means聚类
K-Means 聚类是一种常用的无监督学习算法,用于将数据集分成K个簇(cluster),使得簇内的数据点彼此之间尽可能相似,而簇间的数据点尽可能不同。 K-Means 算法的目标是最小化簇内数据点到簇中心的距离之和。
我们需要使用 nltk 组件调用 K-Means 算法。
pip install nltk
定义一个函数方法,获取K-Means 聚类。
from nltk.cluster import KMeansClusterer, cosine_distance
import pandas as pd
def get_cluster(tfidf_arr, k):
kmeans = KMeansClusterer(num_means=k, distance=cosine_distance, avoid_empty_clusters=True) # 分成k类,使用余弦相似分析
kmeans.cluster(tfidf_arr)
# 获取分类
kinds = pd.Series([kmeans.classify(i) for i in tfidf_arr])
fw = open('resultData/周杰伦/ClusterText.txt', 'a+', encoding='utf-8')
for i, v in kinds.items():
fw.write(str(i) + '\t' + str(v) + '\n')
fw.close()
聚类结果保存在 ClusterText.txt 文件中,结果如图所示:
图中有两列数字,第一列数字是从0到29按顺序排列的数字,表示30个文本的序号。第二列数字表示5个聚类的序号 0~4。
获取主题词
前面几步已经得到了对周杰伦歌词的聚类索引,但是我们并不清楚这些聚类索引代表什么含义,所以我们可以将这5个聚类里词频最高的几个词给提取出来。
定义一个函数方法,获取分类文档。
def cluster_text(text_cnt):
index_cluser = []
try:
with open('resultData/周杰伦/ClusterText.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
for line in lines:
line = line.strip('\n')
line = line.split('\t')
index_cluser.append(line)
# index_cluser[i][j]表示第i行第j列
try:
with open('resultData/周杰伦/CleanWords.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
for index, line in enumerate(lines):
for i in range(text_cnt):
if str(index) == index_cluser[i][0]:
fw = open('resultData/周杰伦/cluster' + index_cluser[i][1] + '.txt', 'a+', encoding='utf-8')
fw.write(line)
fw.close()
将30个歌词文本的聚类结果分别放入5个文件中。
其中一个cluster文件结果如下:
得到以上分类文档以后,再分别统计各个聚类中频次最高的几个词,定义一个函数方法,代码如下:
from collections import Counter
def get_title(cluster, top_n=5):
fw = open('resultData/周杰伦/title.txt', 'a+', encoding='utf-8')
for i in range(cluster):
try:
with open('resultData/周杰伦/cluster' + str(i) + '.txt', "r", encoding='utf-8') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("找不到此文件")
all_words = []
for line in lines:
line = line.strip('\n')
line = line.split('\t')
for word in line:
all_words.append(word)
c = Counter()
for x in all_words:
if len(x) > 1 and x != '\r\n':
c[x] += 1
print('主题' + str(i) + '----------------------------------------------------\n词频统计结果:\n')
fw.write('主题' + str(i) + '----------------------------------------------------\n词频统计结果:\n')
# 输出词频最高的那个词,也可以输出多个高频词
for (k, v) in c.most_common(top_n):
print(k, ':', v, '\n')
fw.write(k + ':' + str(v) + '\n')
fw.write('\n')
fw.close()
执行结果保存在 title.txt 文件中,我这里参数 top_n 是传的3,表示获取3个主题词,效果如图所示:
因为样本做的比较少,所以词频统计的数量不多,所以代表性也不是很强。另一个原因是 K-means 算法是一种无监督算法,一开始要定义好聚类的数量,算法根据聚类的数量随机选取聚类中心点,中心点选的不准会极大影响聚类结果的准确度。所以可以定义不同的聚类数量多计算几次,直到满意为止。
主流程方法
主流程 main 方法基本是调用上文中列表的所有函数方法,按步骤开始执行。
此外,还定义了一个 delete_files_in_directory 函数用来在生成聚类结果之前先删除上一次生成的结果,否则生成的结果txt文件会叠加上一次的结果。
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.cluster import KMeansClusterer, cosine_distance
import pandas as pd
from collections import Counter
import os
def delete_files_in_directory(directory):
if not os.path.exists(directory):
os.mkdir(directory)
return
# 遍历目录中的所有文件
for filename in os.listdir(directory):
file_path = os.path.join(directory, filename)
# 检查路径是否为文件(而非子目录等)
if os.path.isfile(file_path):
# 删除文件
os.remove(file_path)
if __name__ == '__main__':
# 定义聚类的个数
cluster = 5
# 定义主题词个数
top_n = 3
# 删除上一次的结果数据
delete_files_in_directory('resultData/周杰伦')
# 结巴分词
jiebaword = get_jiebaword()
# 获取停用词
stopword = get_stopword()
# ---停用词补充,视具体情况而定---
for i in range(30):
stopword.append(str(i+1))
stopword.append('一路')
stopword.append('向北')
# ----------------------
# 去除停用词
clean_stopword(jiebaword, stopword)
# 获取tfidf矩阵
tfidf_arr = get_tfidf()
text_cnt = tfidf_arr.shape[0]
# ---输出测试---
# print(tfidf_arr)
# print(tfidf_arr.shape)
# -------------
# K-means聚类
get_cluster(tfidf_arr, cluster)
# 获取分类文件
cluster_text(text_cnt)
# 统计出主题词
get_title(cluster, top_n)
相关推荐
- Micheal Nielsen's神经网络学习之二
-
依然是跟着MichaelNielsen的神经网络学习,基于前一篇的学习,已经大概明白了神经网络的基本结构和BP算法,也能通过神经网络训练数字识别功能,之后我试验了一下使用神经网络训练之前的文本分类,...
- CocoaPods + XCTest进行单元测试 c单元测试工具
-
在使用XCTest进行单元测试时,我们经常会遇到一些CocoaPods中的开源框架的调用,比如“Realm”或“Alamofire”在测试的时候,如果配置不当,会导致“frameworknotfo...
- Java基础知识回顾第四篇 java基础讲解
-
1、&和&&的区别作为逻辑运算符:&(不管左边是什么,右边都参与运算),&&(如果左边为false,右边则不参与运算,短路)另外&可作为位运算符...
- 项目中的流程及类似业务的设计模式总结
-
说到业务流程,可能是我做过的项目中涉及业务最多的一个方面了。除了在流程设计之外,在一些考核系统、产业审批、还有很多地方,都用到相似的设计思路,在此一并总结一下。再说到模式,并不是因为流行才用这个词,而...
- 联想三款显示器首批获得 Eyesafe Certified 2.0 认证
-
IT之家7月31日消息,据外媒报道,三款全新联想显示器是全球首批满足EyesafeCertified2.0的设备。据报道,联想获得EyesafeCertified2.0认证的显...
- maven的生命周期,插件介绍(二) 一个典型的maven构建生命周期
-
1.maven生命周期一个完整的项目构建过程通常包括清理、编译、测试、打包、集成测试、验证、部署等步骤,Maven从中抽取了一套完善的、易扩展的生命周期。Maven的生命周期是抽象的,其中的具体任务都...
- 多线程(3)-基于Object的线程等待与唤醒
-
概述在使用synchronized进行线程同步中介绍了依赖对象锁定线程,本篇文章介绍如何依赖对象协调线程。同synchronized悲观锁一样,线程本身不能等待与唤醒,也是需要对象才能完成等待与唤醒的...
- jquery mobile + 百度地图 + phonegap 写的一个"校园助手"的app
-
1jquerymobile+百度地图+phonegap写的一个"校园助手"的app,使用的是基于Flat-UI的jQueryMobile,请参考:https://github.com/...
- Apache 服务启动不了 apache系统服务启动不了
-
{我是新手,从未遇到此问题,请各位大大勿喷}事由:今天早上上班突然发现公司网站出现问题。经过排查,发现是Apache出现问题。首先检查配置文件没有出问题后,启动服务发现Apache服务能启动,但是没法...
- 健康债和技术债都不能欠 公众号: 我是攻城师(woshigcs)
-
在Solr4.4之后,Solr提供了SolrCloud分布式集群的模式,它带来的主要好处是:(1)大数据量下更高的性能(2)更好扩展性(3)更高的可靠性(4)更简单易用什么时候应该使用Sol...
- Eye Experience怎么用?HTC告诉你 eyebeam怎么用
-
IT之家(www.ithome.com):EyeExperience怎么用?HTC告诉你HTC上周除了发布HTCDesireEYE自拍机和HTCRE管状运动相机之外,还发布了一系列新的智能手机...
- Android系统应用隐藏和应用禁止卸载
-
1、应用隐藏与禁用Android设置中的应用管理器提供了一个功能,就是【应用停用】功能,这是针对某些系统应用的。当应用停用之后,应用的图标会被隐藏,但apk还是存在,不会删除,核心接口就是Packag...
- 计算机软件技术分享--赠人玫瑰,手遗余香
-
一、Netty介绍Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。也就是说,Netty...
- Gecco爬虫框架的线程和队列模型 爬虫通用框架
-
简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是g...
- 一点感悟(一) 初识 初读感知的意思
-
时间过得很快,在IT业已从业了两年多。人这一辈子到底需要什么,在路边看着人来人往,大部分人脸上都是很匆忙。上海真是一个魔都,它有魅力,有底蕴,但是一个外地人在这里扎根置业,真的是举全家之力,还贷3...
- 一周热门
-
-
Boston Dynamics Founder to Attend the 2024 T-EDGE Conference
-
IDC机房服务器托管可提供的服务
-
详解PostgreSQL 如何获取当前日期时间
-
新版腾讯QQ更新Windows 9.9.7、Mac 6.9.25、Linux 3.2.5版本
-
一文看懂mysql时间函数now()、current_timestamp() 和sysdate()
-
流星蝴蝶剑:76邵氏精华版,强化了流星,消失了蝴蝶
-
PhotoShop通道
-
查看 CAD文件,电脑上又没装AutoCAD?这款CAD快速看图工具能帮你
-
WildBit Viewer 6.13 快速的图像查看器,具有幻灯片播放和编辑功能
-
光与灯具的专业术语 你知多少?
-
- 最近发表
-
- Micheal Nielsen's神经网络学习之二
- CocoaPods + XCTest进行单元测试 c单元测试工具
- Java基础知识回顾第四篇 java基础讲解
- 项目中的流程及类似业务的设计模式总结
- 联想三款显示器首批获得 Eyesafe Certified 2.0 认证
- maven的生命周期,插件介绍(二) 一个典型的maven构建生命周期
- 多线程(3)-基于Object的线程等待与唤醒
- jquery mobile + 百度地图 + phonegap 写的一个"校园助手"的app
- Apache 服务启动不了 apache系统服务启动不了
- 健康债和技术债都不能欠 公众号: 我是攻城师(woshigcs)
- 标签列表
-
- serv-u 破解版 (19)
- huaweiupdateextractor (27)
- thinkphp6下载 (25)
- mysql 时间索引 (31)
- mydisktest_v298 (34)
- sql 日期比较 (26)
- document.appendchild (35)
- 头像打包下载 (61)
- oppoa5专用解锁工具包 (23)
- acmecadconverter_8.52绿色版 (39)
- oracle timestamp比较大小 (28)
- f12019破解 (20)
- np++ (18)
- 魔兽模型 (18)
- java面试宝典2019pdf (17)
- beamoff下载 (17)
- unity shader入门精要pdf (22)
- word文档批量处理大师破解版 (36)
- pk10牛牛 (22)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- 加密与解密第四版pdf (30)
- pcm文件下载 (23)
- jemeter官网 (31)
- iteye (18)