中文文本分词:结巴分词的应用与实现
csdh11 2024-12-22 14:58 1 浏览
3.2 中文文本分割
本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式,否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现,其中模块用于处理字符串操作,re模块用于正则表达式处理。
具体实现代码如下:
--Jieba分词代码
处理完成后得到.txt、.txt两个txt文件,分别存储正反两部分语料切分的结果,切分结果截图如下:
分词结果截图
3.3 删除停用词
分词完成后,就可以读取停用词表中的停用词,并匹配分词后的正反面语料,去除停用词。去除停用词的步骤很简单,主要有两步:
具体实现代码如下:
--删除停用词代码
如代码所示,停用词表的获取采用了独特的广播形式,一行代码即可完成:
stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]
读出的每个停用词都要进行剥离,即w.strip(),因为读出的停用词中还含有换行符和制表符,不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。
由于去停用词这一步骤是在分句之后执行的,因此通常会与分句操作在同一个代码段中进行,即在分句操作完成后直接调用去停用词函数,得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件,以便于理解步骤,大家可以根据需要进行调整。
3.4 获取特征词向量
根据以上步骤,我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据,所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words(BOW)、TF-IDF等。本文采用词向量模型将语料转换成词向量。
由于特征词向量的提取是基于训练好的词向量模型,而Wiki中文语料库是公认的大型中文语料库,因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍,这里不再赘述。也就是说,本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。
获取特征词向量的主要步骤如下:
主要代码如下图所示:
--获取词向量代码
代码执行后得到一个.csv文件,第一列为类别对应的值(1-pos,0-neg),第二列及以下为数值向量,每行代表一条评论,结果部分截图如下:
词向量截图
3.5 降维
该模型设置为维度400进行训练,得到的词向量也是400维,本文采用PCA算法对结果进行降维,具体实现代码如下:
--PCA降维代码
运行代码,从结果图中我们可以看到,前100维已经能够很好的包含大部分原始数据,因此我们选取前100维作为模型的输入。
PCA维度解释结果图
4 分类模型构建
本文采用支持向量机(SVM)作为本次实验的中文文本分类模型,其他分类模型采用相同的分析过程,这里不再赘述。
支持向量机(SVM)是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法,通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说,ROC曲线面积(AUC)越大,模型性能越好。
首先采用SVM作为分类器算法,然后利用库构建ROC曲线,具体代码如下:
--SVM代码
运行代码,得到Test:0.88,即本次实验测试集的预测准确率为88%,ROC曲线如下图所示。
ROC曲线
至此,使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了,代码和数据已经上传到我的仓库,data文件夹里面有停用词列表.txt和2000个测试集,也可以使用其他分类模型进行分类,欢迎小伙伴们批评指正,共同学习!
相关推荐
- Micheal Nielsen's神经网络学习之二
-
依然是跟着MichaelNielsen的神经网络学习,基于前一篇的学习,已经大概明白了神经网络的基本结构和BP算法,也能通过神经网络训练数字识别功能,之后我试验了一下使用神经网络训练之前的文本分类,...
- CocoaPods + XCTest进行单元测试 c单元测试工具
-
在使用XCTest进行单元测试时,我们经常会遇到一些CocoaPods中的开源框架的调用,比如“Realm”或“Alamofire”在测试的时候,如果配置不当,会导致“frameworknotfo...
- Java基础知识回顾第四篇 java基础讲解
-
1、&和&&的区别作为逻辑运算符:&(不管左边是什么,右边都参与运算),&&(如果左边为false,右边则不参与运算,短路)另外&可作为位运算符...
- 项目中的流程及类似业务的设计模式总结
-
说到业务流程,可能是我做过的项目中涉及业务最多的一个方面了。除了在流程设计之外,在一些考核系统、产业审批、还有很多地方,都用到相似的设计思路,在此一并总结一下。再说到模式,并不是因为流行才用这个词,而...
- 联想三款显示器首批获得 Eyesafe Certified 2.0 认证
-
IT之家7月31日消息,据外媒报道,三款全新联想显示器是全球首批满足EyesafeCertified2.0的设备。据报道,联想获得EyesafeCertified2.0认证的显...
- maven的生命周期,插件介绍(二) 一个典型的maven构建生命周期
-
1.maven生命周期一个完整的项目构建过程通常包括清理、编译、测试、打包、集成测试、验证、部署等步骤,Maven从中抽取了一套完善的、易扩展的生命周期。Maven的生命周期是抽象的,其中的具体任务都...
- 多线程(3)-基于Object的线程等待与唤醒
-
概述在使用synchronized进行线程同步中介绍了依赖对象锁定线程,本篇文章介绍如何依赖对象协调线程。同synchronized悲观锁一样,线程本身不能等待与唤醒,也是需要对象才能完成等待与唤醒的...
- jquery mobile + 百度地图 + phonegap 写的一个"校园助手"的app
-
1jquerymobile+百度地图+phonegap写的一个"校园助手"的app,使用的是基于Flat-UI的jQueryMobile,请参考:https://github.com/...
- Apache 服务启动不了 apache系统服务启动不了
-
{我是新手,从未遇到此问题,请各位大大勿喷}事由:今天早上上班突然发现公司网站出现问题。经过排查,发现是Apache出现问题。首先检查配置文件没有出问题后,启动服务发现Apache服务能启动,但是没法...
- 健康债和技术债都不能欠 公众号: 我是攻城师(woshigcs)
-
在Solr4.4之后,Solr提供了SolrCloud分布式集群的模式,它带来的主要好处是:(1)大数据量下更高的性能(2)更好扩展性(3)更高的可靠性(4)更简单易用什么时候应该使用Sol...
- Eye Experience怎么用?HTC告诉你 eyebeam怎么用
-
IT之家(www.ithome.com):EyeExperience怎么用?HTC告诉你HTC上周除了发布HTCDesireEYE自拍机和HTCRE管状运动相机之外,还发布了一系列新的智能手机...
- Android系统应用隐藏和应用禁止卸载
-
1、应用隐藏与禁用Android设置中的应用管理器提供了一个功能,就是【应用停用】功能,这是针对某些系统应用的。当应用停用之后,应用的图标会被隐藏,但apk还是存在,不会删除,核心接口就是Packag...
- 计算机软件技术分享--赠人玫瑰,手遗余香
-
一、Netty介绍Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。也就是说,Netty...
- Gecco爬虫框架的线程和队列模型 爬虫通用框架
-
简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是g...
- 一点感悟(一) 初识 初读感知的意思
-
时间过得很快,在IT业已从业了两年多。人这一辈子到底需要什么,在路边看着人来人往,大部分人脸上都是很匆忙。上海真是一个魔都,它有魅力,有底蕴,但是一个外地人在这里扎根置业,真的是举全家之力,还贷3...
- 一周热门
-
-
Boston Dynamics Founder to Attend the 2024 T-EDGE Conference
-
IDC机房服务器托管可提供的服务
-
详解PostgreSQL 如何获取当前日期时间
-
新版腾讯QQ更新Windows 9.9.7、Mac 6.9.25、Linux 3.2.5版本
-
一文看懂mysql时间函数now()、current_timestamp() 和sysdate()
-
流星蝴蝶剑:76邵氏精华版,强化了流星,消失了蝴蝶
-
PhotoShop通道
-
查看 CAD文件,电脑上又没装AutoCAD?这款CAD快速看图工具能帮你
-
WildBit Viewer 6.13 快速的图像查看器,具有幻灯片播放和编辑功能
-
光与灯具的专业术语 你知多少?
-
- 最近发表
-
- Micheal Nielsen's神经网络学习之二
- CocoaPods + XCTest进行单元测试 c单元测试工具
- Java基础知识回顾第四篇 java基础讲解
- 项目中的流程及类似业务的设计模式总结
- 联想三款显示器首批获得 Eyesafe Certified 2.0 认证
- maven的生命周期,插件介绍(二) 一个典型的maven构建生命周期
- 多线程(3)-基于Object的线程等待与唤醒
- jquery mobile + 百度地图 + phonegap 写的一个"校园助手"的app
- Apache 服务启动不了 apache系统服务启动不了
- 健康债和技术债都不能欠 公众号: 我是攻城师(woshigcs)
- 标签列表
-
- serv-u 破解版 (19)
- huaweiupdateextractor (27)
- thinkphp6下载 (25)
- mysql 时间索引 (31)
- mydisktest_v298 (34)
- sql 日期比较 (26)
- document.appendchild (35)
- 头像打包下载 (61)
- oppoa5专用解锁工具包 (23)
- acmecadconverter_8.52绿色版 (39)
- oracle timestamp比较大小 (28)
- f12019破解 (20)
- np++ (18)
- 魔兽模型 (18)
- java面试宝典2019pdf (17)
- beamoff下载 (17)
- unity shader入门精要pdf (22)
- word文档批量处理大师破解版 (36)
- pk10牛牛 (22)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- 加密与解密第四版pdf (30)
- pcm文件下载 (23)
- jemeter官网 (31)
- iteye (18)