百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

中文文本分词:结巴分词的应用与实现

csdh11 2024-12-22 14:58 1 浏览

3.2 中文文本分割

本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式,否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现,其中模块用于处理字符串操作,re模块用于正则表达式处理。

具体实现代码如下:

--Jieba分词代码

处理完成后得到.txt、.txt两个txt文件,分别存储正反两部分语料切分的结果,切分结果截图如下:

分词结果截图

3.3 删除停用词

分词完成后,就可以读取停用词表中的停用词,并匹配分词后的正反面语料,去除停用词。去除停用词的步骤很简单,主要有两步:

具体实现代码如下:

--删除停用词代码

如代码所示,停用词表的获取采用了独特的广播形式,一行代码即可完成:

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

读出的每个停用词都要进行剥离,即w.strip(),因为读出的停用词中还含有换行符和制表符,不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。

由于去停用词这一步骤是在分句之后执行的,因此通常会与分句操作在同一个代码段中进行,即在分句操作完成后直接调用去停用词函数,得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件,以便于理解步骤,大家可以根据需要进行调整。

3.4 获取特征词向量

根据以上步骤,我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据,所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words(BOW)、TF-IDF等。本文采用词向量模型将语料转换成词向量。

由于特征词向量的提取是基于训练好的词向量模型,而Wiki中文语料库是公认的大型中文语料库,因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍,这里不再赘述。也就是说,本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。

获取特征词向量的主要步骤如下:

主要代码如下图所示:

--获取词向量代码

代码执行后得到一个.csv文件,第一列为类别对应的值(1-pos,0-neg),第二列及以下为数值向量,每行代表一条评论,结果部分截图如下:

词向量截图

3.5 降维

该模型设置为维度400进行训练,得到的词向量也是400维,本文采用PCA算法对结果进行降维,具体实现代码如下:

--PCA降维代码

运行代码,从结果图中我们可以看到,前100维已经能够很好的包含大部分原始数据,因此我们选取前100维作为模型的输入。

PCA维度解释结果图

4 分类模型构建

本文采用支持向量机(SVM)作为本次实验的中文文本分类模型,其他分类模型采用相同的分析过程,这里不再赘述。

支持向量机(SVM)是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法,通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说,ROC曲线面积(AUC)越大,模型性能越好。

首先采用SVM作为分类器算法,然后利用库构建ROC曲线,具体代码如下:

--SVM代码

运行代码,得到Test:0.88,即本次实验测试集的预测准确率为88%,ROC曲线如下图所示。

ROC曲线

至此,使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了,代码和数据已经上传到我的仓库,data文件夹里面有停用词列表.txt和2000个测试集,也可以使用其他分类模型进行分类,欢迎小伙伴们批评指正,共同学习!

相关推荐

Micheal Nielsen's神经网络学习之二

依然是跟着MichaelNielsen的神经网络学习,基于前一篇的学习,已经大概明白了神经网络的基本结构和BP算法,也能通过神经网络训练数字识别功能,之后我试验了一下使用神经网络训练之前的文本分类,...

CocoaPods + XCTest进行单元测试 c单元测试工具

在使用XCTest进行单元测试时,我们经常会遇到一些CocoaPods中的开源框架的调用,比如“Realm”或“Alamofire”在测试的时候,如果配置不当,会导致“frameworknotfo...

Java基础知识回顾第四篇 java基础讲解

1、&和&&的区别作为逻辑运算符:&(不管左边是什么,右边都参与运算),&&(如果左边为false,右边则不参与运算,短路)另外&可作为位运算符...

项目中的流程及类似业务的设计模式总结

说到业务流程,可能是我做过的项目中涉及业务最多的一个方面了。除了在流程设计之外,在一些考核系统、产业审批、还有很多地方,都用到相似的设计思路,在此一并总结一下。再说到模式,并不是因为流行才用这个词,而...

联想三款显示器首批获得 Eyesafe Certified 2.0 认证

IT之家7月31日消息,据外媒报道,三款全新联想显示器是全球首批满足EyesafeCertified2.0的设备。据报道,联想获得EyesafeCertified2.0认证的显...

maven的生命周期,插件介绍(二) 一个典型的maven构建生命周期

1.maven生命周期一个完整的项目构建过程通常包括清理、编译、测试、打包、集成测试、验证、部署等步骤,Maven从中抽取了一套完善的、易扩展的生命周期。Maven的生命周期是抽象的,其中的具体任务都...

多线程(3)-基于Object的线程等待与唤醒

概述在使用synchronized进行线程同步中介绍了依赖对象锁定线程,本篇文章介绍如何依赖对象协调线程。同synchronized悲观锁一样,线程本身不能等待与唤醒,也是需要对象才能完成等待与唤醒的...

jquery mobile + 百度地图 + phonegap 写的一个"校园助手"的app

1jquerymobile+百度地图+phonegap写的一个"校园助手"的app,使用的是基于Flat-UI的jQueryMobile,请参考:https://github.com/...

Apache 服务启动不了 apache系统服务启动不了

{我是新手,从未遇到此问题,请各位大大勿喷}事由:今天早上上班突然发现公司网站出现问题。经过排查,发现是Apache出现问题。首先检查配置文件没有出问题后,启动服务发现Apache服务能启动,但是没法...

健康债和技术债都不能欠 公众号: 我是攻城师(woshigcs)

在Solr4.4之后,Solr提供了SolrCloud分布式集群的模式,它带来的主要好处是:(1)大数据量下更高的性能(2)更好扩展性(3)更高的可靠性(4)更简单易用什么时候应该使用Sol...

Eye Experience怎么用?HTC告诉你 eyebeam怎么用

IT之家(www.ithome.com):EyeExperience怎么用?HTC告诉你HTC上周除了发布HTCDesireEYE自拍机和HTCRE管状运动相机之外,还发布了一系列新的智能手机...

Android系统应用隐藏和应用禁止卸载

1、应用隐藏与禁用Android设置中的应用管理器提供了一个功能,就是【应用停用】功能,这是针对某些系统应用的。当应用停用之后,应用的图标会被隐藏,但apk还是存在,不会删除,核心接口就是Packag...

计算机软件技术分享--赠人玫瑰,手遗余香

一、Netty介绍Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。也就是说,Netty...

Gecco爬虫框架的线程和队列模型 爬虫通用框架

简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是g...

一点感悟(一) 初识 初读感知的意思

时间过得很快,在IT业已从业了两年多。人这一辈子到底需要什么,在路边看着人来人往,大部分人脸上都是很匆忙。上海真是一个魔都,它有魅力,有底蕴,但是一个外地人在这里扎根置业,真的是举全家之力,还贷3...