Python朴素贝叶斯垃圾短信分类--慧智精品网

Python朴素贝叶斯垃圾短信分类

0.前⾔电梯打一成语

王怎么读

没写完.有时间会更新

这是接着我的第⼀篇博客，搭建好Hadoop伪分布式后，完成的整个毕设.毕设的主要内容是完成对100W短信进⾏垃圾短信分类.其中80W是含有标签0/1的数据，还有20W是⽆标签数据.最后的效果评判主要是进⾏交叉验证.

电脑IP地址在哪里看

1.总体思路

⾸先是⽤到的实验环境和相关技术

1.1实验环境

Python 3.6.5 + Anaconda3 + Pycharm + Hadoop + spark

伪分布式的Hadoop搭建参见我的博客

其实，不⽤Hadoop + spark也能跑，我只是觉得毕设⼯作量太少，所以强⾏加的.

1,2思路

当初也很⼩⽩，简单的思路就是分离数据和标签、⽂本分词、套⽤已有的朴素贝叶斯库---->得出结果.

后来和实验室的⽼师交流的过程中才觉得缺了很多步骤.

总体就如图所⽰了.

2.关键技术

2.1 预处理

四个火念什么预处理主要是要完成四个任务：⽂本分离；⽂本分词；去停⽤词；去单字。

⾸先是⽂本分离，由于数据的形式是每⼀⾏代表⼀条数据，⼀共三列。第⼀列代表代表序号、第⼆列代表标签、第三列代表短信内容。进⾏⽂本分离时，我们的任务是将标签和短信内容进⾏分离。最后得到两个⽂件：标签⽂件和内容⽂件。可以使⽤Pandas中的DataFrame读⼊，然后重新写⼊。

然后是⽂本分词，主要是使⽤jieba分词库，这⾥可以直接⽤官⽅的分词库，也可以⾃⼰去。我⾃⼰是⽤的官⽅的分词库。

接下来的⼯作就是读取内容⽂件⽂件，并使⽤jieba分词库进⾏分词分词。得到分词结果，你会发现有很多问题，⽐如有些词很奇怪，有些词⽆意义，那么你就⾃然跳到了要做去停⽤词。

其实去停⽤词⼀共分两步：

第⼀步：在分词前对wen'⽂本内的⼀些⽆⽤的词直接剔除，如x

第⼆步：在分词后，去掉⼀些⼈称谓词、助词、语⽓词等；还要去除⼀些特殊符号。

最后，⼀般单字表⽰的意义是不⾜够⽤来进⾏最后的预测的，所以我们还要把长度为1的词，去除。

表示红的词语

2.2算法

涧

使⽤的算法是⽐较简单且经典的朴素贝叶斯算法，由于这个问题⽐较简单，所以最后结果也还不错。

慧智精品网

Python朴素贝叶斯垃圾短信分类

发表评论

推荐文章

【精品】人教版三年级数学下册期末复习知识点总结

会务人员工作总结范文(通用13篇)

关于战友情的演讲稿

关于对志愿军的描写和赞扬的作文100字

中考历史

热门文章

象达乡小学2018-2019学年三年级下学期数学模拟试卷含解析

2023八月的文案短句女朋友(100句)

部编版八年级地理(上册)第一次月考知识点及答案

2021年血液净化科年终工作总结

2025年华东师大版八年级历史下册阶段测试试卷含答案

三年级数学上册知识点整理与复习--北师大版

八一建军节知识答题

实现建军一百年奋斗目标开创国防和军队现代化新局面

七一建军节英勇庆祝

七一建军节荣耀之日

建军知识问答

中国解放军建军节是几月几日星期几

建军一百周年的奋斗目标启示和感悟

三十一建节弘扬的优良作风发扬的光辉传统

建军节回顾中国人民解放军建军的光辉历程

纪念建军节重温中国军队的光辉战绩与传统

建军节的资料

建军节来历简介

2021年八一建军节的来历

八一建军节的历史资料

最新文章

【精品】人教版三年级数学下册期末复习知识点总结

关于战友情的演讲稿

中考历史

五年级道德与法治下册期末考试带答案【完整版】

三年级下册数学重要知识点总结

【必刷题】三年级数学下册单位换算专项综合练习-2020-2021学年人教版...

标签列表

慧智精品网

Python朴素贝叶斯垃圾短信分类

发表评论

推荐文章

【精品】人教版三年级数学下册期末复习知识点总结

会务人员工作总结范文(通用13篇)

关于战友情的演讲稿

关于对志愿军的描写和赞扬的作文100字

中考历史

热门文章

象达乡小学2018-2019学年三年级下学期数学模拟试卷含解析

2023八月的文案短句女朋友(100句)

部编版八年级地理(上册)第一次月考知识点及答案

2021年血液净化科年终工作总结

2025年华东师大版八年级历史下册阶段测试试卷含答案

三年级数学上册知识点整理与复习--北师大版

八一建军节知识答题

实现建军一百年奋斗目标 开创国防和军队现代化新局面

七一建军节英勇庆祝

七一建军节荣耀之日

建军知识问答

中国解放军建军节是几月几日星期几

建军一百周年的奋斗目标启示和感悟

三十一建节弘扬的优良作风发扬的光辉传统

建军节回顾中国人民解放军建军的光辉历程

纪念建军节重温中国军队的光辉战绩与传统

建军节的资料

建军节来历简介

2021年八一建军节的来历

八一建军节的历史资料

最新文章

【精品】人教版三年级数学下册期末复习知识点总结

关于战友情的演讲稿

中考历史

五年级道德与法治下册期末考试带答案【完整版】

三年级下册数学重要知识点总结

【必刷题】三年级数学下册单位换算专项综合练习-2020-2021学年人教版...

标签列表

实现建军一百年奋斗目标开创国防和军队现代化新局面