数据清洗–cleanccpython一名新生程序员的日常-

04 五月

星期一, 04 五月 2020 21:57 Last Updated on 星期一, 04 五月 2020 21:57 0 Comments

数据清洗–cleancc

cleancc

快速清洗数据内容可以
项目地址(欢迎star):https://github.com/Amiee-well/clean

使用方法

pip install cleancc
import cleancc
共有五个函数调用：

1.第一个函数为punct：

[

去除标点并让所有字母小写

:param pop_list:所要处理的的列表格式

:param lower:是否转小写，默认是

:return all_comment:处理后的结果-字符串格式

]

2.第二个函数为statistics：

[

词频统计

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return wordCount_dict:统计结果-字典格式

]

3.第三个函数为stop_words：

[

删除词频统计中的停顿词

:param statis:是否选择词频清理

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:param wordCount_dict:词频统计结果-字典

:return wordCount_dict:清除后结果-字典格式

]

4.第四个函数为Count_Sort：

[

字典排名数目排序

:param wordCount_dict:词频统计结果-字典

:param choices_number:返回前choices_number个字典个数

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

5.第五个函数为word_all：

[

调用全部函数

:param pop_list:所要处理的的列表格式

:param choices_number:返回前choices_number个字典个数

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

注意事项

注意:处理数据参数类型为列表，需要pandas转换为列表后进行调用！
使用示例:

import pandas as pd from cleancc import clean  from bs4 import BeautifulSoup  df = pd.read_csv("label.csv",sep='t', escapechar='\') review_list = df['review'].tolist() comment_list = [BeautifulSoup(k,'lxml').text for k in review_list] print(comment_list)  keyword_list, value_list = clean.word_all(comment_list,150) print(keyword_list, value_list)

꧁༺北海以北的等待༻꧂ 数据清洗--cleanccpython一名新生程序员的日常-

原创文章 17获赞 307访问量 2万+

关注私信

展开阅读全文

6
评论 6
x
海报

扫一扫，海报
4
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

꧁༺北海以北的等待༻꧂

“欢迎为萌新程序员打赏~谢谢各位”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

数据清洗–cleanccpython一名新生程序员的日常-

数据清洗–cleancc

cleancc

使用方法

注意事项

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

数据清洗–cleanccpython一名新生程序员的日常-

数据清洗–cleancc

cleancc

使用方法

注意事项

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录