加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
Corpuspreprocess.py 958 Bytes
一键复制 编辑 原始数据 按行查看 历史
王文松 提交于 2021-04-06 19:05 . 第一次提交
import pandas as pd
from sklearn.utils import shuffle
# 该模块是给原始语料做预处理过程,并返会sentence和labels两个list
# sentence为网评内容,labels为sentence每一条评论对应的标签,其中1代表好评,0代表差评
def make_label(star):
if star == 'F':
return 1
else:
return 0
# 处理原始语料,并返回评论列表sentence,和标签列表labels
def corpusprocess(filepath):
# data = pd.read_csv(filepath, engine='python')
data = pd.read_excel(filepath)
data = shuffle(data)
data = data.reset_index(drop=True)
print(data['star'].value_counts().sort_index())
data["sentiment"] = data.star.apply(make_label) # 将原始标签生成0,1标签,并保存到data["sentiment"]
sentences = data["reviewbody"].astype(str)
labels = data["sentiment"]
return sentences, labels
# sentences,labels = corpusprocess("train.csv")
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化