代码拉取完成,页面将自动刷新
同步操作将从 cale/CLS-THUCNews 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import pandas as pd
import matplotlib.pyplot as plt
from datasets import load_dataset
# 查询长度:txt
def count_text_len():
text_len = []
with open('./data/input/train.txt') as f:
for line in f.readlines():
# 这个可以打印 line 具体符号,eg:"\t"
# 方便确定下文 split 具体用什么符号划分
# print(line.split("a")) # ['中华女子学院:本科层次仅1专业招男生\t3\n']
# exit()
# 去掉 line 两边空余
# text, _ = line.strip().split("\t")
text, _ = line.split('\t')
text_len.append(len(text))
plt.hist(text_len)
plt.show()
print(max(text_len))
# 查询长度:csv
def count_csv_len():
data = pd.read_csv('./data/input/train.csv')
# print(data.head())
# 注意 map、apply、applymap 三者区别
x_len = data['text'].map(lambda x: len(x))
# x_len 是一个 series
# print(type(x_len))
x_len.plot(kind='hist')
plt.show()
print(x_len.max())
# loadset 方法
def count_len():
data = load_dataset(
'csv',
data_files='./data/input/train.csv',
split='train'
)
def f(data):
# 创建新的一列
data['len'] = len(data['text'])
return data
data_len = data.map(f)
print(max(data_len['len']), min(data_len['len']))
if __name__ == '__main__':
# count_text_len()
# count_csv_len()
count_len()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。