加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
count.py 965 Bytes
一键复制 编辑 原始数据 按行查看 历史
yrt19 提交于 2023-10-17 13:25 . first commit
import os
import json
import jieba
from tqdm import tqdm
from collections import defaultdict
from count_chi import OUTPUT_DIR as INPUT_DIR
print(f'{INPUT_DIR = }')
def main():
for fileName in filter(
lambda name: name.startswith('split-') and name.endswith('.jsonl'),
os.listdir(INPUT_DIR),
):
name = '.'.join(fileName.split('.')[: -1]).replace('split-', '')
fileName = os.path.join(INPUT_DIR, fileName)
info = defaultdict(int)
with open(fileName, 'r', encoding = 'utf-8') as file:
for line in tqdm(file, fileName):
obj = json.loads(line)
content = obj.get('content')
for word in jieba.cut(content):
info[word.lower().strip()] += 1
with open(os.path.join(INPUT_DIR, f'info-{name}.json'), 'w', encoding = 'utf-8') as file:
json.dump(info, file, ensure_ascii = False)
if __name__ == '__main__':
main()
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化