加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
pdf_tools.py 1.24 KB
一键复制 编辑 原始数据 按行查看 历史
KamisatoMikoto 提交于 2024-05-13 09:00 . update pdf_tools.py.
from pathlib import Path
import PyPDF2
from chatgpt.gpt_eylink import EYGPT
def extract_text_from_pdf(pdf_path):
#提取pdf所有的文字
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfReader(file)
full_text = ""
# 遍历PDF中的每一页
for page in reader.pages:
# 提取当前页的文本
page_text = page.extract_text()
if page_text: # 检查是否有文本被提取
full_text += page_text
# 将所有页面的文本合并为单个字符串
return full_text
def chat_gpt_sumrry(content:str):
ai = EYGPT()
system = "你是一个论文研究的专家,请帮我总结一下文献的内容,总结成为中文,字数为250字"
user = content
res = ai.chat(system,user).json()
return res
def get_pdf_paths(directory):
folder_path = Path(directory)
# 使用glob方法找到所有.pdf文件
all_files = folder_path.rglob('*')
return [str(file) for file in all_files if file.is_file()]
# 返回完整路径列表
# 使用函数
if __name__ == "__main__":
pdf_path = './datas/pdfs/test.pdf'
pdf_text = extract_text_from_pdf(pdf_path)
print(pdf_text)
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化