代码拉取完成,页面将自动刷新
from pathlib import Path
import PyPDF2
from chatgpt.gpt_eylink import EYGPT
def extract_text_from_pdf(pdf_path):
#提取pdf所有的文字
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfReader(file)
full_text = ""
# 遍历PDF中的每一页
for page in reader.pages:
# 提取当前页的文本
page_text = page.extract_text()
if page_text: # 检查是否有文本被提取
full_text += page_text
# 将所有页面的文本合并为单个字符串
return full_text
def chat_gpt_sumrry(content:str):
ai = EYGPT()
system = "你是一个论文研究的专家,请帮我总结一下文献的内容,总结成为中文,字数为250字"
user = content
res = ai.chat(system,user).json()
return res
def get_pdf_paths(directory):
folder_path = Path(directory)
# 使用glob方法找到所有.pdf文件
all_files = folder_path.rglob('*')
return [str(file) for file in all_files if file.is_file()]
# 返回完整路径列表
# 使用函数
if __name__ == "__main__":
pdf_path = './datas/pdfs/test.pdf'
pdf_text = extract_text_from_pdf(pdf_path)
print(pdf_text)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。