加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
read_pdf.py 1.37 KB
一键复制 编辑 原始数据 按行查看 历史
liuhuajian 提交于 2024-03-28 11:35 . update
import pdfplumber
from PIL import Image
import os
# 读取PDF文件
def extract_pdf_content(pdf_path):
content = ""
images_folder = "pdf_images" # 图片存放的文件夹
os.makedirs(images_folder, exist_ok=True) # 创建图片文件夹,如果不存在的话
with pdfplumber.open(pdf_path) as pdf:
for page_num, page in enumerate(pdf.pages):
text = page.extract_text()
content += f"# Page {page_num + 1}\n{text}\n\n"
# 提取图片并保存
index =0
for img in page.images:
img_data = img['stream'].get_data()
img_file_path = os.path.join(images_folder, f"image_{page_num}_{index}.png")
with open(img_file_path, "wb") as img_file:
img_file.write(img_data)
# 在Markdown中插入图片引用
content += f"![Image {page_num}_{index}]({os.path.relpath(img_file_path, os.path.dirname(markdown_output_path))})\n\n"
index += 1
return content
# 写入Markdown文件
def write_to_markdown(content, markdown_output_path):
with open(markdown_output_path, "w", encoding="utf-8") as md_file:
md_file.write(content)
# 示例使用
pdf_path = "xxxxxmgl.pdf"
markdown_output_path = "output.md"
content = extract_pdf_content(pdf_path)
write_to_markdown(content, markdown_output_path)
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化