代码拉取完成,页面将自动刷新
import pdfplumber
from PIL import Image
import os
# 读取PDF文件
def extract_pdf_content(pdf_path):
content = ""
images_folder = "pdf_images" # 图片存放的文件夹
os.makedirs(images_folder, exist_ok=True) # 创建图片文件夹,如果不存在的话
with pdfplumber.open(pdf_path) as pdf:
for page_num, page in enumerate(pdf.pages):
text = page.extract_text()
content += f"# Page {page_num + 1}\n{text}\n\n"
# 提取图片并保存
index =0
for img in page.images:
img_data = img['stream'].get_data()
img_file_path = os.path.join(images_folder, f"image_{page_num}_{index}.png")
with open(img_file_path, "wb") as img_file:
img_file.write(img_data)
# 在Markdown中插入图片引用
content += f"![Image {page_num}_{index}]({os.path.relpath(img_file_path, os.path.dirname(markdown_output_path))})\n\n"
index += 1
return content
# 写入Markdown文件
def write_to_markdown(content, markdown_output_path):
with open(markdown_output_path, "w", encoding="utf-8") as md_file:
md_file.write(content)
# 示例使用
pdf_path = "xxxxxmgl.pdf"
markdown_output_path = "output.md"
content = extract_pdf_content(pdf_path)
write_to_markdown(content, markdown_output_path)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。