SW
SW
审计工具箱
AI功能

文件关键信息提取

从 PDF/图片/文本文件中批量提取关键信息,支持多表模式和断点续传

功能概述

利用 AI 视觉模型和语言模型,从扫描版 PDF、图片、TXT、Markdown 等文件中批量提取关键信息,自动生成结构化的 Excel 结果文件。支持单文件和文件夹模式,内置断点续传机制。

核心特性:

  • 智能文件识别:自动判断 PDF 为文本型或扫描型,分别调用语言模型或视觉模型
  • 多表模式:支持从同一文档中提取多个表格的数据,自动横向拼接
  • 图片自动旋转:安装 Tesseract-OCR 后可自动检测并校正图片方向
  • 压缩包自动解压:支持 .zip.rar.7z 格式自动解压后处理
  • 断点续传:中断后可从上次停止处继续,无需重新处理

AI 模型配置

在「参数设置」中配置以下参数:

参数说明
base_urlAI 平台兼容 OpenAI 的 API 地址
api_keyAPI 密钥
model_name文本模型名称,用于处理文本型 PDF 和 TXT/MD 文件
visual_model_name视觉模型名称,用于处理图片和扫描型 PDF

注意: 视觉模型和文本模型必须分别配置。视觉模型需支持图片理解能力。

配置表说明

配置文件路径:input/文件信息提取配置表.xlsx

「配置表」Sheet

A列B列说明
1用户提示词(填写提取指令)描述需要提取的字段和格式要求
2处理文件夹(填写路径)需要扫描的文件夹路径,支持多层目录
3文件识别模式文件文件夹「文件夹」模式会将同一文件夹下的图片合并处理
4PDF强制图片识别「是」强制用视觉模型处理 PDF;「否」自动判断
5图片是否需要压缩「是」压缩到 1200x1200 以内;「否」保持原图质量
6并发线程数数字(默认1)同时处理的任务数量,建议 3-5

用户提示词示例

简单模式(提取单个表):

请提取出文件中以下字段:合同编号、合同签订日期、合同金额、付款方式、合同标的

多表模式(提取多个表,按表格名称分组):

1. '银行存款':账户名称、账号、余额、币种
2. '借款':借款人、金额、期限、利率
3. '担保':被担保人、担保金额、担保期限

支持的文件类型

类型扩展名处理方式
图片.png .jpg .jpeg .bmp .webp视觉模型
文本 PDF.pdf(可提取文本)语言模型
扫描 PDF.pdf(无法提取文本)视觉模型
文本文件.txt .md .markdown语言模型
压缩包.zip .rar .7z自动解压后处理内部文件

输出结果

  • 输出路径:output/文件信息提取结果.xlsx
  • 包含「路径」和「文件名/文件夹名」列,路径列设有超链接可直接点击打开
  • 字段列根据模型返回结果自动生成

使用步骤

  1. 在「参数设置」中配置 base_urlapi_key、文本模型和视觉模型
  2. 将待处理的文件放入指定文件夹
  3. 在配置表中填写用户提示词和处理文件夹路径
  4. 运行功能,等待处理完成
  5. 查看输出文件,检查提取结果

注意: 关键信息提取受限于 OCR 识别效果,建议后续人工检查更正。结果文件中的路径列可点击直接打开对应文件。