AI功能
文件关键信息提取
从 PDF/图片/文本文件中批量提取关键信息,支持多表模式和断点续传
功能概述
利用 AI 视觉模型和语言模型,从扫描版 PDF、图片、TXT、Markdown 等文件中批量提取关键信息,自动生成结构化的 Excel 结果文件。支持单文件和文件夹模式,内置断点续传机制。
核心特性:
- 智能文件识别:自动判断 PDF 为文本型或扫描型,分别调用语言模型或视觉模型
- 多表模式:支持从同一文档中提取多个表格的数据,自动横向拼接
- 图片自动旋转:安装 Tesseract-OCR 后可自动检测并校正图片方向
- 压缩包自动解压:支持
.zip、.rar、.7z格式自动解压后处理 - 断点续传:中断后可从上次停止处继续,无需重新处理
AI 模型配置
在「参数设置」中配置以下参数:
| 参数 | 说明 |
|---|---|
base_url | AI 平台兼容 OpenAI 的 API 地址 |
api_key | API 密钥 |
model_name | 文本模型名称,用于处理文本型 PDF 和 TXT/MD 文件 |
visual_model_name | 视觉模型名称,用于处理图片和扫描型 PDF |
注意: 视觉模型和文本模型必须分别配置。视觉模型需支持图片理解能力。
配置表说明
配置文件路径:input/文件信息提取配置表.xlsx
「配置表」Sheet
| 行 | A列 | B列 | 说明 |
|---|---|---|---|
| 1 | 用户提示词 | (填写提取指令) | 描述需要提取的字段和格式要求 |
| 2 | 处理文件夹 | (填写路径) | 需要扫描的文件夹路径,支持多层目录 |
| 3 | 文件识别模式 | 文件 或 文件夹 | 「文件夹」模式会将同一文件夹下的图片合并处理 |
| 4 | PDF强制图片识别 | 是 或 否 | 「是」强制用视觉模型处理 PDF;「否」自动判断 |
| 5 | 图片是否需要压缩 | 是 或 否 | 「是」压缩到 1200x1200 以内;「否」保持原图质量 |
| 6 | 并发线程数 | 数字(默认1) | 同时处理的任务数量,建议 3-5 |
用户提示词示例
简单模式(提取单个表):
请提取出文件中以下字段:合同编号、合同签订日期、合同金额、付款方式、合同标的多表模式(提取多个表,按表格名称分组):
1. '银行存款':账户名称、账号、余额、币种
2. '借款':借款人、金额、期限、利率
3. '担保':被担保人、担保金额、担保期限支持的文件类型
| 类型 | 扩展名 | 处理方式 |
|---|---|---|
| 图片 | .png .jpg .jpeg .bmp .webp | 视觉模型 |
| 文本 PDF | .pdf(可提取文本) | 语言模型 |
| 扫描 PDF | .pdf(无法提取文本) | 视觉模型 |
| 文本文件 | .txt .md .markdown | 语言模型 |
| 压缩包 | .zip .rar .7z | 自动解压后处理内部文件 |
输出结果
- 输出路径:
output/文件信息提取结果.xlsx - 包含「路径」和「文件名/文件夹名」列,路径列设有超链接可直接点击打开
- 字段列根据模型返回结果自动生成
使用步骤
- 在「参数设置」中配置
base_url、api_key、文本模型和视觉模型 - 将待处理的文件放入指定文件夹
- 在配置表中填写用户提示词和处理文件夹路径
- 运行功能,等待处理完成
- 查看输出文件,检查提取结果
注意: 关键信息提取受限于 OCR 识别效果,建议后续人工检查更正。结果文件中的路径列可点击直接打开对应文件。