审计工具箱

登录免费下载

AI功能

文件关键信息提取

从 PDF/图片/文本文件中批量提取关键信息，支持多表模式和断点续传

功能概述

利用 AI 视觉模型和语言模型，从扫描版 PDF、图片、TXT、Markdown 等文件中批量提取关键信息，自动生成结构化的 Excel 结果文件。支持单文件和文件夹模式，内置断点续传机制。

核心特性：

智能文件识别：自动判断 PDF 为文本型或扫描型，分别调用语言模型或视觉模型
多表模式：支持从同一文档中提取多个表格的数据，自动横向拼接
图片自动旋转：安装 Tesseract-OCR 后可自动检测并校正图片方向
压缩包自动解压：支持 .zip、.rar、.7z 格式自动解压后处理
断点续传：中断后可从上次停止处继续，无需重新处理

AI 模型配置

在「参数设置」中配置以下参数：

参数	说明
`base_url`	AI 平台兼容 OpenAI 的 API 地址
`api_key`	API 密钥
`model_name`	文本模型名称，用于处理文本型 PDF 和 TXT/MD 文件
`visual_model_name`	视觉模型名称，用于处理图片和扫描型 PDF

注意： 视觉模型和文本模型必须分别配置。视觉模型需支持图片理解能力。

配置表说明

配置文件路径：input/文件信息提取配置表.xlsx

「配置表」Sheet

行	A列	B列	说明
1	用户提示词	（填写提取指令）	描述需要提取的字段和格式要求
2	处理文件夹	（填写路径）	需要扫描的文件夹路径，支持多层目录
3	文件识别模式	`文件` 或 `文件夹`	「文件夹」模式会将同一文件夹下的图片合并处理
4	PDF强制图片识别	`是` 或 `否`	「是」强制用视觉模型处理 PDF；「否」自动判断
5	图片是否需要压缩	`是` 或 `否`	「是」压缩到 1200x1200 以内；「否」保持原图质量
6	并发线程数	数字（默认1）	同时处理的任务数量，建议 3-5

用户提示词示例

简单模式（提取单个表）：

请提取出文件中以下字段：合同编号、合同签订日期、合同金额、付款方式、合同标的

多表模式（提取多个表，按表格名称分组）：

1. '银行存款'：账户名称、账号、余额、币种
2. '借款'：借款人、金额、期限、利率
3. '担保'：被担保人、担保金额、担保期限

支持的文件类型

类型	扩展名	处理方式
图片	`.png` `.jpg` `.jpeg` `.bmp` `.webp`	视觉模型
文本 PDF	`.pdf`（可提取文本）	语言模型
扫描 PDF	`.pdf`（无法提取文本）	视觉模型
文本文件	`.txt` `.md` `.markdown`	语言模型
压缩包	`.zip` `.rar` `.7z`	自动解压后处理内部文件

输出结果

输出路径：output/文件信息提取结果.xlsx
包含「路径」和「文件名/文件夹名」列，路径列设有超链接可直接点击打开
字段列根据模型返回结果自动生成

使用步骤

在「参数设置」中配置 base_url、api_key、文本模型和视觉模型
将待处理的文件放入指定文件夹
在配置表中填写用户提示词和处理文件夹路径
运行功能，等待处理完成
查看输出文件，检查提取结果

注意： 关键信息提取受限于 OCR 识别效果，建议后续人工检查更正。结果文件中的路径列可点击直接打开对应文件。

企查查信用报告处理

批量处理企查查信用报告DOCX文件，提取目录并统计对比

文本信息提取分类（强大）

基于 AI 对文本进行智能分类匹配和信息提取，支持单级分类、层级分类和自由提取模式

On this page

功能概述 AI 模型配置配置表说明「配置表」Sheet 用户提示词示例支持的文件类型输出结果使用步骤