SW审计工具箱 — 让审计效率提升 10 倍

批量提取多家公司、多个类别资料的关键信息，支持 PDF/图片/Word/TXT/Markdown 等多类型文件

功能概述

针对多家被审计单位，按文件类别批量提取关键信息。适用于已按「公司-类别-文件」目录结构整理好的资料，自动遍历每家公司的各个类别文件夹，使用 AI 提取指定字段，并将所有结果汇总到一张 Excel 表中。

核心特性：

多公司并行处理：自动遍历根目录下的所有公司文件夹
智能文件处理：PDF 自动提取文本和图片；Word 提取段落和嵌入图片；支持文本和图片混合处理
智能模型切换：纯文本文件用语言模型，含图片的文件自动切换视觉模型
AI 智能字段解析：自动分析提示词中的字段列表，生成有序表头
合并/独立处理：支持将同一文件夹下的文件合并处理或逐文件独立处理
断点续传：自动跳过已处理的公司
图片格式自动转换：不支持格式的图片自动转为 JPEG

AI 模型配置

在「参数设置」中配置以下参数：

参数	说明
`base_url`	AI 平台兼容 OpenAI 的 API 地址
`api_key`	API 密钥
`model_name`	文本模型名称
`visual_model_name`	视觉模型名称

配置表说明

配置文件路径：input/多类型文件信息提取配置表.xlsx

「基础配置」Sheet

行	A列	B列	说明
1	处理文件夹	（填写路径）	包含多个公司文件夹的根目录路径

「文件夹配置」Sheet

列名	说明	示例
文件夹名称	要匹配的子文件夹名称	`营业执照`
是否合并	`是` 或 `否`	「是」将该文件夹下所有文件合并为一个请求；「否」逐文件独立请求
匹配模式	`关键词` 或 `完全`	「关键词」匹配包含该名称的文件夹；「完全」必须名称完全一致
提示词	提取指令，描述需要提取的字段	`请提取出文件中以下字段：名称、类型、经营者`

示例配置：

文件夹名称	是否合并	匹配模式	提示词
客户信用调查表	否	关键词	请提取出以下字段：姓名、住址、贷款用途、身份证号
营业执照	否	关键词	请提取出以下字段：名称、类型、经营者、经营场所、注册日期
购销合同	否	完全	请提取出以下字段：合同名称、甲方、乙方、货物品种

支持的文件类型

类型	扩展名	处理方式
PDF	`.pdf`	提取文本 + 提取嵌入图片，混合处理
Word	`.docx`	提取段落文本 + 提取嵌入图片
图片	`.png` `.jpg` `.jpeg` `.bmp` `.webp`	直接作为视觉文件发送
文本	`.txt` `.md` `.markdown`	读取文本内容

目录结构要求

待处理文件夹应按以下结构组织：

根文件夹/
├── A公司/
│   ├── 营业执照/
│   │   └── 营业执照.png
│   ├── 购销合同/
│   │   └── 合同.docx
│   └── 调查报告/
│       └── 报告.pdf
├── B公司/
│   ├── 营业执照/
│   │   └── 营业执照.png
│   └── ...

输出结果

输出路径：output/多类型文件信息提取结果.xlsx
表头结构：一级文件夹名称 | 二级文件夹名称 | 各类别字段列...
二级文件夹名称列设有超链接，可直接点击打开公司目录

注意： 程序会自动检查之前执行的结果，跳过已处理的公司。如果需要完全重新执行，请先删除之前生成的结果文件。如果独立处理产生了多个数据，输出时会保留所有不同的值。

多公司文件关键信息提取