SW
SW
审计工具箱
AI功能

多公司文件关键信息提取

批量提取多家公司、多个类别资料的关键信息,支持 PDF/图片/Word/TXT/Markdown 等多类型文件

功能概述

针对多家被审计单位,按文件类别批量提取关键信息。适用于已按「公司-类别-文件」目录结构整理好的资料,自动遍历每家公司的各个类别文件夹,使用 AI 提取指定字段,并将所有结果汇总到一张 Excel 表中。

核心特性:

  • 多公司并行处理:自动遍历根目录下的所有公司文件夹
  • 智能文件处理:PDF 自动提取文本和图片;Word 提取段落和嵌入图片;支持文本和图片混合处理
  • 智能模型切换:纯文本文件用语言模型,含图片的文件自动切换视觉模型
  • AI 智能字段解析:自动分析提示词中的字段列表,生成有序表头
  • 合并/独立处理:支持将同一文件夹下的文件合并处理或逐文件独立处理
  • 断点续传:自动跳过已处理的公司
  • 图片格式自动转换:不支持格式的图片自动转为 JPEG

AI 模型配置

在「参数设置」中配置以下参数:

参数说明
base_urlAI 平台兼容 OpenAI 的 API 地址
api_keyAPI 密钥
model_name文本模型名称
visual_model_name视觉模型名称

配置表说明

配置文件路径:input/多类型文件信息提取配置表.xlsx

「基础配置」Sheet

A列B列说明
1处理文件夹(填写路径)包含多个公司文件夹的根目录路径

「文件夹配置」Sheet

列名说明示例
文件夹名称要匹配的子文件夹名称营业执照
是否合并「是」将该文件夹下所有文件合并为一个请求;「否」逐文件独立请求
匹配模式关键词完全「关键词」匹配包含该名称的文件夹;「完全」必须名称完全一致
提示词提取指令,描述需要提取的字段请提取出文件中以下字段:名称、类型、经营者

示例配置:

文件夹名称是否合并匹配模式提示词
客户信用调查表关键词请提取出以下字段:姓名、住址、贷款用途、身份证号
营业执照关键词请提取出以下字段:名称、类型、经营者、经营场所、注册日期
购销合同完全请提取出以下字段:合同名称、甲方、乙方、货物品种

支持的文件类型

类型扩展名处理方式
PDF.pdf提取文本 + 提取嵌入图片,混合处理
Word.docx提取段落文本 + 提取嵌入图片
图片.png .jpg .jpeg .bmp .webp直接作为视觉文件发送
文本.txt .md .markdown读取文本内容

目录结构要求

待处理文件夹应按以下结构组织:

根文件夹/
├── A公司/
│   ├── 营业执照/
│   │   └── 营业执照.png
│   ├── 购销合同/
│   │   └── 合同.docx
│   └── 调查报告/
│       └── 报告.pdf
├── B公司/
│   ├── 营业执照/
│   │   └── 营业执照.png
│   └── ...

输出结果

  • 输出路径:output/多类型文件信息提取结果.xlsx
  • 表头结构:一级文件夹名称 | 二级文件夹名称 | 各类别字段列...
  • 二级文件夹名称列设有超链接,可直接点击打开公司目录

注意: 程序会自动检查之前执行的结果,跳过已处理的公司。如果需要完全重新执行,请先删除之前生成的结果文件。如果独立处理产生了多个数据,输出时会保留所有不同的值。