AI功能
多公司文件关键信息提取
批量提取多家公司、多个类别资料的关键信息,支持 PDF/图片/Word/TXT/Markdown 等多类型文件
功能概述
针对多家被审计单位,按文件类别批量提取关键信息。适用于已按「公司-类别-文件」目录结构整理好的资料,自动遍历每家公司的各个类别文件夹,使用 AI 提取指定字段,并将所有结果汇总到一张 Excel 表中。
核心特性:
- 多公司并行处理:自动遍历根目录下的所有公司文件夹
- 智能文件处理:PDF 自动提取文本和图片;Word 提取段落和嵌入图片;支持文本和图片混合处理
- 智能模型切换:纯文本文件用语言模型,含图片的文件自动切换视觉模型
- AI 智能字段解析:自动分析提示词中的字段列表,生成有序表头
- 合并/独立处理:支持将同一文件夹下的文件合并处理或逐文件独立处理
- 断点续传:自动跳过已处理的公司
- 图片格式自动转换:不支持格式的图片自动转为 JPEG
AI 模型配置
在「参数设置」中配置以下参数:
| 参数 | 说明 |
|---|---|
base_url | AI 平台兼容 OpenAI 的 API 地址 |
api_key | API 密钥 |
model_name | 文本模型名称 |
visual_model_name | 视觉模型名称 |
配置表说明
配置文件路径:input/多类型文件信息提取配置表.xlsx
「基础配置」Sheet
| 行 | A列 | B列 | 说明 |
|---|---|---|---|
| 1 | 处理文件夹 | (填写路径) | 包含多个公司文件夹的根目录路径 |
「文件夹配置」Sheet
| 列名 | 说明 | 示例 |
|---|---|---|
| 文件夹名称 | 要匹配的子文件夹名称 | 营业执照 |
| 是否合并 | 是 或 否 | 「是」将该文件夹下所有文件合并为一个请求;「否」逐文件独立请求 |
| 匹配模式 | 关键词 或 完全 | 「关键词」匹配包含该名称的文件夹;「完全」必须名称完全一致 |
| 提示词 | 提取指令,描述需要提取的字段 | 请提取出文件中以下字段:名称、类型、经营者 |
示例配置:
| 文件夹名称 | 是否合并 | 匹配模式 | 提示词 |
|---|---|---|---|
| 客户信用调查表 | 否 | 关键词 | 请提取出以下字段:姓名、住址、贷款用途、身份证号 |
| 营业执照 | 否 | 关键词 | 请提取出以下字段:名称、类型、经营者、经营场所、注册日期 |
| 购销合同 | 否 | 完全 | 请提取出以下字段:合同名称、甲方、乙方、货物品种 |
支持的文件类型
| 类型 | 扩展名 | 处理方式 |
|---|---|---|
.pdf | 提取文本 + 提取嵌入图片,混合处理 | |
| Word | .docx | 提取段落文本 + 提取嵌入图片 |
| 图片 | .png .jpg .jpeg .bmp .webp | 直接作为视觉文件发送 |
| 文本 | .txt .md .markdown | 读取文本内容 |
目录结构要求
待处理文件夹应按以下结构组织:
根文件夹/
├── A公司/
│ ├── 营业执照/
│ │ └── 营业执照.png
│ ├── 购销合同/
│ │ └── 合同.docx
│ └── 调查报告/
│ └── 报告.pdf
├── B公司/
│ ├── 营业执照/
│ │ └── 营业执照.png
│ └── ...输出结果
- 输出路径:
output/多类型文件信息提取结果.xlsx - 表头结构:
一级文件夹名称|二级文件夹名称| 各类别字段列... - 二级文件夹名称列设有超链接,可直接点击打开公司目录
注意: 程序会自动检查之前执行的结果,跳过已处理的公司。如果需要完全重新执行,请先删除之前生成的结果文件。如果独立处理产生了多个数据,输出时会保留所有不同的值。