SW
SW
审计工具箱
AI功能

Excel文本信息提取

从 Excel 指定列的文本内容中批量提取关键信息,支持关键词筛选和断点续传

功能概述

从 Excel 文件指定列的文本内容(如序时账摘要)中批量提取关键信息。程序使用 AI 分析用户提示词自动确定提取字段,然后按批次处理每个 Excel 文件,将提取结果追加写入新文件。

核心特性:

  • AI 智能字段解析:自动分析用户提示词,确定要提取的字段列表
  • 关键词筛选:支持通过关键词过滤,只处理包含指定关键词的行
  • 批处理模式:多行数据合并为一次 AI 请求,节约 token
  • ID 精确匹配:使用 TEXT_ID 机制确保提取结果与原始行精确对应
  • 断点续传:每次请求增量保存,中断后可继续处理
  • 兼容旧格式:支持 .xls.xlsx 格式文件

AI 模型配置

在「参数设置」中配置以下参数:

参数说明
base_urlAI 平台兼容 OpenAI 的 API 地址
api_keyAPI 密钥
model_name文本模型名称(此功能仅使用文本模型)

配置表说明

配置文件路径:input/Excel文本信息提取配置表.xlsx

「配置表」Sheet(无标题行,索引-值格式)

A列(配置项)B列(值)说明
1用户提示词(填写提取指令)如:提取公司名称和合同金额
2处理文件夹(填写路径)包含待处理 Excel 文件的文件夹路径
3待处理列名(填写列名)如:摘要,指定要处理的列
4关键词筛选(可选)多个关键词用 ; 分隔,仅处理包含关键词的行
5批处理大小数字(默认 5)每次 AI 请求包含的行数,越大越节约 token

用户提示词示例

提取公司名称、合同金额和日期

处理流程

  1. 程序首先调用 AI 分析用户提示词,确定要提取的字段列表
  2. 扫描处理文件夹下所有 Excel 文件
  3. 对每个文件,读取指定列的内容
  4. 按批处理大小分批,每批附加 TEXT_ID 发送给 AI
  5. AI 返回结果按 TEXT_ID 精确匹配,写入对应行
  6. 每批处理完成后增量保存

输出结果

  • 输出路径:output/Excel文本信息提取/
  • 每个源文件生成一个同名 .xlsx 文件
  • 原始列保持不变,AI 提取的字段列追加在后面
  • 如果同名输出文件已存在,自动从断点继续

使用步骤

  1. 在「参数设置」中配置 base_urlapi_keymodel_name
  2. 在配置表中填写用户提示词、处理文件夹路径和待处理列名
  3. (可选)填写关键词筛选条件
  4. 运行功能
  5. 查看输出文件夹中的结果文件

注意: 每次请求都会增量写入数据,即使中断了,已处理的行也已保存。如果未删除 output 中的文件,再次运行会接着之前的继续处理。批处理大小越大越节约 token,但可能降低准确度,默认 5,建议自行测试调整。