AI功能
Excel文本信息提取
从 Excel 指定列的文本内容中批量提取关键信息,支持关键词筛选和断点续传
功能概述
从 Excel 文件指定列的文本内容(如序时账摘要)中批量提取关键信息。程序使用 AI 分析用户提示词自动确定提取字段,然后按批次处理每个 Excel 文件,将提取结果追加写入新文件。
核心特性:
- AI 智能字段解析:自动分析用户提示词,确定要提取的字段列表
- 关键词筛选:支持通过关键词过滤,只处理包含指定关键词的行
- 批处理模式:多行数据合并为一次 AI 请求,节约 token
- ID 精确匹配:使用 TEXT_ID 机制确保提取结果与原始行精确对应
- 断点续传:每次请求增量保存,中断后可继续处理
- 兼容旧格式:支持
.xls和.xlsx格式文件
AI 模型配置
在「参数设置」中配置以下参数:
| 参数 | 说明 |
|---|---|
base_url | AI 平台兼容 OpenAI 的 API 地址 |
api_key | API 密钥 |
model_name | 文本模型名称(此功能仅使用文本模型) |
配置表说明
配置文件路径:input/Excel文本信息提取配置表.xlsx
「配置表」Sheet(无标题行,索引-值格式)
| 行 | A列(配置项) | B列(值) | 说明 |
|---|---|---|---|
| 1 | 用户提示词 | (填写提取指令) | 如:提取公司名称和合同金额 |
| 2 | 处理文件夹 | (填写路径) | 包含待处理 Excel 文件的文件夹路径 |
| 3 | 待处理列名 | (填写列名) | 如:摘要,指定要处理的列 |
| 4 | 关键词筛选 | (可选) | 多个关键词用 ; 分隔,仅处理包含关键词的行 |
| 5 | 批处理大小 | 数字(默认 5) | 每次 AI 请求包含的行数,越大越节约 token |
用户提示词示例
提取公司名称、合同金额和日期处理流程
- 程序首先调用 AI 分析用户提示词,确定要提取的字段列表
- 扫描处理文件夹下所有 Excel 文件
- 对每个文件,读取指定列的内容
- 按批处理大小分批,每批附加 TEXT_ID 发送给 AI
- AI 返回结果按 TEXT_ID 精确匹配,写入对应行
- 每批处理完成后增量保存
输出结果
- 输出路径:
output/Excel文本信息提取/ - 每个源文件生成一个同名
.xlsx文件 - 原始列保持不变,AI 提取的字段列追加在后面
- 如果同名输出文件已存在,自动从断点继续
使用步骤
- 在「参数设置」中配置
base_url、api_key和model_name - 在配置表中填写用户提示词、处理文件夹路径和待处理列名
- (可选)填写关键词筛选条件
- 运行功能
- 查看输出文件夹中的结果文件
注意: 每次请求都会增量写入数据,即使中断了,已处理的行也已保存。如果未删除 output 中的文件,再次运行会接着之前的继续处理。批处理大小越大越节约 token,但可能降低准确度,默认 5,建议自行测试调整。