AI功能
纸质信息核对
从 PDF/图片中提取信息,与 Excel 账面数据双向核对,自动生成明细表和汇总报告
视频教程
功能概述
从扫描版 PDF 或图片文件中自动提取关键信息,与 Excel 中的账面数据进行逐条双向核对。内置 AI 二次判断机制,可智能识别语义一致但格式不同的数据。最终生成包含提取结果、核对明细和美化汇总报告的结果文件。
核心特性:
- 双向核对:账面与纸质文件逐字段对比,标记一致/不一致/缺失/多余
- AI 二次判断:对初步不一致的字段自动调用 AI 进行语义判断(如格式差异、简写、同义表达等)
- 智能匹配:先精确匹配,失败后自动进行标准化模糊匹配(处理大小写、全角半角、空格差异)
- 多线程并发:支持并发处理多个文件
- 断点续传:中断后重新运行自动跳过已处理文件
- 美化汇总报告:包含总体统计和按字段维度统计的一致率分析
AI 模型配置
在「参数设置」中配置以下参数:
| 参数 | 说明 |
|---|---|
base_url | AI 平台兼容 OpenAI 的 API 地址 |
api_key | API 密钥 |
model_name | 文本模型名称,用于文本型 PDF 和 AI 二次判断 |
visual_model_name | 视觉模型名称,用于图片和扫描型 PDF |
配置表说明
配置文件路径:input/纸质信息核对配置表.xlsx
「配置表」Sheet
| 行 | A列 | B列 | 说明 |
|---|---|---|---|
| 1 | 文件或文件夹路径 | (填写路径) | PDF/图片文件路径,或包含多个文件的文件夹路径 |
| 2 | 匹配键 | (如:公司主体,银行账号) | 用于关联提取数据与账面数据的字段名,支持中英文逗号分隔 |
| 3 | 并发线程数 | 数字(默认 1) | 同时处理的任务数,建议 3-5 |
| 4 | 补充指令 | (可选) | 追加到 AI 提示词末尾的补充指令 |
「待核对信息」Sheet
- 第 1 行:填写表头(字段名),如:公司主体、银行账号、开户行、金额
- 第 2 行起:填写账面数据,每行一条记录
- 表头字段名必须包含配置表中填写的匹配键
处理流程
- 发现文件:扫描配置路径下的所有 PDF/图片文件
- AI 提取:自动判断 PDF 类型(文本型用语言模型,扫描型用视觉模型),提取字段信息
- 数据匹配:将提取记录与账面记录进行精确匹配和模糊匹配
- AI 二次判断:对所有「不一致」字段调用 AI 判断语义是否一致
- 生成报告:写入核对明细和汇总表
核对结果标记说明
| 标记 | 含义 |
|---|---|
| 一致 | 账面值与提取值完全一致 |
| 不一致 | 初步不一致,AI 二次判断仍不一致 |
| 一致(AI) | 初步不一致,但 AI 判断语义上一致(如格式差异、简写等) |
| 缺失(文件中未找到) | 账面有这条记录,但文件中没有提取到对应数据 |
| 多余(Excel中未找到) | 文件中提取到了数据,但账面没有对应记录 |
输出结果
- 输出路径:
output/纸质信息核对/纸质信息核对结果_时间戳.xlsx
结果文件包含 3 个 Sheet:
| Sheet名 | 内容 |
|---|---|
| 提取结果 | AI 从文件中提取的原始数据,第一列为文件路径(可点击跳转) |
| 核对明细 | 逐条对比:账面数据 - 文件路径 - 提取数据 - 核对结果 |
| 汇总表 | 美化的核对报告,包含总体统计和按字段维度统计 |
使用步骤
- 在「参数设置」中配置
base_url、api_key、文本模型和视觉模型 - 在「配置表」Sheet 中填写文件路径和匹配键
- 在「待核对信息」Sheet 中填写表头和账面数据
- 运行功能,等待处理完成
- 查看输出文件中的核对明细和汇总表
注意: 匹配键字段的值必须在账面数据和文件内容中一致。程序会自动处理大小写、全角半角、空格等差异,但如果字段内容本身不同则无法匹配。
实践技巧
- 补充指令可用于提升识别准确率,例如指定文件的具体类型("银行开户清单")或标注特殊的排版特征
- 匹配键支持多字段组合,如
公司主体,银行账号,用于精确定位每条记录 - OCR 旋转:很多 PDF 拍摄不端正,建议先安装 tesseract-ocr(网盘中可直接下载),各 AI 提取功能可后台调用它对图片自动旋转,否则 AI 模型对歪斜图片识别效果较差
- 并发线程数建议 3-5,太高可能触发 API 限流
注: 该功能为 Pro 用户可用。