SW
SW
审计工具箱
AI功能

纸质信息核对

从 PDF/图片中提取信息,与 Excel 账面数据双向核对,自动生成明细表和汇总报告

视频教程


功能概述

从扫描版 PDF 或图片文件中自动提取关键信息,与 Excel 中的账面数据进行逐条双向核对。内置 AI 二次判断机制,可智能识别语义一致但格式不同的数据。最终生成包含提取结果、核对明细和美化汇总报告的结果文件。

核心特性:

  • 双向核对:账面与纸质文件逐字段对比,标记一致/不一致/缺失/多余
  • AI 二次判断:对初步不一致的字段自动调用 AI 进行语义判断(如格式差异、简写、同义表达等)
  • 智能匹配:先精确匹配,失败后自动进行标准化模糊匹配(处理大小写、全角半角、空格差异)
  • 多线程并发:支持并发处理多个文件
  • 断点续传:中断后重新运行自动跳过已处理文件
  • 美化汇总报告:包含总体统计和按字段维度统计的一致率分析

AI 模型配置

在「参数设置」中配置以下参数:

参数说明
base_urlAI 平台兼容 OpenAI 的 API 地址
api_keyAPI 密钥
model_name文本模型名称,用于文本型 PDF 和 AI 二次判断
visual_model_name视觉模型名称,用于图片和扫描型 PDF

配置表说明

配置文件路径:input/纸质信息核对配置表.xlsx

「配置表」Sheet

A列B列说明
1文件或文件夹路径(填写路径)PDF/图片文件路径,或包含多个文件的文件夹路径
2匹配键(如:公司主体,银行账号用于关联提取数据与账面数据的字段名,支持中英文逗号分隔
3并发线程数数字(默认 1)同时处理的任务数,建议 3-5
4补充指令(可选)追加到 AI 提示词末尾的补充指令

「待核对信息」Sheet

  • 第 1 行:填写表头(字段名),如:公司主体、银行账号、开户行、金额
  • 第 2 行起:填写账面数据,每行一条记录
  • 表头字段名必须包含配置表中填写的匹配键

处理流程

  1. 发现文件:扫描配置路径下的所有 PDF/图片文件
  2. AI 提取:自动判断 PDF 类型(文本型用语言模型,扫描型用视觉模型),提取字段信息
  3. 数据匹配:将提取记录与账面记录进行精确匹配和模糊匹配
  4. AI 二次判断:对所有「不一致」字段调用 AI 判断语义是否一致
  5. 生成报告:写入核对明细和汇总表

核对结果标记说明

标记含义
一致账面值与提取值完全一致
不一致初步不一致,AI 二次判断仍不一致
一致(AI)初步不一致,但 AI 判断语义上一致(如格式差异、简写等)
缺失(文件中未找到)账面有这条记录,但文件中没有提取到对应数据
多余(Excel中未找到)文件中提取到了数据,但账面没有对应记录

输出结果

  • 输出路径:output/纸质信息核对/纸质信息核对结果_时间戳.xlsx

结果文件包含 3 个 Sheet:

Sheet名内容
提取结果AI 从文件中提取的原始数据,第一列为文件路径(可点击跳转)
核对明细逐条对比:账面数据 - 文件路径 - 提取数据 - 核对结果
汇总表美化的核对报告,包含总体统计和按字段维度统计

使用步骤

  1. 在「参数设置」中配置 base_urlapi_key、文本模型和视觉模型
  2. 在「配置表」Sheet 中填写文件路径和匹配键
  3. 在「待核对信息」Sheet 中填写表头和账面数据
  4. 运行功能,等待处理完成
  5. 查看输出文件中的核对明细和汇总表

注意: 匹配键字段的值必须在账面数据和文件内容中一致。程序会自动处理大小写、全角半角、空格等差异,但如果字段内容本身不同则无法匹配。

实践技巧

  • 补充指令可用于提升识别准确率,例如指定文件的具体类型("银行开户清单")或标注特殊的排版特征
  • 匹配键支持多字段组合,如 公司主体,银行账号,用于精确定位每条记录
  • OCR 旋转:很多 PDF 拍摄不端正,建议先安装 tesseract-ocr(网盘中可直接下载),各 AI 提取功能可后台调用它对图片自动旋转,否则 AI 模型对歪斜图片识别效果较差
  • 并发线程数建议 3-5,太高可能触发 API 限流

注: 该功能为 Pro 用户可用。