SW
SW
审计工具箱
AI功能

文件自动分类

利用 AI 对多种类型文件进行自动分类归档,支持多公司模式和多种输出目录结构

视频教程


功能概述

利用 AI 视觉模型和语言模型,对收集到的大量资料进行自动分类归档。支持图片、PDF、Word、Excel、CSV、TXT、Markdown 等多种文件类型,可根据配置自动将文件复制到对应的分类目录中。

核心特性:

  • 多类型文件支持:图片/PDF 用视觉模型,Excel/Word/TXT 等用语言模型
  • 高置信度分类:内置严格分类策略,不确定的文件归入「未分类」而非错误归类
  • 多公司模式:支持按公司分目录批量处理
  • 灵活输出结构:支持「按类别」或「按公司」两种输出目录组织方式
  • 多层级目录输出:分类项支持 / 分隔符创建多级目录结构

AI 模型配置

在「参数设置」中配置以下参数:

参数说明
base_urlAI 平台兼容 OpenAI 的 API 地址
api_keyAPI 密钥
model_name语言模型名称,用于处理文本类文件(Excel、Word、TXT 等)
visual_model_name视觉模型名称,用于处理图片和 PDF(取首页)

配置表说明

配置文件路径:input/文件分类配置表.xlsx

「基础配置」Sheet

A列B列说明
1输出文件模式文件文件夹「文件」只输出文件;「文件夹」保留原始目录结构
2公司模式单一多个「多个」模式下处理文件夹的子目录作为不同公司
3处理文件夹(填写路径)待分类文件的根目录路径
4输出文件夹(填写路径)分类结果的输出目录路径
5输出模式公司类别「类别」模式:类别/公司名/文件;「公司」模式:公司名/类别/文件

「类型配置」Sheet

说明
A列文件类别路径(支持 / 分隔的多级目录,如 其它资料/不动产抵押权证
B列类别描述(可选,帮助 AI 更准确识别)

示例:

类别路径描述
客户信用调查表
营业执照
户口簿
税务申报表
其它资料/不动产抵押权证可能是不动产权证明
其它资料/担保合同合同中涉及担保条款的文件

支持的文件类型

类型扩展名处理方式
图片.png .jpg .jpeg .bmp .webp视觉模型识别图片内容
PDF.pdf取第一页转为图片,视觉模型识别
Excel.xlsx .xls读取前 5 行内容,语言模型分析
Word.docx读取前 5 段内容,语言模型分析
CSV.csv读取前 5 行内容,语言模型分析
文本.txt .md .markdown读取全文,语言模型分析

输出结果

  • 文件被复制(非移动)到输出文件夹的对应分类目录中
  • 无法分类的文件归入「未分类」目录

使用步骤

  1. 在「参数设置」中配置 base_urlapi_key、文本模型和视觉模型
  2. 在「基础配置」Sheet 中填写处理文件夹和输出文件夹路径
  3. 在「类型配置」Sheet 中填写类别和描述
  4. 运行功能,等待分类完成
  5. 查看输出目录中的分类结果

注意: 原始文件不会被修改或删除,本功能仅复制文件到输出目录。如果类别显而易见(如「营业执照」),可以不填写描述信息。