数据处理
企查查信用报告处理
批量处理企查查信用报告DOCX文件,提取目录并统计对比
用于处理企查查信用报告(DOCX 格式),提取目录结构和统计信息,将多家公司的信用报告信息进行智能对齐和对比。
功能特点
- 智能对齐:不同公司若项目名称相同(即使编号不同),将自动合并到同一行
- 结构优化:输出结果拆分为编号列、项目名称列、各公司数据列
- 去噪处理:自动剔除目录页码干扰
- 支持递归查找文件夹中的所有 DOCX 文件
- 自动从文件名提取公司名称
输出结果
输出文件路径:output/企查查信用报告统计结果.xlsx
输出结构:
| 编号 | 项目 | 公司A | 公司B | ... |
|---|---|---|---|---|
| 1.1 | 基本信息 | 5 | 8 | ... |
| 1.2 | 企业标签 | 10 | 12 | ... |
| 2.1 | 变更记录 | 17 | 23 | ... |
- 编号列:目录编号(按数字排序)
- 项目列:目录项目名称
- 各公司列:每家公司对应项目的记录数量
使用方法
- 将所有企查查信用报告 DOCX 文件放入同一个文件夹
- 在工具界面点击「填写数据」选择文件夹(或通过 AI Agent 传入
folder_path参数) - 点击「开始运行」
文件名格式建议
文件名格式:XXX-公司名称-XXX.docx
程序会自动从文件名中第二个 - 分隔的部分提取公司名称。
AI Agent 调用参数
{
"folder_path": "/path/to/qcc/reports"
}注意:
- 仅处理
.docx格式文件,跳过临时文件- 使用 python-docx 库处理 Word 文档
- 自动剔除目录中的页码(点、空格、省略号+数字)