机关材料库整理助手(Material Organizer)最终开发方案
项目背景与价值
本项目旨在整理机关事业单位、政府部门及公文写作者积累的十几年知识资产,通过自动化技术将杂乱文件转化为高价值知识资产。核心目标:自动扫描、去重、分类、评分、提取关键信息,并生成Obsidian和RAG知识库。
一、项目目标(优化后)
- 针对机关材料特性,新增文号管理(如X政发〔2026〕12号)、有效性管理(现行有效/已废止)等关键元数据。
- 实现文件版本控制,自动识别同一主题的修订版本(如“方案2024修订版”)。
- 优化AI评分机制,通过关键词规则引擎初筛+AI精评降低调用成本,并支持人工反馈修正。
- 确保安全合规,支持本地化部署、密级文件自动跳过、操作审计日志。
- 提供高可用用户体验,包括处理进度可视化、重复文件差异对比、评分一键修正等功能。
二、技术架构
材料库
↓
文件扫描模块
↓
文档解析模块
↓
AI分析模块(含缓存层)
↓
分类评分模块(规则引擎+AI)
↓
知识库生成模块
↓
Obsidian / AnythingLLM / Dify
三、技术要求
- 开发语言:Python 3.12+
- GUI:PySide6(界面美观、打包方便、支持Windows)
- 数据存储:SQLite(
material.db,新增版本表、密级表等) - AI接口:
- 统一抽象层,支持OpenAI、DeepSeek、通义千问等。
- 增加本地缓存层(SQLite缓存AI评分结果,避免重复调用)。
- 配置项:
provider、api_key、base_url、model。
四、功能模块(优化与新增)
模块1:材料扫描(增强)
- 支持格式:doc、docx、pdf、txt、md、wps、rtf、ofd(新增国产格式支持)。
- 新增扫描元数据:文号、有效性。
- 对扫描件PDF调用OCR处理(Tesseract+中文模型)。
- 记录路径、大小、创建时间、修改时间,写入SQLite。
模块2:内容提取(增强)
- 新增红头文件预处理:自动裁剪页眉页脚(如识别“人民政府文件”后裁剪固定区域)。
- 提取:正文、前2000字、全文字数、发文单位、文号。
模块3:重复文件识别(三级策略)
- 一级去重(MD5):完全重复文件。
- 二级去重(SimHash+阈值95%):内容微调文件。
- 三级去重(文号+标题相似度):识别同一文件的不同版本(如“方案(征求意见稿)”与“方案(正式稿)”)。
- 提供差异对比视图和一键合并建议(如合并至版本链)。
模块4:文件价值评分(混合策略)
- 阶段1:关键词规则引擎初筛(如含“领导讲话”直接标5分)。
- 阶段2:AI精评中高分文件(仅对3-4分文件调用AI)。
- AI提示词(新增上下文):
- 结果保存:评分、类别、理由,并支持Excel总览中人工修正。
模块5:自动分类(双模式+政府特性)
- AI分类:基于全文理解。
- 关键词分类:预定义政府文件关键词库(如“安全生产”“行政复议”)。
- 分类体系新增:密级、有效性、版本状态(如“现行有效”“已废止”)。
模块6:金句提取 & 版本管理
- 输出金句、排比句、标题,保存至数据库。
- 新增版本链管理:自动关联同一主题的修订版本(如“方案2024修订版”替换“方案2022试行版”)。
模块7:标签生成(增强)
- 支持多标签,新增密级标签(如#秘密)、有效性标签(如#已废止)。
模块8:Excel总览(扩展字段)
- 导出字段:文件名、类别、评分、标签、密级、文号、有效性、版本。
- 支持按密级、版本状态筛选。
Obsidian导出(增强)
---
title: 安全生产讲话(2026修订版)
score: 5
category: 领导讲话
tags:
- 安全生产
- 司法行政
version: 2026修订版
replaces: 2024试行版
---
# 文件信息
原文件路径:D:\材料库\xxx.docx
密级:内部
文号:X政法发〔2026〕5号
有效性:现行有效
...
RAG准备模块(适配性优化)
- 导出结构:
rag_export/<分类>/<标题>,含标题、摘要、正文、元数据(密级、文号)。 - 支持AnythingLLM、Dify、Cherry Studio,导入时保留元数据。
统计面板(新增维度)
- 显示:总文件数、重复文件数、高价值文件数、按密级/版本状态分布、分类饼图。
- 示例:
处理流程(新增版本处理)
- 扫描目录
- 解析文件(含密级、文号提取)
- 三级去重(含版本关联)
- 关键词初筛评分
- AI精评中高分文件
- 双模式分类
- 提取金句 & 版本关联
- 生成知识库
五、安全与合规
- 本地化部署:禁用网络请求时纯离线运行。
- 密级处理:自动跳过密级≥“内部”的文件(需权限验证)。
- 操作审计:记录用户操作日志(谁/何时/处理了哪些文件)。
六、实施路线图(分阶段MVP)
| 阶段 | 目标 | 交付物 | 周期 |
|---|---|---|---|
| Phase 0 | 基础管道 | 命令行工具(扫描/去重/元数据导出) | 2周 |
| Phase 1 | 核心闭环 | GUI版+关键词分类+Excel导出+安全控制 | 4周 |
| Phase 2 | 智能增强 | AI评分(带缓存)+版本管理+金句提取 | 3周 |
| Phase 3 | 知识库集成 | Obsidian/RAG导出+统计面板 | 2周 |
七、开发注意事项
- 第一阶段重点:确保“扫描→去重→关键词分类→Excel导出”闭环可用,不开发RAG和公文生成模块。
- AI调用优化:
- 差异对比工具:使用
difflib或第三方库实现重复文件高亮对比。
八、风险规避
- 政府文件特殊性:预置红头模板库自动裁剪页眉页脚。
- AI幻觉规避:评分理由需标注证据(如“检测到‘经省政府批准’(第3段)→ 5分”)。
- 性能优化:文件解析使用多线程/进程池加速。
最终交付物清单
- 可执行安装包(Windows)
- 完整SQLite数据库(
material.db) - 开发文档(API接口、数据库结构、部署指南)
- 测试用例集(含政府文件样本)
总结
本方案通过深度融合政府文件特性、安全合规设计、分阶段MVP开发路线,确保既能快速解决用户痛点(6000文件整理),又为后续RAG和AI写作预留扩展性。强调 “元数据+可信关系” 为核心,避免过度依赖AI全自动,优先保障实用性和安全性。
备注
交付OpenCode/Codex时,需强调Phase 1必须实现单机离线全流程,满足机关用户“不丢失关键信息”的心理门槛。