机关材料库整理助手：自动化文件管理与知识资产转化方案

机关材料库整理助手（Material Organizer）最终开发方案

项目背景与价值

本项目旨在整理机关事业单位、政府部门及公文写作者积累的十几年知识资产，通过自动化技术将杂乱文件转化为高价值知识资产。核心目标：自动扫描、去重、分类、评分、提取关键信息，并生成Obsidian和RAG知识库。

一、项目目标（优化后）

针对机关材料特性，新增文号管理（如X政发〔2026〕12号）、有效性管理（现行有效/已废止）等关键元数据。
实现文件版本控制，自动识别同一主题的修订版本（如“方案2024修订版”）。
优化AI评分机制，通过关键词规则引擎初筛+AI精评降低调用成本，并支持人工反馈修正。
确保安全合规，支持本地化部署、密级文件自动跳过、操作审计日志。
提供高可用用户体验，包括处理进度可视化、重复文件差异对比、评分一键修正等功能。

二、技术架构

材料库
  ↓
文件扫描模块
  ↓
文档解析模块
  ↓
AI分析模块（含缓存层）
  ↓
分类评分模块（规则引擎+AI）
  ↓
知识库生成模块
  ↓
Obsidian / AnythingLLM / Dify

三、技术要求

开发语言：Python 3.12+
GUI：PySide6（界面美观、打包方便、支持Windows）
数据存储：SQLite（material.db，新增版本表、密级表等）
AI接口：
- 统一抽象层，支持OpenAI、DeepSeek、通义千问等。
- 增加本地缓存层（SQLite缓存AI评分结果，避免重复调用）。
- 配置项：provider、api_key、base_url、model。

四、功能模块（优化与新增）

模块1：材料扫描（增强）

支持格式：doc、docx、pdf、txt、md、wps、rtf、ofd（新增国产格式支持）。
新增扫描元数据：文号、有效性。
对扫描件PDF调用OCR处理（Tesseract+中文模型）。
记录路径、大小、创建时间、修改时间，写入SQLite。

模块2：内容提取（增强）

新增红头文件预处理：自动裁剪页眉页脚（如识别“人民政府文件”后裁剪固定区域）。
提取：正文、前2000字、全文字数、发文单位、文号。

模块3：重复文件识别（三级策略）

一级去重（MD5）：完全重复文件。
二级去重（SimHash+阈值95%）：内容微调文件。
三级去重（文号+标题相似度）：识别同一文件的不同版本（如“方案（征求意见稿）”与“方案（正式稿）”）。
提供差异对比视图和一键合并建议（如合并至版本链）。

模块4：文件价值评分（混合策略）

阶段1：关键词规则引擎初筛（如含“领导讲话”直接标5分）。
阶段2：AI精评中高分文件（仅对3-4分文件调用AI）。
AI提示词（新增上下文）：
结果保存：评分、类别、理由，并支持Excel总览中人工修正。

模块5：自动分类（双模式+政府特性）

AI分类：基于全文理解。
关键词分类：预定义政府文件关键词库（如“安全生产”“行政复议”）。
分类体系新增：密级、有效性、版本状态（如“现行有效”“已废止”）。

模块6：金句提取 & 版本管理

输出金句、排比句、标题，保存至数据库。
新增版本链管理：自动关联同一主题的修订版本（如“方案2024修订版”替换“方案2022试行版”）。

模块7：标签生成（增强）

支持多标签，新增密级标签（如#秘密）、有效性标签（如#已废止）。

模块8：Excel总览（扩展字段）

导出字段：文件名、类别、评分、标签、密级、文号、有效性、版本。
支持按密级、版本状态筛选。

Obsidian导出（增强）

---
title: 安全生产讲话（2026修订版）
score: 5
category: 领导讲话
tags:
  - 安全生产
  - 司法行政
version: 2026修订版
replaces: 2024试行版
---

# 文件信息
原文件路径：D:\材料库\xxx.docx
密级：内部
文号：X政法发〔2026〕5号
有效性：现行有效
...

RAG准备模块（适配性优化）

导出结构：rag_export/<分类>/<标题>，含标题、摘要、正文、元数据（密级、文号）。
支持AnythingLLM、Dify、Cherry Studio，导入时保留元数据。

统计面板（新增维度）

显示：总文件数、重复文件数、高价值文件数、按密级/版本状态分布、分类饼图。
示例：

处理流程（新增版本处理）

扫描目录
解析文件（含密级、文号提取）
三级去重（含版本关联）
关键词初筛评分
AI精评中高分文件
双模式分类
提取金句 & 版本关联
生成知识库

五、安全与合规

本地化部署：禁用网络请求时纯离线运行。
密级处理：自动跳过密级≥“内部”的文件（需权限验证）。
操作审计：记录用户操作日志（谁/何时/处理了哪些文件）。

六、实施路线图（分阶段MVP）

阶段	目标	交付物	周期
Phase 0	基础管道	命令行工具（扫描/去重/元数据导出）	2周
Phase 1	核心闭环	GUI版+关键词分类+Excel导出+安全控制	4周
Phase 2	智能增强	AI评分（带缓存）+版本管理+金句提取	3周
Phase 3	知识库集成	Obsidian/RAG导出+统计面板	2周

七、开发注意事项

第一阶段重点：确保“扫描→去重→关键词分类→Excel导出”闭环可用，不开发RAG和公文生成模块。
AI调用优化：
差异对比工具：使用difflib或第三方库实现重复文件高亮对比。

八、风险规避

政府文件特殊性：预置红头模板库自动裁剪页眉页脚。
AI幻觉规避：评分理由需标注证据（如“检测到‘经省政府批准’（第3段）→ 5分”）。
性能优化：文件解析使用多线程/进程池加速。

最终交付物清单

可执行安装包（Windows）
完整SQLite数据库（material.db）
开发文档（API接口、数据库结构、部署指南）
测试用例集（含政府文件样本）

总结

本方案通过深度融合政府文件特性、安全合规设计、分阶段MVP开发路线，确保既能快速解决用户痛点（6000文件整理），又为后续RAG和AI写作预留扩展性。强调 “元数据+可信关系” 为核心，避免过度依赖AI全自动，优先保障实用性和安全性。

备注

交付OpenCode/Codex时，需强调Phase 1必须实现单机离线全流程，满足机关用户“不丢失关键信息”的心理门槛。

机关材料库整理助手（Material Organizer）最终开发方案#

项目背景与价值#

一、项目目标（优化后）#

二、技术架构#

三、技术要求#

四、功能模块（优化与新增）#

模块1：材料扫描（增强）#

模块2：内容提取（增强）#

模块3：重复文件识别（三级策略）#

模块4：文件价值评分（混合策略）#

模块5：自动分类（双模式+政府特性）#

模块6：金句提取 & 版本管理#

模块7：标签生成（增强）#

模块8：Excel总览（扩展字段）#

Obsidian导出（增强）#

RAG准备模块（适配性优化）#

统计面板（新增维度）#

处理流程（新增版本处理）#

五、安全与合规#

六、实施路线图（分阶段MVP）#

七、开发注意事项#

八、风险规避#

最终交付物清单#

总结#

备注#