机关材料库整理助手(Material Organizer)最终开发方案

项目背景与价值

本项目旨在整理机关事业单位、政府部门及公文写作者积累的十几年知识资产,通过自动化技术将杂乱文件转化为高价值知识资产。核心目标:自动扫描、去重、分类、评分、提取关键信息,并生成Obsidian和RAG知识库。

一、项目目标(优化后)

  1. 针对机关材料特性,新增文号管理(如X政发〔2026〕12号)、有效性管理(现行有效/已废止)等关键元数据。
  2. 实现文件版本控制,自动识别同一主题的修订版本(如“方案2024修订版”)。
  3. 优化AI评分机制,通过关键词规则引擎初筛+AI精评降低调用成本,并支持人工反馈修正。
  4. 确保安全合规,支持本地化部署、密级文件自动跳过、操作审计日志。
  5. 提供高可用用户体验,包括处理进度可视化、重复文件差异对比、评分一键修正等功能。

二、技术架构

材料库
文件扫描模块
文档解析模块
AI分析模块(含缓存层)
分类评分模块(规则引擎+AI)
知识库生成模块
Obsidian / AnythingLLM / Dify

三、技术要求

  1. 开发语言:Python 3.12+
  2. GUI:PySide6(界面美观、打包方便、支持Windows)
  3. 数据存储:SQLite(material.db,新增版本表密级表等)
  4. AI接口
    • 统一抽象层,支持OpenAI、DeepSeek、通义千问等。
    • 增加本地缓存层(SQLite缓存AI评分结果,避免重复调用)。
    • 配置项:providerapi_keybase_urlmodel

四、功能模块(优化与新增)

模块1:材料扫描(增强)

  • 支持格式:doc、docx、pdf、txt、md、wps、rtf、ofd(新增国产格式支持)。
  • 新增扫描元数据:文号有效性
  • 对扫描件PDF调用OCR处理(Tesseract+中文模型)。
  • 记录路径、大小、创建时间、修改时间,写入SQLite。

模块2:内容提取(增强)

  • 新增红头文件预处理:自动裁剪页眉页脚(如识别“人民政府文件”后裁剪固定区域)。
  • 提取:正文、前2000字、全文字数、发文单位文号

模块3:重复文件识别(三级策略)

  1. 一级去重(MD5):完全重复文件。
  2. 二级去重(SimHash+阈值95%):内容微调文件。
  3. 三级去重(文号+标题相似度):识别同一文件的不同版本(如“方案(征求意见稿)”与“方案(正式稿)”)。
  4. 提供差异对比视图一键合并建议(如合并至版本链)。

模块4:文件价值评分(混合策略)

  1. 阶段1:关键词规则引擎初筛(如含“领导讲话”直接标5分)。
  2. 阶段2:AI精评中高分文件(仅对3-4分文件调用AI)。
  3. AI提示词(新增上下文):
  4. 结果保存:评分、类别、理由,并支持Excel总览中人工修正

模块5:自动分类(双模式+政府特性)

  • AI分类:基于全文理解。
  • 关键词分类:预定义政府文件关键词库(如“安全生产”“行政复议”)。
  • 分类体系新增:密级、有效性、版本状态(如“现行有效”“已废止”)。

模块6:金句提取 & 版本管理

  • 输出金句、排比句、标题,保存至数据库。
  • 新增版本链管理:自动关联同一主题的修订版本(如“方案2024修订版”替换“方案2022试行版”)。

模块7:标签生成(增强)

  • 支持多标签,新增密级标签(如#秘密)、有效性标签(如#已废止)。

模块8:Excel总览(扩展字段)

  • 导出字段:文件名、类别、评分、标签、密级文号有效性版本
  • 支持按密级、版本状态筛选。

Obsidian导出(增强)

---
title: 安全生产讲话(2026修订版)
score: 5
category: 领导讲话
tags:
  - 安全生产
  - 司法行政
version: 2026修订版
replaces: 2024试行版
---

# 文件信息
原文件路径:D:\材料库\xxx.docx
密级:内部
文号:X政法发〔2026〕5号
有效性:现行有效
...

RAG准备模块(适配性优化)

  • 导出结构:rag_export/<分类>/<标题>,含标题、摘要、正文、元数据(密级、文号)
  • 支持AnythingLLM、Dify、Cherry Studio,导入时保留元数据。

统计面板(新增维度)

  • 显示:总文件数、重复文件数、高价值文件数、按密级/版本状态分布、分类饼图。
  • 示例:

处理流程(新增版本处理)

  1. 扫描目录
  2. 解析文件(含密级、文号提取)
  3. 三级去重(含版本关联)
  4. 关键词初筛评分
  5. AI精评中高分文件
  6. 双模式分类
  7. 提取金句 & 版本关联
  8. 生成知识库

五、安全与合规

  1. 本地化部署:禁用网络请求时纯离线运行。
  2. 密级处理:自动跳过密级≥“内部”的文件(需权限验证)。
  3. 操作审计:记录用户操作日志(谁/何时/处理了哪些文件)。

六、实施路线图(分阶段MVP)

阶段 目标 交付物 周期
Phase 0 基础管道 命令行工具(扫描/去重/元数据导出) 2周
Phase 1 核心闭环 GUI版+关键词分类+Excel导出+安全控制 4周
Phase 2 智能增强 AI评分(带缓存)+版本管理+金句提取 3周
Phase 3 知识库集成 Obsidian/RAG导出+统计面板 2周

七、开发注意事项

  1. 第一阶段重点:确保“扫描→去重→关键词分类→Excel导出”闭环可用,不开发RAG和公文生成模块。
  2. AI调用优化
  3. 差异对比工具:使用difflib或第三方库实现重复文件高亮对比。

八、风险规避

  1. 政府文件特殊性:预置红头模板库自动裁剪页眉页脚。
  2. AI幻觉规避:评分理由需标注证据(如“检测到‘经省政府批准’(第3段)→ 5分”)。
  3. 性能优化:文件解析使用多线程/进程池加速。

最终交付物清单

  1. 可执行安装包(Windows)
  2. 完整SQLite数据库(material.db
  3. 开发文档(API接口、数据库结构、部署指南)
  4. 测试用例集(含政府文件样本)

总结

本方案通过深度融合政府文件特性、安全合规设计、分阶段MVP开发路线,确保既能快速解决用户痛点(6000文件整理),又为后续RAG和AI写作预留扩展性。强调 “元数据+可信关系” 为核心,避免过度依赖AI全自动,优先保障实用性和安全性。

备注

交付OpenCode/Codex时,需强调Phase 1必须实现单机离线全流程,满足机关用户“不丢失关键信息”的心理门槛。