知识采集与记忆管理：我终于给AI装上了「长期记忆」和「信息消化系统」

#ai #automation #opensource

折腾 Agent 的朋友应该都有同感：AI 能记住对话上下文，但跨会话的知识管理是个坑。笔记散落在 OneDrive，公众号文章阅后即焚，抖音视频看了就忘。我花了三周，基于 Hermes Memory Installer 底座搭了一套 Knowledge-and-Memory-Management v0.0.2，解决的就是「知识从哪来、怎么存、如何找」这个闭环。

先说结论：40+ 采集工具 + 三层记忆检索 + 云盘双向同步，走通了。

三个核心模块

采集层整合了 40+ 引擎，按来源分成 9 组。网页有 Scrapling（可过 Cloudflare）和 Chrome DevTools 协议兜底；视频有 yt-dlp + Whisper ASR + EasyOCR 的多级降级链；文档有新增的 SenseNova 三件套（PDF/PPT/Word 全量提取，扫描件也能吃）。最实用的改进是 book_cache_manager——下载完书自动触发精炼管线，把 PDF 拆成章节、提取知识点、生成 Skill 和笔记，全程无人值守。

存储层是 Hot（Memory tool 即时注入）+ Warm（Hindsight 向量记忆，10K 节点）+ Cold（gbrain 知识图谱，11K 页）三层。lightweight_recall 自动走 FTS5 → 向量 → 图谱的降级检索，每条结果带来源标识。

同步层通过 rclone 统一接口，OneDrive 每 4 小时双向增量同步。knowledge_discovery 每周日自动扫云端笔记，发现新文件就录入 gbrain。

一段实战代码

抓一篇公众号文章，自动入库：

from knowledge_collector import collect_web
from notes_rag import create_note
from cloud_sync import sync_to_cloud

# 网页采集 + 智能提取
result = collect_web('https://mp.weixin.qq.com/s/xxx')
print(f'笔记路径: {result.note_path}')   # → ~/.hermes/knowledge/notes/...
print(f'gbrain slug: {result.gbrain_slug}')  # → gbrain 自动建页

# 本地笔记不足时自动回落 AnySearch 垂直搜索
from knowledge_augmentation import AugmentedSearch
s = AugmentedSearch()
r = s.search('比亚迪 2026Q1 财报', domain='finance')