close

DEV Community

Manoir Yantai
Manoir Yantai

Posted on

知识采集与记忆管理:我终于给AI装上了「长期记忆」和「信息消化系统」

折腾 Agent 的朋友应该都有同感:AI 能记住对话上下文,但跨会话的知识管理是个坑。笔记散落在 OneDrive,公众号文章阅后即焚,抖音视频看了就忘。我花了三周,基于 Hermes Memory Installer 底座搭了一套 Knowledge-and-Memory-Management v0.0.2,解决的就是「知识从哪来、怎么存、如何找」这个闭环。

先说结论:40+ 采集工具 + 三层记忆检索 + 云盘双向同步,走通了。

三个核心模块

采集层整合了 40+ 引擎,按来源分成 9 组。网页有 Scrapling(可过 Cloudflare)和 Chrome DevTools 协议兜底;视频有 yt-dlp + Whisper ASR + EasyOCR 的多级降级链;文档有新增的 SenseNova 三件套(PDF/PPT/Word 全量提取,扫描件也能吃)。最实用的改进是 book_cache_manager——下载完书自动触发精炼管线,把 PDF 拆成章节、提取知识点、生成 Skill 和笔记,全程无人值守。

存储层是 Hot(Memory tool 即时注入)+ Warm(Hindsight 向量记忆,10K 节点)+ Cold(gbrain 知识图谱,11K 页)三层。lightweight_recall 自动走 FTS5 → 向量 → 图谱的降级检索,每条结果带来源标识。

同步层通过 rclone 统一接口,OneDrive 每 4 小时双向增量同步。knowledge_discovery 每周日自动扫云端笔记,发现新文件就录入 gbrain。

一段实战代码

抓一篇公众号文章,自动入库:

from knowledge_collector import collect_web
from notes_rag import create_note
from cloud_sync import sync_to_cloud

# 网页采集 + 智能提取
result = collect_web('https://mp.weixin.qq.com/s/xxx')
print(f'笔记路径: {result.note_path}')   # → ~/.hermes/knowledge/notes/...
print(f'gbrain slug: {result.gbrain_slug}')  # → gbrain 自动建页

# 本地笔记不足时自动回落 AnySearch 垂直搜索
from knowledge_augmentation import AugmentedSearch
s = AugmentedSearch()
r = s.search('比亚迪 2026Q1 财报', domain='finance')
Enter fullscreen mode Exit fullscreen mode

整条链路就三行——采集、建笔记、同步。AugmentedSearch 会在本地检索(score < 0.6)时自动走 AnySearch 的 finance/academic/legal 等垂直领域,结果标注来源,可一键导入笔记库。

改进之处

目前书籍精炼管线还不够稳定——PDF 图表提取有时会丢数据,双引擎降级(pdfplumber → pdftotext → pdfminer)虽然有兜底,但表格还原率还有提升空间。视频批量转录在 10 条并发时偶现 Whisper 内存 OOM,下一版打算加队列限流。

项目开源,仓库在这。如果有折腾同类问题的朋友,欢迎提 PR 或 issue。

Top comments (0)