Pippin：构建 AI 时代的个人原生知识库引擎

将碎片化的信息流，转化为支持语义检索与对话的结构化数字资产

链接

所属类别

LLM WorkflowRAG

一、核心洞察 & 痛点

业务痛点： 传统的"稍后阅读"工具（如书签、微信文件传输助手）往往沦为"信息坟墓"。缺乏自动化的摘要与分类，导致内容的二次检索成本极高。
产品愿景： 在 AI 时代，通用的 LLM 只是"大脑"，而个人的专属数据才是"灵魂"。Pippin 的目标是通过低阻力的输入方式，为未来的 Personal Agent 搭建高质量的底层数据管道。

二、产品工作流与交互闭环

"Frictionless"的输入与智能化处理： 摒弃繁琐的表单填写，产品以 Telegram Bot 为超级入口，后端依托 Next.js API Routes 实现全自动的数据清洗与沉淀：

意图识别与输入： 用户向 TG Bot 发送链接及附加说明。AI 能够精准识别用户 Note 中的语义意图（如"收藏"、"important"），自动将数据打上高优标签。
自动化清洗与扩充： 后端提取网页元数据，并调用 Google Gemini 模型完成核心的"知识结构化"工作：自动生成标题、一句话摘要（TL;DR），并提取核心 Keywords。
沉淀与分发： 结构化数据及 768 维的向量特征（Embeddings）同步至 Supabase 数据库。处理结果极速在 TG 窗口形成交互闭环，并在 Web 端以响应式瀑布流展现。

三、AI 策略与产品思考

Prompt Engineering (提示词设计)： 为了保证分类的准确性，我没有让 AI 自由发挥，而是设计了约束性的 System Prompt，限定输出格式（JSON）并提供 Few-shot 示例，大幅降低了模型的幻觉。
Bad Case 处理： 在实际测试中发现，部分网站存在反爬机制（如推特、知乎）或需要付费墙。针对此类 Bad Case，Pippin 会降级处理：仅保留源链接和标题，并通过 TG 提示用户"内容提取受限"，保证系统不崩溃、不卡死。

四、下一步迭代

引入 Cron 任务，根据用户每周的沉淀数据，通过 AI 提炼生成个人专属的 Daily Digest（每日/每周知识简报）并推送至群组。
支持在 Telegram 侧直接对已有数据进行编辑、打标与删除，完善闭环管理。