一、核心洞察 & 痛点
- 业务痛点: 传统的"稍后阅读"工具(如书签、微信文件传输助手)往往沦为"信息坟墓"。缺乏自动化的摘要与分类,导致内容的二次检索成本极高。
- 产品愿景: 在 AI 时代,通用的 LLM 只是"大脑",而个人的专属数据才是"灵魂"。Pippin 的目标是通过低阻力的输入方式,为未来的 Personal Agent 搭建高质量的底层数据管道。
二、产品工作流与交互闭环
"Frictionless"的输入与智能化处理: 摒弃繁琐的表单填写,产品以 Telegram Bot 为超级入口,后端依托 Next.js API Routes 实现全自动的数据清洗与沉淀:
- 意图识别与输入: 用户向 TG Bot 发送链接及附加说明。AI 能够精准识别用户 Note 中的语义意图(如"收藏"、"important"),自动将数据打上高优标签。
- 自动化清洗与扩充: 后端提取网页元数据,并调用 Google Gemini 模型完成核心的"知识结构化"工作:自动生成标题、一句话摘要(TL;DR),并提取核心 Keywords。
- 沉淀与分发: 结构化数据及 768 维的向量特征(Embeddings)同步至 Supabase 数据库。处理结果极速在 TG 窗口形成交互闭环,并在 Web 端以响应式瀑布流展现。
三、AI 策略与产品思考
- Prompt Engineering (提示词设计): 为了保证分类的准确性,我没有让 AI 自由发挥,而是设计了约束性的 System Prompt,限定输出格式(JSON)并提供 Few-shot 示例,大幅降低了模型的幻觉。
- Bad Case 处理: 在实际测试中发现,部分网站存在反爬机制(如推特、知乎)或需要付费墙。针对此类 Bad Case,Pippin 会降级处理:仅保留源链接和标题,并通过 TG 提示用户"内容提取受限",保证系统不崩溃、不卡死。
四、下一步迭代
- 引入 Cron 任务,根据用户每周的沉淀数据,通过 AI 提炼生成个人专属的 Daily Digest(每日/每周知识简报)并推送至群组。
- 支持在 Telegram 侧直接对已有数据进行编辑、打标与删除,完善闭环管理。