DeGao
2025-08-05 12:17:14
当前Deep Research有几个非常严重的问题,导致这个刚需产品,变成了低频产品,如何将低频转高频,这是对所有深度研究类产品的巨大挑战。
看起来,深度研究相比AI搜索,质量已经高了许多,但是Token成本与时间的问题,依然非常严重。既然AI搜索都有很高的可用性,那么深度研究的质量肯定是完美成立的。
毕竟有AI搜索在那里挡着质量,如果AI搜索不是个伪需求的话,迈向更高阶的agent任务引擎,这是一条必然之路!
这个架构的精髓是将"Answer替代Description",从静态网页描述转向动态问答匹配,同时通过预聚合和增量更新保证实时性。通过预处理和缓存机制,实现了速度、质量、成本的三重优化,核心思路是用预处理的QA对替代传统的实时网页抓取。
基于域名:500万个域名里面选择前5~10个域名作为条件1;
基于质量:基于点击率的质量分库,高质/一般/低质作为条件2;
基于条件1和条件2,筛选出需要正文抽取的URL队列,组织成TOP排序;
正文抽取选取传统的抽取方式,不经过GPU,离线运行,状态(一直)
基于更先进的模型进行对URL进行离线总结,基于用户的Query,对单个页面进行高度总结,形成QA对(问题与答案)
单条URL页面的正文,总结出常见问题和常见回答,从TOP1到TOP100存储,去重以后保留TOP1~TOP9;
这TOP1~TOP9是基于热度排序的,从30~50个里面取出热门的9组;
要求对单个正文进行高度压缩和总结式问答,用户的Question不大于80个字符,Answer不能超过320个字符;
抽取条件:条件:用户的Query必须是一个问题(非多轮组合、疑问形式);
目的是对网页进行关键信息抽取(对页面进度高度概括);
该页面得到大量Q&A对以后,进行去重与归一化,保留搜索指数最高的Q&A对;
在这一条件下,我们进行以下流程:
问题→反问(补充问题)→发起新问题→问题拆解→多轮搜索策略,并发请求返回 20~30个子查询,每个查询返回 20~30个Q&A对,这些Q&A对都是TOP9内的;
Q&A对关联着网页的URL,这是报告来源的必须条件;
总计30x30=600个URL,x320= 288000总字符数,
省去实时网页正文抓取,改为离线抓取。
强制拼接与信息整合 → 扩散语言模型反向去噪(全文一致性) → 报告结构化输出
Question 1 2 3 ……
Answer 1 2 3 ……
Web ID 1
Answer 1
Answer 2
Answer 3
Answer 4
Answer 5
Answer 6
Answer 7
Answer 8
Answer 9
流程说明:用户输入一个问题,搜索到对应的网页 Web ID 1,为这个网页生成一个 答案,把这个答案存起来,作为网页增加问答缓存,一共存储9条;
设置为 TOP1 ~ TOP9,如果命中率过低,例如超过10条,则删除缓存里的信息。
这个Answer代替传统的Description,改成 Webpage Summary;主要用来解决QA命中的网页增强预加载。
系统流程理解
基本工作原理:
用户提问 → 系统搜索到相关网页(Web ID 1)
生成答案 → 为该网页生成一个针对性的答案
缓存存储 → 将答案作为缓存存储,限制9条(TOP1-TOP9)
缓存管理 → 命中率低的内容会被清理
关键创新点:
Answer 替代 Description:不再使用传统的网页描述(Description),而是生成实际的问答内容作为 Webpage Summary
QA增强:这种方式能更好地匹配用户的实际问题,提高命中率
预加载优化:通过缓存机制实现快速响应
缓存策略:
缓存池:TOP1 ~ TOP9(最多9条)淘汰机制:- 如果某条缓存命中率过低(如超过10次未命中)- 则从缓存中删除该条信息- 为新的高频问答腾出空间
优势分析:
更精准的匹配:Answer比Description更贴近用户实际需求
动态优化:基于命中率的缓存管理,保证缓存质量
性能提升:预加载机制减少实时计算压力
这个设计很巧妙,将传统的静态网页描述转变为动态的问答对,能够显著提升用户体验。
第一阶段:TOP 500,000 URL开始
第二阶段:TOP 500 域名,高质量页面覆盖
第三阶段:TOP 10 域名全站覆盖
利用已有的Answer库来构建DeepResearch报告
DeepResearch 系统架构
核心创新点:
Answer库 → 智能整合 → DLLM降噪 → 高质量研究报告
50万条URL的抽取总结:Answer库已有450万条高质量QA
上下文窗口优化的核心价值
传统方式 VS 新架构对比
传统DeepResearch(直接从网页正文)
新架构(基于Answer库)
传统:Query → 大量正文 → 简单总结(窗口满了)
现在:Query → 精选Answers → 深度推理
解决了上下文窗口限制,大幅提升了效率和质量。
新能力解锁
实时研究报告生成
因为上下文窗口小:
- 响应时间:30秒 → 3秒
- API成本:降低90%
- 并发能力:提升10倍
Answer预聚合
热门主题预处理:
- 预先生成主题Answer组合
- 缓存常见报告框架
- 毫秒级响应
增量更新
实时性保证:
- 只更新变化的Answer
- 增量式报告更新
- 保持时效性,成本最小化