Local Deep Research:本地运行的开源深度研究助手
约 13 分钟3758 字4 次阅读

Local Deep Research:本地运行的开源深度研究助手
项目地址:https://github.com/LearningCircuit/local-deep-research
Stars:GitHub 社区持续增长中
许可证:MIT License
特色:首个在单张 RTX 3090(Qwen3.6-27B)上实现 ~95% SimpleQA 准确率的开源项目
1. 什么是 Local Deep Research?
Local Deep Research(以下简称 LDR)是一个本地运行的 AI 驱动深度研究助手,它能够自主完成复杂主题的信息检索、交叉验证和报告生成——完全不依赖任何外部云服务。
与 OpenAI Deep Research 等商业产品相比,LDR 的核心差异在于数据主权和成本控制:
| 维度 | OpenAI Deep Research | Local Deep Research |
|---|---|---|
| 数据隐私 | 查询发送到 OpenAI 服务器 | 完全本地处理 |
| LLM 选择 | 仅限 OpenAI 模型 | Ollama / LM Studio / 任何 OpenAI 兼容端点 |
| 搜索隐私 | 服务器端记录查询 | 零追踪、零遥测 |
| 运行成本 | API 按次计费 | GPU 算力成本(一次性) |
| 可定制性 | 黑盒闭源 | 全源码开源 |
2. 核心性能:本地硬件也能打
LDR 是首个在单卡消费级 GPU 上报告 ~95% SimpleQA 准确率(n=500)的开源研究助手项目。以下是社区基准测试的核心结果:
| 模型 | SimpleQA | xbench-DeepSearch |
|---|---|---|
| Qwen3.6-27B | 95.7% (287/300) | 77.0% (77/100) |
| Qwen3.5-9B | 91.2% (182/200) | 59.0% (59/100) |
| gpt-oss-20B | 85.4% (295/346) | – |
💡 消费级 RTX 3090 即可运行 Qwen3.6-27B,获得与商业方案相当的准确率。
为什么关注 SimpleQA? SimpleQA 是由 OpenAI 提出的大模型事实性问答评估基准,涵盖范围广、无污染风险,是衡量研究助手真实能力的重要指标。LDR 在 langgraph-agent 策略下借助 Serper 搜索,在本地硬件上达到了与商业产品正面竞争的水平。
3. 工作原理:多策略研究流水线
LDR 支持20+ 种研究策略,覆盖从 30 秒快速摘要到 30 分钟专业报告的所有场景。
3.1 研究流程总览
用户提问
↓
选择研究策略(Quick Summary / Detailed / Report / LangGraph Agent)
↓
多引擎并行搜索(Web、学术数据库、本地文档)
↓
LLM 交叉验证与信息整合
↓
生成带引用的研究报告
3.2 LangGraph Agent 策略(旗舰)
langgraph-agent 是 LDR 的旗舰研究策略,其核心是一个自主决策的智能体:
- 自主规划搜索路径:LLM 根据已发现的信息动态决定下一步搜索方向
- 自适应切换搜索引擎:在 arXiv、PubMed、Semantic Scholar、Wikipedia 等专业引擎之间智能跳转
- 收集显著更多的信息源:相比传统管道式策略,agent 策略能发现并引用 3-5 倍以上的相关来源
这正是 LDR 能在 SimpleQA 上达到 ~95% 准确率的技术基础。
3.3 多引擎搜索覆盖
免费引擎:
- 学术:arXiv、PubMed、Semantic Scholar
- 通用:Wikipedia、SearXNG
- 技术:GitHub、Elasticsearch
- 历史:Wayback Machine
- 新闻:The Guardian、Wikinews
付费引擎:Tavily(AI 优化搜索)、Google(SerpAPI)、Brave Search
自定义源:
- 本地文档(PDF/TXT/MD)+ AI 向量化语义搜索
- LangChain Retriever 集成(FAISS、Chroma、Pinecone、Weaviate、Elasticsearch)
4. 知识库:从研究工具到长期知识积累
LDR 不仅仅是一个一次性研究工具,更是一个可积累的个人知识库:
研究会话 → 下载来源 → 本地加密图书馆
↓
文本提取 + 向量化索引
↓
下次研究时同时检索"网络 + 本地文档"
↓
知识随时间持续复利增长
每次研究都会收集大量有价值的学术文献和网页内容。LDR 支持一键将来源下载到本地加密图书馆(SQLCipher AES-256 加密),自动提取文本、建立向量索引,让你的知识库随时可被语义检索。
下次研究同一个领域时,你的本地文档会与实时网络结果一起被 LLM 联合参考,实现"站在自己肩膀上的研究"。
5. 安全性:你的数据只属于你
LDR 在安全设计上堪称教科书级别:
5.1 零追踪政策
- ❌ 无遥测(telemetry)
- ❌ 无分析 SDK
- ❌ 无崩溃报告
- ❌ 无外部 phone-home 调用
- ❌ 唯一网络流量 = 你主动发起的搜索查询和 LLM API 调用
5.2 SQLCipher 数据库级加密
每个用户拥有独立的加密数据库(256-bit AES),由 Signal 协议同款加密算法保护。即使服务器管理员无法读取你的数据。无密码找回机制——这是真正的零知识架构。
5.3 供应链安全
- Docker 镜像通过 Cosign 签名
- SLSA provenance 证明
- SBOM(软件物料清单)附件
- 20+ 项自动化安全扫描(CodeQL、Semgrep、OpenSSF Scorecard、OWASP ZAP 等)
验证 Docker 镜像:
cosign verify localdeepresearch/local-deep-research:latest
6. 安装与快速上手
方式一:Docker(推荐,最快)
Linux + NVIDIA GPU:
# 拉取并启动 Ollama
docker run -d -p 11434:11434 --name ollama ollama/ollama
docker exec ollama ollama pull gpt-oss:20b
# 拉取并启动 SearXNG 搜索服务
docker run -d -p 8080:8080 --name searxng searxng/searxng
# 拉取并启动 Local Deep Research
docker run -d -p 5000:5000 --network host --name local-deep-research --volume "deep-research:/data" -e LDR_DATA_DIR=/data localdeepresearch/local-deep-research
Docker Compose(Mac/Windows/Linux 通用):
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.gpu.override.yml
docker compose -f docker-compose.yml -f docker-compose.gpu.override.yml up -d
启动后访问 http://localhost:5000
方式二:pip 安装(跨平台)
pip install local-deep-research
python -m local_deep_research.web.app
需要自行安装 Ollama 和 SearXNG——详细步骤参考官方安装指南。
7. Python API 使用
LDR 提供简洁的 Python SDK:
from local_deep_research.api import LDRClient, quick_query
# 最简用法:一行研究
summary = quick_query("username", "password", "What is quantum computing?")
print(summary)
# 客户端用法:多次研究
client = LDRClient()
client.login("username", "password")
result = client.quick_research("What are the latest advances in quantum computing?")
print(result["summary"])
REST API
LDR 提供完整的 HTTP API,支持有状态会话和跨平台集成:
import requests
from bs4 import BeautifulSoup
session = requests.Session()
login_page = session.get("http://localhost:5000/auth/login")
soup = BeautifulSoup(login_page.text, "html.parser")
login_csrf = soup.find("input", {"name": "csrf_token"}).get("value")
# 登录
session.post("http://localhost:5000/auth/login",
data={"username": "user", "password": "***", "csrf_token": login_csrf})
csrf = session.get("http://localhost:5000/auth/csrf-token").json()["csrf_token"]
# 发起研究
response = session.post("http://localhost:5000/api/start_research",
json={"query": "Your research question"},
headers={"X-CSRF-Token": csrf})
8. MCP Server:让 Claude 也用上 LDR
LDR 提供 MCP(Model Context Protocol)服务器,让 Claude Desktop 和 Claude Code 能直接调用 LDR 的研究能力:
pip install "local-deep-research[mcp]"
Claude Desktop 配置
{
"mcpServers": {
"local-deep-research": {
"command": "ldr-mcp",
"env": {
"LDR_LLM_PROVIDER": "openai",
"LDR_LLM_OPENAI_API_KEY": "sk-..."
}
}
}
}
可用 MCP 工具
| 工具 | 描述 | 耗时 | LLM 成本 |
|---|---|---|---|
search | 指定引擎的原始搜索结果 | 5-30s | 无 |
quick_research | 快速研究摘要 | 1-5 min | 有 |
detailed_research | 综合分析报告 | 5-15 min | 有 |
generate_report | 完整 Markdown 报告 | 10-30 min | 有 |
analyze_documents | 搜索本地文档集合 | 30s-2 min | 有 |
9. 期刊质量评估系统(Journal Quality System)
LDR v1.6.0 引入了专业的期刊质量评分系统,解决学术研究中的关键痛点:
- 212,000+ 学术来源索引:基于 OpenAlex(CC0)、DOAJ(CC0)和 Stop Predatory Journals(MIT)
- 掠夺性期刊自动检测:识别风险期刊并发出警告
- 质量仪表板:直观查看研究来源的整体学术质量分布
10. 与同类方案对比
| 功能 | LDR | Other local research tools | ChatGPT Deep Research |
|---|---|---|---|
| 完全本地运行 | ✅ | 部分支持 | ❌ |
| 多引擎并行搜索 | ✅ | ❌ | 部分 |
| LangGraph Agent 策略 | ✅ | ❌ | ✅ |
| 知识库积累 | ✅ | 部分 | ❌ |
| SQLCipher 加密 | ✅ | ❌ | N/A |
| MCP Server | ✅ | ❌ | ❌ |
| 多搜索策略可选 | 20+ | 1-3 | 固定 |
| 社区基准测试 | ✅ | ❌ | ❌ |
11. 技术架构亮点
LDR 的架构设计有几个值得关注的工程亮点:
异步搜索聚合:多个搜索查询并行发出,结果统一由 LLM 做交叉验证和去重,避免单一引擎的偏差。
自适应速率限制:内置智能重试系统,学习各搜索 API 的最优等待时间,最大化吞吐量而不触发限流。
研究历史持久化:每次研究结果自动存档,支持按时间、关键词检索历史会话。
WebSocket 实时推送:研究进度通过 WebSocket 实时推送,前端可显示各阶段的详细进展。
12. 适用场景
- 记者与调查人员:敏感话题研究,所有查询不离本地
- 学术研究者:持续跟踪特定领域的最新进展,构建个人文献库
- 企业情报团队:私有知识库 + 公开信息的联合研究
- 隐私敏感用户:不愿让商业公司记录搜索历史的任何人
- AI 开发者和研究者:benchmark 本地模型在研究任务上的真实能力
13. 总结
Local Deep Research 的核心价值在于将数据主权和研究能力一并交还给用户。它不只是一个研究工具,更是一种隐私优先的 AI 工作流理念的体现——你拥有你的数据,也拥有对工具的完全控制权。
在 benchmark 上,LDR 用单张 RTX 3090 证明了本地模型在深度研究任务上已经有能力与商业方案正面竞争。随着开源模型能力的持续提升(Qwen3 系列的进展尤为显著),本地深度研究的体验还会继续逼近甚至超越云端方案。
如果你关心数据隐私、偏好本地部署、或者希望在研究工作中积累属于自己的知识资产,Local Deep Research 是目前同类开源项目中完成度最高、功能最全面的选择。
项目链接:https://github.com/LearningCircuit/local-deep-research
社区资源:
- Discord:https://discord.gg/ttcqQeFcJ3
- Reddit:https://www.reddit.com/r/LocalDeepResearch/
- HuggingFace 基准数据集:https://huggingface.co/datasets/local-deep-research/ldr-benchmarks
本文内容基于 Local Deep Research 项目公开资料编写,发布前已验证所有核心功能和性能数据的准确性。