Local Deep Research：本地运行的开源深度研究助手

项目地址：https://github.com/LearningCircuit/local-deep-research
Stars：GitHub 社区持续增长中
许可证：MIT License
特色：首个在单张 RTX 3090（Qwen3.6-27B）上实现 ~95% SimpleQA 准确率的开源项目

1. 什么是 Local Deep Research？

Local Deep Research（以下简称 LDR）是一个本地运行的 AI 驱动深度研究助手，它能够自主完成复杂主题的信息检索、交叉验证和报告生成——完全不依赖任何外部云服务。

与 OpenAI Deep Research 等商业产品相比，LDR 的核心差异在于数据主权和成本控制：

维度	OpenAI Deep Research	Local Deep Research
数据隐私	查询发送到 OpenAI 服务器	完全本地处理
LLM 选择	仅限 OpenAI 模型	Ollama / LM Studio / 任何 OpenAI 兼容端点
搜索隐私	服务器端记录查询	零追踪、零遥测
运行成本	API 按次计费	GPU 算力成本（一次性）
可定制性	黑盒闭源	全源码开源

2. 核心性能：本地硬件也能打

LDR 是首个在单卡消费级 GPU 上报告 ~95% SimpleQA 准确率（n=500）的开源研究助手项目。以下是社区基准测试的核心结果：

模型	SimpleQA	xbench-DeepSearch
Qwen3.6-27B	95.7% (287/300)	77.0% (77/100)
Qwen3.5-9B	91.2% (182/200)	59.0% (59/100)
gpt-oss-20B	85.4% (295/346)	–

💡 消费级 RTX 3090 即可运行 Qwen3.6-27B，获得与商业方案相当的准确率。

为什么关注 SimpleQA？ SimpleQA 是由 OpenAI 提出的大模型事实性问答评估基准，涵盖范围广、无污染风险，是衡量研究助手真实能力的重要指标。LDR 在 langgraph-agent 策略下借助 Serper 搜索，在本地硬件上达到了与商业产品正面竞争的水平。

3. 工作原理：多策略研究流水线

LDR 支持20+ 种研究策略，覆盖从 30 秒快速摘要到 30 分钟专业报告的所有场景。

3.1 研究流程总览

用户提问
   ↓
选择研究策略（Quick Summary / Detailed / Report / LangGraph Agent）
   ↓
多引擎并行搜索（Web、学术数据库、本地文档）
   ↓
LLM 交叉验证与信息整合
   ↓
生成带引用的研究报告

3.2 LangGraph Agent 策略（旗舰）

langgraph-agent 是 LDR 的旗舰研究策略，其核心是一个自主决策的智能体：

自主规划搜索路径：LLM 根据已发现的信息动态决定下一步搜索方向
自适应切换搜索引擎：在 arXiv、PubMed、Semantic Scholar、Wikipedia 等专业引擎之间智能跳转
收集显著更多的信息源：相比传统管道式策略，agent 策略能发现并引用 3-5 倍以上的相关来源

这正是 LDR 能在 SimpleQA 上达到 ~95% 准确率的技术基础。

3.3 多引擎搜索覆盖

免费引擎：

学术：arXiv、PubMed、Semantic Scholar
通用：Wikipedia、SearXNG
技术：GitHub、Elasticsearch
历史：Wayback Machine
新闻：The Guardian、Wikinews

付费引擎：Tavily（AI 优化搜索）、Google（SerpAPI）、Brave Search

自定义源：

本地文档（PDF/TXT/MD）+ AI 向量化语义搜索
LangChain Retriever 集成（FAISS、Chroma、Pinecone、Weaviate、Elasticsearch）

4. 知识库：从研究工具到长期知识积累

LDR 不仅仅是一个一次性研究工具，更是一个可积累的个人知识库：

研究会话 → 下载来源 → 本地加密图书馆
                            ↓
                       文本提取 + 向量化索引
                            ↓
              下次研究时同时检索"网络 + 本地文档"
                            ↓
                   知识随时间持续复利增长

每次研究都会收集大量有价值的学术文献和网页内容。LDR 支持一键将来源下载到本地加密图书馆（SQLCipher AES-256 加密），自动提取文本、建立向量索引，让你的知识库随时可被语义检索。

下次研究同一个领域时，你的本地文档会与实时网络结果一起被 LLM 联合参考，实现"站在自己肩膀上的研究"。

5. 安全性：你的数据只属于你

LDR 在安全设计上堪称教科书级别：

5.1 零追踪政策

❌ 无遥测（telemetry）
❌ 无分析 SDK
❌ 无崩溃报告
❌ 无外部 phone-home 调用
❌ 唯一网络流量 = 你主动发起的搜索查询和 LLM API 调用

5.2 SQLCipher 数据库级加密

每个用户拥有独立的加密数据库（256-bit AES），由 Signal 协议同款加密算法保护。即使服务器管理员无法读取你的数据。无密码找回机制——这是真正的零知识架构。

5.3 供应链安全

Docker 镜像通过 Cosign 签名
SLSA provenance 证明
SBOM（软件物料清单）附件
20+ 项自动化安全扫描（CodeQL、Semgrep、OpenSSF Scorecard、OWASP ZAP 等）

验证 Docker 镜像：

cosign verify localdeepresearch/local-deep-research:latest

6. 安装与快速上手

方式一：Docker（推荐，最快）

Linux + NVIDIA GPU：

# 拉取并启动 Ollama
docker run -d -p 11434:11434 --name ollama ollama/ollama
docker exec ollama ollama pull gpt-oss:20b

# 拉取并启动 SearXNG 搜索服务
docker run -d -p 8080:8080 --name searxng searxng/searxng

# 拉取并启动 Local Deep Research
docker run -d -p 5000:5000 --network host   --name local-deep-research   --volume "deep-research:/data"   -e LDR_DATA_DIR=/data   localdeepresearch/local-deep-research

Docker Compose（Mac/Windows/Linux 通用）：

curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.gpu.override.yml
docker compose -f docker-compose.yml -f docker-compose.gpu.override.yml up -d

启动后访问 http://localhost:5000

方式二：pip 安装（跨平台）

pip install local-deep-research
python -m local_deep_research.web.app

需要自行安装 Ollama 和 SearXNG——详细步骤参考官方安装指南。

7. Python API 使用

LDR 提供简洁的 Python SDK：

from local_deep_research.api import LDRClient, quick_query

# 最简用法：一行研究
summary = quick_query("username", "password", "What is quantum computing?")
print(summary)

# 客户端用法：多次研究
client = LDRClient()
client.login("username", "password")
result = client.quick_research("What are the latest advances in quantum computing?")
print(result["summary"])

REST API

LDR 提供完整的 HTTP API，支持有状态会话和跨平台集成：

import requests
from bs4 import BeautifulSoup

session = requests.Session()
login_page = session.get("http://localhost:5000/auth/login")
soup = BeautifulSoup(login_page.text, "html.parser")
login_csrf = soup.find("input", {"name": "csrf_token"}).get("value")

# 登录
session.post("http://localhost:5000/auth/login",
            data={"username": "user", "password": "***", "csrf_token": login_csrf})
csrf = session.get("http://localhost:5000/auth/csrf-token").json()["csrf_token"]

# 发起研究
response = session.post("http://localhost:5000/api/start_research",
                        json={"query": "Your research question"},
                        headers={"X-CSRF-Token": csrf})

8. MCP Server：让 Claude 也用上 LDR

LDR 提供 MCP（Model Context Protocol）服务器，让 Claude Desktop 和 Claude Code 能直接调用 LDR 的研究能力：

pip install "local-deep-research[mcp]"

Claude Desktop 配置

{
  "mcpServers": {
    "local-deep-research": {
      "command": "ldr-mcp",
      "env": {
        "LDR_LLM_PROVIDER": "openai",
        "LDR_LLM_OPENAI_API_KEY": "sk-..."
      }
    }
  }
}

可用 MCP 工具

工具	描述	耗时	LLM 成本
`search`	指定引擎的原始搜索结果	5-30s	无
`quick_research`	快速研究摘要	1-5 min	有
`detailed_research`	综合分析报告	5-15 min	有
`generate_report`	完整 Markdown 报告	10-30 min	有
`analyze_documents`	搜索本地文档集合	30s-2 min	有

9. 期刊质量评估系统（Journal Quality System）

LDR v1.6.0 引入了专业的期刊质量评分系统，解决学术研究中的关键痛点：

212,000+ 学术来源索引：基于 OpenAlex（CC0）、DOAJ（CC0）和 Stop Predatory Journals（MIT）
掠夺性期刊自动检测：识别风险期刊并发出警告
质量仪表板：直观查看研究来源的整体学术质量分布

10. 与同类方案对比

功能	LDR	Other local research tools	ChatGPT Deep Research
完全本地运行	✅	部分支持	❌
多引擎并行搜索	✅	❌	部分
LangGraph Agent 策略	✅	❌	✅
知识库积累	✅	部分	❌
SQLCipher 加密	✅	❌	N/A
MCP Server	✅	❌	❌
多搜索策略可选	20+	1-3	固定
社区基准测试	✅	❌	❌

11. 技术架构亮点

LDR 的架构设计有几个值得关注的工程亮点：

异步搜索聚合：多个搜索查询并行发出，结果统一由 LLM 做交叉验证和去重，避免单一引擎的偏差。

自适应速率限制：内置智能重试系统，学习各搜索 API 的最优等待时间，最大化吞吐量而不触发限流。

研究历史持久化：每次研究结果自动存档，支持按时间、关键词检索历史会话。

WebSocket 实时推送：研究进度通过 WebSocket 实时推送，前端可显示各阶段的详细进展。

12. 适用场景

记者与调查人员：敏感话题研究，所有查询不离本地
学术研究者：持续跟踪特定领域的最新进展，构建个人文献库
企业情报团队：私有知识库 + 公开信息的联合研究
隐私敏感用户：不愿让商业公司记录搜索历史的任何人
AI 开发者和研究者：benchmark 本地模型在研究任务上的真实能力

13. 总结

Local Deep Research 的核心价值在于将数据主权和研究能力一并交还给用户。它不只是一个研究工具，更是一种隐私优先的 AI 工作流理念的体现——你拥有你的数据，也拥有对工具的完全控制权。

在 benchmark 上，LDR 用单张 RTX 3090 证明了本地模型在深度研究任务上已经有能力与商业方案正面竞争。随着开源模型能力的持续提升（Qwen3 系列的进展尤为显著），本地深度研究的体验还会继续逼近甚至超越云端方案。

如果你关心数据隐私、偏好本地部署、或者希望在研究工作中积累属于自己的知识资产，Local Deep Research 是目前同类开源项目中完成度最高、功能最全面的选择。

项目链接：https://github.com/LearningCircuit/local-deep-research

社区资源：

Discord：https://discord.gg/ttcqQeFcJ3
Reddit：https://www.reddit.com/r/LocalDeepResearch/
HuggingFace 基准数据集：https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

本文内容基于 Local Deep Research 项目公开资料编写，发布前已验证所有核心功能和性能数据的准确性。

Local Deep Research：本地运行的开源深度研究助手

Local Deep Research：本地运行的开源深度研究助手

1. 什么是 Local Deep Research？

2. 核心性能：本地硬件也能打

3. 工作原理：多策略研究流水线

3.1 研究流程总览

3.2 LangGraph Agent 策略（旗舰）

3.3 多引擎搜索覆盖

4. 知识库：从研究工具到长期知识积累

5. 安全性：你的数据只属于你

5.1 零追踪政策

5.2 SQLCipher 数据库级加密

5.3 供应链安全

6. 安装与快速上手

方式一：Docker（推荐，最快）

方式二：pip 安装（跨平台）

7. Python API 使用

REST API

8. MCP Server：让 Claude 也用上 LDR

Claude Desktop 配置

可用 MCP 工具

9. 期刊质量评估系统（Journal Quality System）

10. 与同类方案对比

11. 技术架构亮点

12. 适用场景

13. 总结

相关文章

评论

发表评论