
项目摘要
一款捕获电脑系统音频并进行转写、字幕显示与AI复盘的跨平台桌面应用。
DeLive用于录制电脑正在播放的音频,并接入多种云端或本地ASR服务完成实时或分段转写,生成可搜索的历史记录、浮动字幕和AI复盘内容。适合需要整理会议、课程、直播、播客或视频音频的个人用户、研究者与内容工作者。
项目详细信息
🌐 Official Website · 📖 Documentation · ⬇️ Download
DeLive 是系统音频的桌面转录工作区。 它捕获您的计算机正在播放的任何内容,通过适合工作的 ASR 后端路由音频,将所有内容保留在您的计算机上,并使用完整的 AI Review Desk(丰富的 Markdown 渲染聊天、问答线程、结构化简报和思维导图)将完成的记录转换为可搜索的历史记录。
| 实时转录 | 字幕叠加 | MCP 集成 |
|---|---|---|
| 使用多提供商 ASR 进行实时转录 | 可拖动的始终位于顶部的浮动标题窗口 | 外部AI工具通过MCP协议访问DeLive |
![]() | ![]() | ![]() |
| 人工智能概述 | 人工智能聊天 | 思维导图 |
|---|---|---|
| 摘要、行动项目、关键词和章节 | 与引用的参考文献进行多线程对话 | 从文字记录自动生成思维导图 |
![]() | ![]() | ![]() |
目录
- Core Features
- Download
- Supported ASR Providers
- Quick Start
- Usage
- Project Map
- System Architecture
- Tech Stack
- Security
- Open API & MCP Ecosystem
- Extending Providers
- Notes
- License
- Acknowledgments
🎯 核心功能- [x] 系统音频捕获用于真正的桌面使用 - 浏览器视频、实时流、会议、课程、播客或任何其他播放源
- 一个 UI 背后有 6 个 ASR 后端 — Soniox、Volcengine、Groq、SiliconFlow、OpenAI 兼容本地服务和本地
whisper.cpp - 提供商感知的捕获管道 — 根据提供商要求在
MediaRecorder和AudioWorkletPCM16 捕获之间自动切换 - 三种执行模式 - 真正的实时流、窗口批量重新转录和 Electron 管理的本地运行时
- 会话生命周期管理 — 草稿会话、录制时自动保存、中断会话恢复和已完成会话历史记录
- 浮动标题覆盖 — 独立的始终位于顶部的窗口,具有源/翻译/双显示模式和样式自定义
- Soniox 双语和说话者感知流程 — 实时翻译、双行字幕、二值化标记、说话者分组预览
- AI Review Desk — 带动画选项卡导航的全页工作区(概述、成绩单、聊天、思维导图)
- 丰富的 AI 聊天 — 具有 GFM Markdown 渲染、语法突出显示的代码块、悬停操作等的多线程对话
- 结构化 AI 简报 — 摘要、行动项目、关键词、章节、标题/标签建议以及引用的问答
- 思维导图 — 生成与 Markmap 兼容的 Markdown、实时编辑、导出 SVG 或 PNG
- 主题 — 使用表情符号图标将会话组织到基于项目的容器中
- 本地模型工作流程 — 检测本地服务、发现模型、从 Ollama 拉取、导入/下载
whisper.cpp资产 - 5 种颜色主题 — 青色、紫色、玫瑰色、绿色、琥珀色 — 每个都有全亮和暗模式
- 本地优先持久性和可选的云备份 - IndexedDB/localStorage 中的会话、标签、主题和设置; 可选的 S3 兼容/WebDAV 备份工作流程; 通过 Electron 的秘密
safeStorage - 桌面集成 — 托盘、全局快捷方式、自动启动、更新程序、诊断导出
- 安全强化 — 可信窗口 IPC、CSP 注入、导航防护、路径允许列表、加密秘密存储
- 开放 API 和 MCP 生态系统 — 本地 REST API、实时 WebSocket、用于 AI 代理的 MCP 服务器、基于令牌的身份验证和代理技能定义
- 跨平台 — Windows、macOS 和 Linux
📥 下载
获取适合您平台的最新版本:
| 平台 | 文件 |
|---|---|
| 窗户 | .exe 安装程序,便携式 .exe |
| macOS | .dmg、.zip(Intel x64 和 Apple Silicon arm64) |
| Linux | .AppImage, .deb |
所有下载均可在 Releases 页面上获取。
🔌 支持的 ASR 提供商| 供应商| 类型 | 交通 | 音频路径| 亮点|
|----------|------|------------|------------|------------|
| Soniox V4 | 云| 实时串流 | MediaRecorder (webm/opus) → WebSocket | 令牌级实时转录、实时翻译、双语字幕、说话人分类 |
| 火山引擎 | 云| 实时串流 | AudioWorklet PCM16 → 嵌入式代理 → WebSocket | 面向中文的实时路径; 代理从 Electron 注入所需的标头 |
| 格罗克 | 云| 窗口批量重转录 | AudioWorklet PCM16 → WAV → REST | Whisper large-v3-turbo / large-v3 风格流程,具有准实时会话更新 |
| SiliconFlow | 云| 窗口批量重转录 | AudioWorklet PCM16 → WAV → REST | SenseVoice、TeleSpeech 和 Qwen Omni 支持的转录流程 |
| 本地 OpenAI 兼容 | 本地服务| 窗口批量重转录 | MediaRecorder (webm/opus) → /v1/audio/transcriptions | 与 Ollama 或其他兼容网关配合使用; 支持服务/模型发现和可选的 Ollama pull |
| 本地 whisper.cpp | 本地运行时 | 电子管理的本地运行时 | AudioWorklet PCM16 → 本地 /inference | 启动 whisper-server,管理二进制/模型资产,并保持完全本地化 |
🚀 快速入门
先决条件
- Node.js 18+(
release.yml在 CI 中使用 Node 20) - 一种提供者路径:
- Soniox:来自 soniox.com 的 API 密钥
- Volcengine:APP ID 和访问令牌
- Groq:来自 groq.com 的 API 密钥
- SiliconFlow:来自 siliconflow.cn 的 API 密钥
- 本地 OpenAI 兼容:公开
/v1/models和/v1/audio/transcriptions的本地服务 - 本地
whisper.cpp:whisper-server加上本地.bin或.gguf模型,或者让 DeLive 导入/下载它们
安装
git clone https://github.com/XimilalaXiang/DeLive.git
cd DeLive
npm run install:all
### 发展
npm run dev
npm run dev 一起启动 Vite 和 Electron。 Volcengine代理嵌入在Electron主进程中,因此正常的桌面开发不需要单独的后端。
对于独立代理调试:
npm run dev:server
质量检查
npm run check
npm run check 运行前端 lint、前端测试和完整的应用程序构建。
仅运行前端测试:
npm run test:frontend
当前套件状态:跨 29 个文件进行 256 项测试,涵盖提供程序配置、转录状态/稳定性、字幕导出、会话生命周期/存储库、存储、云备份、开放 API IPC 响应和 AI 后处理解析。
### 建造
npm run dist:win
npm run dist:mac
npm run dist:linux
npm run dist:all
工件被写入 release/。
可选:将 whisper.cpp 放入打包版本中
npm run fetch:whisper-runtime -- --target win32
npm run stage:whisper-runtime -- --binary /path/to/whisper-server --target linux
如果 local-runtimes/whisper_cpp/whisper-server(.exe) 在构建时存在,electron-builder 将其打包为额外资源。 最终用户稍后仍可以从 UI 导入或下载二进制文件和模型。
📖 用法
典型录音流程
- 打开设置并选择提供商。
- 填写凭据或本地运行时详细信息,然后运行 *测试配置**。
- 单击开始录制。
- 选择一个屏幕或窗口并确保已启用音频共享。
- 观看主窗口中的部分和最终文本更新,以及浮动标题覆盖(可选)。
- 停止录制并从历史记录中打开保存的会话以进行审阅、AI 操作或导出。
字幕叠加
- 从主 UI 切换浮动字幕窗口。
- 调整字体、颜色、宽度、行数、阴影和位置。
- 当提供商提供翻译输出时,在源模式、翻译模式和双模式之间切换。
- 使用可拖动/交互状态重新定位覆盖层而不关闭它。
主题
将录音组织到类似项目的容器中:
- 从导航栏中打开主题选项卡。
- 创建一个包含名称、表情符号图标和可选描述的主题。
- 通过两种方式开始录制主题:
- 单击主题卡上的 录制新 — 跳转到预选主题的实时状态。
- 在实时视图中,单击录制控件上方的 选择主题 链接并选择一个主题。
- 所选主题将在录制按钮上方显示为徽章。 录音会自动分配。
- 可以从“审阅”中的“概述”选项卡将现有会话移入(或移出)主题。
- 主题内的会话在默认审阅列表中是隐藏的,但全局搜索仍然可以找到它们。
人工智能评审台
已完成的会话将在专用的全页审阅台(非模式)中打开,并带有动画滑动选项卡栏和键盘箭头导航:
- 概述选项卡:AI 简报 — 摘要、操作项、关键字、章节、标题/标签建议和一键应用
- “转录”选项卡:左侧装订线中的时间戳片段、颜色编码的演讲者徽章、连续同一演讲者合并、悬停突出显示以及 TXT/Markdown/SRT/VTT 导出
- 聊天选项卡:多线程 AI 对话 - GFM Markdown 渲染,具有语法突出显示的代码块(一键复制)、用户/AI 头像、悬停复制/重新生成操作、动画思维点指示器、自动调整大小的编辑器(输入发送)、浮动滚动到底部按钮和每线程删除
- 思维导图选项卡:生成与 Markmap 兼容的 Markdown,实时编辑,并导出 SVG 或 PNG
- 元数据操作:应用建议的标题/标签并重命名日记会话的演讲者标签
本地 OpenAI 兼容服务
- 选择本地 OpenAI 兼容。
- 填写
Base URL和Model。 - 使用本地模型指南来探测服务并列出已安装的模型。
- 如果检测到的服务是 Ollama,DeLive 可以直接从应用程序中拉取所选模型。
本地 whisper.cpp 运行时
- 选择本地耳语.cpp。
- 通过导入现有的
whisper-server文件或下载推荐的官方发布资产来准备运行时二进制文件。 - 通过选择、导入或下载
.bin/.gguf文件来准备模型。 - 启动运行时或运行测试配置。 5、正常录音; Electron 通过 IPC 管理运行时生命周期。
历史记录、备份和恢复
- 会话可以重命名、标记、按主题组织、搜索以及导出为 TXT、Markdown、SRT 或 VTT。
- 录制草稿会自动保存,并且可以在中断启动后恢复不完整的会话。
- 可以导出/导入完整的本地数据以进行备份或迁移。
- 可选的云备份可以从 设置 > 云备份 将会话、主题、标签和设置上传到 S3 兼容或 WebDAV 存储,并具有远程列表/恢复/删除控件。
- 诊断导出生成一个经过编辑的 JSON 包,其中包含系统信息和最近的日志以进行故障排除。
🧩 项目地图| 面积 | 关键文件| 责任|
|------|---------|----------------|
| 桌面外壳| electron/main.ts、electron/mainWindow.ts、electron/captionWindow.ts、electron/tray.ts、electron/shortcuts.ts、electron/desktopSource.ts、electron/autoUpdater.ts、 electron/ipcSecurity.ts | 启动 Electron,拥有本机窗口、托盘行为、快捷方式、桌面源选择、更新程序生命周期、IPC 安全性和应用程序关闭。 |
| 渲染器应用程序 | frontend/src/App.tsx、frontend/src/components/*、frontend/src/i18n/* | 主要设置、录音、历史记录、主题、预览和字幕控制 UI。 工作区视图(实时/审阅台/主题/设置)由 Zustand 驱动。 |
| ASR 编排 | frontend/src/hooks/useASR.ts、frontend/src/services/captureManager.ts、frontend/src/services/providerSession.ts、frontend/src/services/captionBridge.ts | 解决提供程序设置问题,启动正确的音频管道,转发转录事件,并将文本镜像到字幕叠加层。 |
| 提供者抽象| frontend/src/providers/registry.ts, frontend/src/providers/implementations/* | 规范一个合同和功能模型背后的六个后端。 |
| 状态管理| frontend/src/stores/sessionStore.ts、frontend/src/stores/topicStore.ts、frontend/src/stores/uiStore.ts、frontend/src/stores/settingsStore.ts、frontend/src/stores/tagStore.ts、frontend/src/stores/transcriptStore.ts | Zustand 存储会话、主题、UI 状态、设置、标签的切片以及用于向后兼容的统一外观。 |
| 会话情报 | frontend/src/services/aiPostProcess.ts、frontend/src/components/ReviewDeskView.tsx、frontend/src/components/PreviewModal.tsx | AI 简报、问答、思维导图、标签和演讲者标签编辑。 |
| 主题 | frontend/src/components/TopicsView.tsx、frontend/src/components/TopicDetailView.tsx、frontend/src/components/TopicDialog.tsx、frontend/src/components/TopicPicker.tsx | 卡片网格主题浏览器、每个主题会话列表、CRUD 对话框和实时视图主题选择。 |
| 审阅台 UI | frontend/src/components/review/SessionTabBar.tsx、frontend/src/components/review/SessionHeader.tsx、frontend/src/components/review/OverviewTab.tsx、frontend/src/components/review/TranscriptTab.tsx、frontend/src/components/review/ChatTab.tsx、frontend/src/components/review/MindMapTab.tsx、 frontend/src/components/review/MarkdownRenderer.tsx | 带键盘导航的动画选项卡栏、带多格式导出的会话标题(TXT/Markdown/SRT/VTT)、每个选项卡内容视图、带语法突出显示的 GFM Markdown 渲染以及思维导图编辑。 |
| 设置用户界面 | frontend/src/components/ApiKeyConfig.tsx, frontend/src/components/settings/* | 多部分设置工作区,用于提供程序设置、外观、标题样式、AI 后处理、开放 API、云备份、数据导入/导出以及关于/更新面板。 |
| 运行时用户界面 | frontend/src/components/runtime/BundledRuntimeSummaryCard.tsx, frontend/src/components/runtime/BundledRuntimeAdvancedPanel.tsx | 用于管理捆绑的 whisper.cpp 运行时资产的状态卡和高级面板。 |
| 共享UI系统| frontend/src/components/ui/* | 按钮、徽章、开关、EmptyState、StatusIndicator、DialogShell 基元,具有跨五个主题的语义颜色标记。 |
| 本地模型/运行时工具 | frontend/src/utils/localModelSetup.ts、frontend/src/utils/localRuntimeManager.ts、frontend/src/components/LocalModelSetupGuide.tsx、frontend/src/components/BundledRuntimeSetupGuide.tsx、electron/localRuntime.ts、electron/localRuntimeFiles.ts、 electron/localRuntimeShared.ts, electron/localRuntimeIpc.ts | 检测本地服务、检查模型、支持 Ollama 拉取、导入/下载 whisper.cpp 资产、管理运行时文件以及启动/停止本地运行时。 |
| 电子IPC层| electron/appIpc.ts、electron/captionIpc.ts、electron/safeStorageIpc.ts、electron/updaterIpc.ts、electron/diagnosticsIpc.ts、electron/apiIpc.ts | 用于应用程序生命周期、标题窗口控制、秘密存储、自动更新、诊断和开放 API 数据桥的模块化 IPC 处理程序。 |
| 开放API层| electron/apiServer.ts、electron/apiBroadcast.ts、frontend/src/hooks/useApiIpcResponder.ts | REST API 端点、WebSocket 实时转录广播以及用于会话数据查询的渲染器端 IPC 响应器。 |
| MCP 和代理生态系统 | mcp/delive-mcp-server.js, skills/delive-transcript-analyzer/SKILL.md | 独立 MCP 服务器将 DeLive 公开为工具/资源和座席技能定义。 |
| 共享合约| shared/electronApi.ts、electron/preload.ts、shared/volcProxyCore.ts | 渲染器和主进程之间的类型化桥梁以及嵌入式 Volcengine 代理的共享协议帮助程序。 |
| 调试和发布支持| server/、scripts/、.github/workflows/release.yml、.github/workflows/ci.yml | 独立 Volc 代理调试、图标/运行时暂存脚本、持续集成和标记的多平台发布版本。 |
🔄 记录生命周期1. App.tsx 初始化存储、主题、设置、标签和保存的会话。
useASR要求ProviderSessionManager解析所选提供商的功能并进行连接。CaptureManager通过getDisplayMedia请求系统音频,并选择MediaRecorder或AudioWorkletPCM16 捕获。- 提供程序事件流入
sessionStore,而CaptionBridge将稳定的非最终文本镜像到浮动字幕窗口。 sessionStore构建会话快照、自动保存草稿并在下次启动时恢复中断的工作。- 已完成的会话将在预览工作区中打开,用于转录审阅、AI 简报、问答、思维导图生成、标记和导出。
🏗 系统架构
graph TB
subgraph "Desktop Shell"
EM[Electron Main Process]
WIN[Main Window]
CAP[Caption Overlay Window]
DESK[Tray / Shortcut / Auto Launch / Updater]
SEC[IPC Security / SafeStorage / Diagnostics]
end
subgraph "Renderer"
UI[React App]
STORES[Zustand Stores]
CFG[Provider and Runtime Setup]
PREV[History / Preview / AI Workspace]
end
subgraph "Orchestration"
ASR[useASR]
CAPMGR[CaptureManager]
PROVSESS[ProviderSessionManager]
CAPBR[CaptionBridge]
end
subgraph "Capture Pipeline"
GDM[getDisplayMedia]
MR[MediaRecorder<br/>WebM / Opus]
AP[AudioWorklet<br/>PCM16 16kHz]
end
subgraph "Provider Layer"
REG[Provider Registry]
SON[Soniox]
VOL[Volcengine]
GRQ[Groq]
SIL[SiliconFlow]
LOA[Local OpenAI-compatible]
WCP[whisper.cpp Runtime]
end
subgraph "Electron Services"
PROXY[Embedded Volc Proxy]
RTM[Local Runtime Controller]
end
subgraph "Persistence"
REPO[Session Repository]
IDB[IndexedDB]
LS[localStorage]
SAFE[safeStorage]
end
UI --> STORES
UI --> CFG
UI --> PREV
UI --> ASR
ASR --> CAPMGR
ASR --> PROVSESS
ASR --> CAPBR
CAPMGR --> GDM
GDM --> MR
GDM --> AP
PROVSESS --> REG
REG --> SON
REG --> VOL
REG --> GRQ
REG --> SIL
REG --> LOA
REG --> WCP
MR --> SON
MR --> LOA
AP --> VOL
AP --> GRQ
AP --> SIL
AP --> WCP
VOL --> PROXY
WCP --> RTM
STORES --> REPO
REPO --> IDB
REPO --> LS
CFG --> SAFE
UI --> EM
EM --> WIN
EM --> CAP
EM --> DESK
EM --> SEC
EM --> PROXY
EM --> RTM
CAPBR --> CAP
style UI fill:#61dafb,color:#000
style EM fill:#334155,color:#fff
style CAP fill:#f472b6,color:#000
style REG fill:#f59e0b,color:#000
style PROXY fill:#10b981,color:#fff
style RTM fill:#0f766e,color:#fff
style SEC fill:#ef4444,color:#fff
style SAFE fill:#a855f7,color:#fff
style IDB fill:#3b82f6,color:#fff
架构概述
| 层 | 主要部件 | 笔记 |
|---|---|---|
| 桌面外壳 | Electron 主进程、主窗口、标题窗口、托盘、更新程序、诊断 | 拥有本机生命周期、源选择、字幕覆盖和操作系统集成。 |
| 渲染器 | React UI、Zustand 商店、历史/预览工作区、主题、设置面板 | 处理录制流程、配置、主题管理、会话审核和用户操作。 |
| 编排 | useASR、CaptureManager、ProviderSessionManager、CaptionBridge | 将提供者逻辑与捕获和 UI 分开。 |
| 提供者层 | 注册表加 6 个实现 | 统一实时云、窗口批处理云、本地服务和本地运行时流程。 |
| 电子服务 | 嵌入式 Volc 代理、本地运行时控制器、安全存储 IPC、诊断 IPC | 提供浏览器环境无法直接执行的功能。 |
| 坚持 | 会话存储库、IndexedDB、localStorage、safeStorage | 自动保存草稿、恢复中断的会话以及将机密与常规设置分开存储。 |
| 共享合约 | 类型化预加载桥和共享辅助模块 | 保持渲染器/主合约明确且更安全地发展。 |
📁 项目结构
DeLive/
├── electron/ # Electron main process, windows, tray, IPC, updater, runtime control, Open API server
├── frontend/ # React renderer app, providers, stores, UI components, tests
├── shared/ # Shared TypeScript contracts for preload/renderer/main and proxy helpers
├── server/ # Standalone Volcengine proxy used mainly for debugging
├── mcp/ # Standalone MCP server for AI agents (Claude, Cursor, etc.)
├── skills/ # Agent skill definitions
├── local-runtimes/ # Optional packaged runtime assets (for whisper.cpp staging)
├── scripts/ # Icon generation, runtime fetch/stage, release notes
├── assets/ # README and branding assets
├── build/ # Electron-builder icons and packaging resources
├── .github/workflows/ci.yml # Push/PR continuous integration pipeline
├── .github/workflows/release.yml # Tag-triggered quality + release pipeline
├── README.md
└── package.json
此处省略了生成的输出,例如 dist-electron/、release/ 和依赖项文件夹。
🔧 技术堆栈
| 层 | 技术 |
|---|---|
| 桌面应用程序 | 电子40 |
| 前端 | React 18.3 + TypeScript 5.6 + Vite 6 |
| 造型 | 顺风 CSS 3.4 |
| 状态管理 | 祖斯坦4.5 |
| 测试 | 维泰斯特 4 |
| 音频处理 | MediaRecorder、AudioWorklet、WAV 转换实用程序 |
| 桌面服务 | Electron主进程IPC,Express,ws |
| 坚持 | IndexedDB、localStorage、Electron safeStorage |
| 人工智能评论 | 与 OpenAI 兼容的聊天完成功能,用于简报、问答和思维导图 |
| 包装 | electron-builder |
| 发布自动化 | GitHub Actions 标签工作流程 |
🔒 安全
| 特色 | 描述 |
|---|---|
| 上下文隔离 | contextIsolation: true, nodeIntegration: false |
| 值得信赖的 IPC 发送者 | 敏感处理程序验证调用者属于已注册的受信任窗口 |
| 内容安全政策 | CSP 在 Electron 层注入,仅允许所需的连接目标 |
| 导航卫士 | 意外的渲染器导航被阻止 |
| 路径白名单 | 文件路径检查仅限于安全根目录,例如 userData、家庭、桌面、下载和文档 |
| 秘密储藏 | 当操作系统加密可用时,API 密钥通过 Electron safeStorage 存储 |
| 开放 API 门禁 | 默认情况下禁用本地 REST API 和 WebSocket; 启用时可选的承载令牌身份验证 |
| 诊断卫生 | 导出的诊断在编写 JSON 包之前编辑看起来秘密的字段 |
⌨️ 键盘快捷键
| 快捷方式 | 功能 |
|---|---|
Ctrl+Shift+D / Cmd+Shift+D | 显示或隐藏主窗口 |
🌐 开放 API 和 MCP 生态系统
DeLive 通过本地 API 公开其转录数据,使外部工具、脚本和 AI 代理能够以编程方式访问会话历史记录、实时字幕和录制状态。
启用 API
- 进入 设置 > 开放 API。
- 将启用开放 API 切换为开。
- (可选)设置 访问令牌 进行身份验证(推荐)。
休息 API
启用后,以下端点可在 http://localhost:23456/api/v1/ 处使用:
| 端点 | 描述 |
|---|---|
GET /health | 健康检查(始终可访问,即使 API 被禁用) |
GET /sessions | 通过搜索、过滤和分页列出会话 |
GET /sessions/:id | 完整的会议详细信息,包括文字记录和 AI 摘要 |
GET /sessions/:id/transcript | 仅纯文本记录 |
GET /sessions/:id/summary | AI 摘要、行动项目和思维导图 |
GET /topics | 列出所有主题 |
GET /tags | 列出所有标签 |
GET /status | 当前录音状态 |
如果设置了令牌,请将其包含为 Authorization: Bearer <token>。
WebSocket
实时转录流可在 ws://localhost:23456/ws/live 上获得。 通过 ?token=<token> 查询参数或 Authorization 标头进行身份验证。
MCP 服务器
独立的 MCP 服务器 (mcp/delive-mcp-server.js) 将 DeLive 的 API 公开为 AI 代理的工具和资源。 它使用 stdio 传输并与任何 MCP 兼容的客户端配合使用。
配置之前,请安装 MCP 服务器依赖项:
cd mcp && npm install
克劳德桌面/克劳德代码
添加到 claude_desktop_config.json:
{
"mcpServers": {
"delive": {
"command": "node",
"args": ["C:/path/to/DeLive/mcp/delive-mcp-server.js"],
"env": {
"DELIVE_API_URL": "http://localhost:23456",
"DELIVE_API_TOKEN": "your-token-from-settings"
}
}
}
}
光标
添加到 .cursor/mcp.json(项目级)或 ~/.cursor/mcp.json(全局):
{
"mcpServers": {
"delive": {
"command": "node",
"args": ["C:/path/to/DeLive/mcp/delive-mcp-server.js"],
"env": {
"DELIVE_API_URL": "http://localhost:23456",
"DELIVE_API_TOKEN": "your-token-from-settings"
}
}
}
}
####樱桃工作室
- 打开 设置 > MCP 服务器 > 添加。
- 选择 stdio 类型。 3、填写:
- 命令:
node - 参数:
C:/path/to/DeLive/mcp/delive-mcp-server.js - 环境:
DELIVE_API_URL=http://localhost:23456,DELIVE_API_TOKEN=your-token
- 保存并启用。
OpenAI Codex CLI /其他 MCP 客户端
任何支持 stdio 传输的 MCP 客户端都可以使用相同的模式:
DELIVE_API_URL=http://localhost:23456 \
DELIVE_API_TOKEN=your-token \
node /path/to/DeLive/mcp/delive-mcp-server.js
| 变量 | 默认 | 描述 |
|---|---|---|
DELIVE_API_URL | http://localhost:23456 | DeLive REST API 基本 URL |
DELIVE_API_TOKEN | (空) | 用于身份验证的承载令牌 |
注意:DeLive 必须在 启用开放 API 的情况下运行,MCP 服务器才能正常运行。 在 DeLive 设置 > 打开 API 中设置令牌。
请参阅 mcp/ 以获取完整的工具和资源参考。
特工技能
代理技能定义可在 skills/delive-transcript-analyzer/SKILL.md 上找到,为 AI 代理使用 DeLive 功能提供结构化指导。
🔧 扩展提供者
- 在
frontend/src/providers/implementations/下添加提供程序实现。 - 定义准确的
ASRProviderInfo元数据、必填字段和功能标志。 - 在
frontend/src/providers/registry.ts中注册提供程序。 - 如果提供程序支持验证,请在
frontend/src/utils/providerConfigTest.ts中添加配置测试逻辑。 - 对于本地服务或本地运行时流,在
frontend/src/utils/localModelSetup.ts或frontend/src/utils/localRuntimeManager.ts中连接模型/运行时助手。 - 如果提供程序需要自定义标头或本机流程控制,请在
electron/中添加 Electron 端支持。
⚠️ 注释
- 系统要求:Windows 10+、macOS 13+ 或支持 PulseAudio 环回的 Linux。
- Volcengine proxy:正常桌面使用不需要单独的后端进程; Electron 在内部启动代理。
- 本地 OpenAI 兼容模式:发现需要
/v1/models,而转录需要/v1/audio/transcriptions。 whisper.cpp模式:打包的二进制文件是可选的; 用户还可以稍后导入或下载运行时资产。- 托盘行为:关闭主窗口隐藏到托盘而不是退出应用程序。
- 自动启动:目前在 Windows 和 macOS 上支持。
- 自动更新:在 Windows、macOS 和 Linux AppImage 版本上受支持。
🛡️ Windows SmartScreen 警告
首次启动 DeLive 时,Windows 可能会显示 SmartScreen 警告。 对于未签名或新分发的应用程序来说这是预期的。
- 单击“更多信息”。
- 单击仍然运行。
您还可以直接检查源代码并独立验证发布的二进制文件。
📄 许可证
阿帕奇许可证 2.0
🙏致谢
- Soniox 用于实时语音识别 API
- Volcengine 用于以中文为中心的语音识别
- Groq 用于高性能 Whisper 推理
- SiliconFlow 用于语音和多模式 ASR 服务
- Ollama 用于本地模型工作流程
whisper.cpp用于本地开源运行时支持- BiBi-Keyboard 获取多提供商架构灵感





