首页/Delive
Speech To Text

Delive

一款捕获电脑系统音频并进行转写、字幕显示与AI复盘的跨平台桌面应用。

项目摘要

仓库XimilalaXiang/DeLive
来源github
创建时间2026/4/19
最近同步2026/4/20
一句话总结

一款捕获电脑系统音频并进行转写、字幕显示与AI复盘的跨平台桌面应用。

项目描述

DeLive用于录制电脑正在播放的音频,并接入多种云端或本地ASR服务完成实时或分段转写,生成可搜索的历史记录、浮动字幕和AI复盘内容。适合需要整理会议、课程、直播、播客或视频音频的个人用户、研究者与内容工作者。

项目详细信息

DeLive Banner

直播

系统音频捕获| 多提供商 ASR | 本地优先人工智能评审工作区

英语 | 简体中文 | 繁體中文 | 日本語

Version License Platform Platform Platform Downloads Stars Ask DeepWiki Docs

🌐 Official Website · 📖 Documentation · ⬇️ Download

DeLive 是系统音频的桌面转录工作区。 它捕获您的计算机正在播放的任何内容,通过适合工作的 ASR 后端路由音频,将所有内容保留在您的计算机上,并使用完整的 AI Review Desk(丰富的 Markdown 渲染聊天、问答线程、结构化简报和思维导图)将完成的记录转换为可搜索的历史记录。

实时转录字幕叠加MCP 集成
使用多提供商 ASR 进行实时转录可拖动的始终位于顶部的浮动标题窗口外部AI工具通过MCP协议访问DeLive
Live TranscriptionCaption OverlayMCP Integration
人工智能概述人工智能聊天思维导图
摘要、行动项目、关键词和章节与引用的参考文献进行多线程对话从文字记录自动生成思维导图
AI OverviewAI ChatMind Map

目录

🎯 核心功能- [x] 系统音频捕获用于真正的桌面使用 - 浏览器视频、实时流、会议、课程、播客或任何其他播放源

  • 一个 UI 背后有 6 个 ASR 后端 — Soniox、Volcengine、Groq、SiliconFlow、OpenAI 兼容本地服务和本地 whisper.cpp
  • 提供商感知的捕获管道 — 根据提供商要求在 MediaRecorderAudioWorklet PCM16 捕获之间自动切换
  • 三种执行模式 - 真正的实时流、窗口批量重新转录和 Electron 管理的本地运行时
  • 会话生命周期管理 — 草稿会话、录制时自动保存、中断会话恢复和已完成会话历史记录
  • 浮动标题覆盖 — 独立的始终位于顶部的窗口,具有源/翻译/双显示模式和样式自定义
  • Soniox 双语和说话者感知流程 — 实时翻译、双行字幕、二值化标记、说话者分组预览
  • AI Review Desk — 带动画选项卡导航的全页工作区(概述、成绩单、聊天、思维导图)
  • 丰富的 AI 聊天 — 具有 GFM Markdown 渲染、语法突出显示的代码块、悬停操作等的多线程对话
  • 结构化 AI 简报 — 摘要、行动项目、关键词、章节、标题/标签建议以及引用的问答
  • 思维导图 — 生成与 Markmap 兼容的 Markdown、实时编辑、导出 SVG 或 PNG
  • 主题 — 使用表情符号图标将会话组织到基于项目的容器中
  • 本地模型工作流程 — 检测本地服务、发现模型、从 Ollama 拉取、导入/下载 whisper.cpp 资产
  • 5 种颜色主题 — 青色、紫色、玫瑰色、绿色、琥珀色 — 每个都有全亮和暗模式
  • 本地优先持久性和可选的云备份 - IndexedDB/localStorage 中的会话、标签、主题和设置; 可选的 S3 兼容/WebDAV 备份工作流程; 通过 Electron 的秘密 safeStorage
  • 桌面集成 — 托盘、全局快捷方式、自动启动、更新程序、诊断导出
  • 安全强化 — 可信窗口 IPC、CSP 注入、导航防护、路径允许列表、加密秘密存储
  • 开放 API 和 MCP 生态系统 — 本地 REST API、实时 WebSocket、用于 AI 代理的 MCP 服务器、基于令牌的身份验证和代理技能定义
  • 跨平台 — Windows、macOS 和 Linux

📥 下载

获取适合您平台的最新版本:

Windows macOS Linux

平台文件
窗户.exe 安装程序,便携式 .exe
macOS.dmg.zip(Intel x64 和 Apple Silicon arm64)
Linux.AppImage, .deb

所有下载均可在 Releases 页面上获取。

🔌 支持的 ASR 提供​​商| 供应商| 类型 | 交通 | 音频路径| 亮点|

|----------|------|------------|------------|------------| | Soniox V4 | 云| 实时串流 | MediaRecorder (webm/opus) → WebSocket | 令牌级实时转录、实时翻译、双语字幕、说话人分类 | | 火山引擎 | 云| 实时串流 | AudioWorklet PCM16 → 嵌入式代理 → WebSocket | 面向中文的实时路径; 代理从 Electron 注入所需的标头 | | 格罗克 | 云| 窗口批量重转录 | AudioWorklet PCM16 → WAV → REST | Whisper large-v3-turbo / large-v3 风格流程,具有准实时会话更新 | | SiliconFlow | 云| 窗口批量重转录 | AudioWorklet PCM16 → WAV → REST | SenseVoice、TeleSpeech 和 Qwen Omni 支持的转录流程 | | 本地 OpenAI 兼容 | 本地服务| 窗口批量重转录 | MediaRecorder (webm/opus) → /v1/audio/transcriptions | 与 Ollama 或其他兼容网关配合使用; 支持服务/模型发现和可选的 Ollama pull | | 本地 whisper.cpp | 本地运行时 | 电子管理的本地运行时 | AudioWorklet PCM16 → 本地 /inference | 启动 whisper-server,管理二进制/模型资产,并保持完全本地化 |

🚀 快速入门

先决条件

  • Node.js 18+(release.yml 在 CI 中使用 Node 20)
  • 一种提供者路径:
  • Soniox:来自 soniox.com 的 API 密钥
  • Volcengine:APP ID 和访问令牌
  • Groq:来自 groq.com 的 API 密钥
  • SiliconFlow:来自 siliconflow.cn 的 API 密钥
  • 本地 OpenAI 兼容:公开 /v1/models/v1/audio/transcriptions 的本地服务
  • 本地 whisper.cppwhisper-server 加上本地 .bin.gguf 模型,或者让 DeLive 导入/下载它们

安装

git clone https://github.com/XimilalaXiang/DeLive.git
cd DeLive
npm run install:all

### 发展

npm run dev

npm run dev 一起启动 Vite 和 Electron。 Volcengine代理嵌入在Electron主进程中,因此正常的桌面开发不需要单独的后端。

对于独立代理调试:

npm run dev:server

质量检查

npm run check

npm run check 运行前端 lint、前端测试和完整的应用程序构建。

仅运行前端测试:

npm run test:frontend

当前套件状态:跨 29 个文件进行 256 项测试,涵盖提供程序配置、转录状态/稳定性、字幕导出、会话生命周期/存储库、存储、云备份、开放 API IPC 响应和 AI 后处理解析。

### 建造

npm run dist:win
npm run dist:mac
npm run dist:linux
npm run dist:all

工件被写入 release/

可选:将 whisper.cpp 放入打包版本中

npm run fetch:whisper-runtime -- --target win32
npm run stage:whisper-runtime -- --binary /path/to/whisper-server --target linux

如果 local-runtimes/whisper_cpp/whisper-server(.exe) 在构建时存在,electron-builder 将其打包为额外资源。 最终用户稍后仍可以从 UI 导入或下载二进制文件和模型。

📖 用法

典型录音流程

  1. 打开设置并选择提供商。
  2. 填写凭据或本地运行时详细信息,然后运行 ​​*测试配置**。
  3. 单击开始录制
  4. 选择一个屏幕或窗口并确保已启用音频共享。
  5. 观看主窗口中的部分和最终文本更新,以及浮动标题覆盖(可选)。
  6. 停止录制并从历史记录中打开保存的会话以进行审阅、AI 操作或导出。

字幕叠加

  • 从主 UI 切换浮动字幕窗口。
  • 调整字体、颜色、宽度、行数、阴影和位置。
  • 当提供商提供翻译输出时,在源模式、翻译模式和双模式之间切换。
  • 使用可拖动/交互状态重新定位覆盖层而不关闭它。

主题

将录音组织到类似项目的容器中:

  1. 从导航栏中打开主题选项卡。
  2. 创建一个包含名称、表情符号图标和可选描述的主题。
  3. 通过两种方式开始录制主题:
  • 单击主题卡上的 录制新 — 跳转到预选主题的实时状态。
  • 在实时视图中,单击录制控件上方的 选择主题 链接并选择一个主题。
  1. 所选主题将在录制按钮上方显示为徽章。 录音会自动分配。
  2. 可以从“审阅”中的“概述”选项卡将现有会话移入(或移出)主题。
  3. 主题内的会话在默认审阅列表中是隐藏的,但全局搜索仍然可以找到它们。

人工智能评审台

已完成的会话将在专用的全页审阅台(非模式)中打开,并带有动画滑动选项卡栏和键盘箭头导航:

  • 概述选项卡:AI 简报 — 摘要、操作项、关键字、章节、标题/标签建议和一键应用
  • “转录”选项卡:左侧装订线中的时间戳片段、颜色编码的演讲者徽章、连续同一演讲者合并、悬停突出显示以及 TXT/Markdown/SRT/VTT 导出
  • 聊天选项卡:多线程 AI 对话 - GFM Markdown 渲染,具有语法突出显示的代码块(一键复制)、用户/AI 头像、悬停复制/重新生成操作、动画思维点指示器、自动调整大小的编辑器(输入发送)、浮动滚动到底部按钮和每线程删除
  • 思维导图选项卡:生成与 Markmap 兼容的 Markdown,实时编辑,并导出 SVG 或 PNG
  • 元数据操作:应用建议的标题/标签并重命名日记会话的演讲者标签

本地 OpenAI 兼容服务

  1. 选择本地 OpenAI 兼容
  2. 填写Base URLModel
  3. 使用本地模型指南来探测服务并列出已安装的模型。
  4. 如果检测到的服务是 Ollama,DeLive 可以直接从应用程序中拉取所选模型。

本地 whisper.cpp 运行时

  1. 选择本地耳语.cpp
  2. 通过导入现有的 whisper-server 文件或下载推荐的官方发布资产来准备运行时二进制文件。
  3. 通过选择、导入或下载 .bin / .gguf 文件来准备模型。
  4. 启动运行时或运行测试配置。 5、正常录音; Electron 通过 IPC 管理运行时生命周期。

历史记录、备份和恢复

  • 会话可以重命名、标记、按主题组织、搜索以及导出为 TXT、Markdown、SRT 或 VTT。
  • 录制草稿会自动保存,并且可以在中断启动后恢复不完整的会话。
  • 可以导出/导入完整的本地数据以进行备份或迁移。
  • 可选的云备份可以从 设置 > 云备份 将会话、主题、标签和设置上传到 S3 兼容或 WebDAV 存储,并具有远程列表/恢复/删除控件。
  • 诊断导出生成一个经过编辑的 JSON 包,其中包含系统信息和最近的日志以进行故障排除。

🧩 项目地图| 面积 | 关键文件| 责任|

|------|---------|----------------| | 桌面外壳| electron/main.tselectron/mainWindow.tselectron/captionWindow.tselectron/tray.tselectron/shortcuts.tselectron/desktopSource.tselectron/autoUpdater.tselectron/ipcSecurity.ts | 启动 Electron,拥有本机窗口、托盘行为、快捷方式、桌面源选择、更新程序生命周期、IPC 安全性和应用程序关闭。 | | 渲染器应用程序 | frontend/src/App.tsxfrontend/src/components/*frontend/src/i18n/* | 主要设置、录音、历史记录、主题、预览和字幕控制 UI。 工作区视图(实时/审阅台/主题/设置)由 Zustand 驱动。 | | ASR 编排 | frontend/src/hooks/useASR.tsfrontend/src/services/captureManager.tsfrontend/src/services/providerSession.tsfrontend/src/services/captionBridge.ts | 解决提供程序设置问题,启动正确的音频管道,转发转录事件,并将文本镜像到字幕叠加层。 | | 提供者抽象| frontend/src/providers/registry.ts, frontend/src/providers/implementations/* | 规范一个合同和功能模型背后的六个后端。 | | 状态管理| frontend/src/stores/sessionStore.tsfrontend/src/stores/topicStore.tsfrontend/src/stores/uiStore.tsfrontend/src/stores/settingsStore.tsfrontend/src/stores/tagStore.tsfrontend/src/stores/transcriptStore.ts | Zustand 存储会话、主题、UI 状态、设置、标签的切片以及用于向后兼容的统一外观。 | | 会话情报 | frontend/src/services/aiPostProcess.tsfrontend/src/components/ReviewDeskView.tsxfrontend/src/components/PreviewModal.tsx | AI 简报、问答、思维导图、标签和演讲者标签编辑。 | | 主题 | frontend/src/components/TopicsView.tsxfrontend/src/components/TopicDetailView.tsxfrontend/src/components/TopicDialog.tsxfrontend/src/components/TopicPicker.tsx | 卡片网格主题浏览器、每个主题会话列表、CRUD 对话框和实时视图主题选择。 | | 审阅台 UI | frontend/src/components/review/SessionTabBar.tsxfrontend/src/components/review/SessionHeader.tsxfrontend/src/components/review/OverviewTab.tsxfrontend/src/components/review/TranscriptTab.tsxfrontend/src/components/review/ChatTab.tsxfrontend/src/components/review/MindMapTab.tsxfrontend/src/components/review/MarkdownRenderer.tsx | 带键盘导航的动画选项卡栏、带多格式导出的会话标题(TXT/Markdown/SRT/VTT)、每个选项卡内容视图、带语法突出显示的 GFM Markdown 渲染以及思维导图编辑。 | | 设置用户界面 | frontend/src/components/ApiKeyConfig.tsx, frontend/src/components/settings/* | 多部分设置工作区,用于提供程序设置、外观、标题样式、AI 后处理、开放 API、云备份、数据导入/导出以及关于/更新面板。 | | 运行时用户界面 | frontend/src/components/runtime/BundledRuntimeSummaryCard.tsx, frontend/src/components/runtime/BundledRuntimeAdvancedPanel.tsx | 用于管理捆绑的 whisper.cpp 运行时资产的状态卡和高级面板。 | | 共享UI系统| frontend/src/components/ui/* | 按钮、徽章、开关、EmptyState、StatusIndicator、DialogShell 基元,具有跨五个主题的语义颜色标记。 | | 本地模型/运行时工具 | frontend/src/utils/localModelSetup.tsfrontend/src/utils/localRuntimeManager.tsfrontend/src/components/LocalModelSetupGuide.tsxfrontend/src/components/BundledRuntimeSetupGuide.tsxelectron/localRuntime.tselectron/localRuntimeFiles.tselectron/localRuntimeShared.ts, electron/localRuntimeIpc.ts | 检测本地服务、检查模型、支持 Ollama 拉取、导入/下载 whisper.cpp 资产、管理运行时文件以及启动/停止本地运行时。 | | 电子IPC层| electron/appIpc.tselectron/captionIpc.tselectron/safeStorageIpc.tselectron/updaterIpc.tselectron/diagnosticsIpc.tselectron/apiIpc.ts | 用于应用程序生命周期、标题窗口控制、秘密存储、自动更新、诊断和开放 API 数据桥的模块化 IPC 处理程序。 | | 开放API层| electron/apiServer.tselectron/apiBroadcast.tsfrontend/src/hooks/useApiIpcResponder.ts | REST API 端点、WebSocket 实时转录广播以及用于会话数据查询的渲染器端 IPC 响应器。 | | MCP 和代理生态系统 | mcp/delive-mcp-server.js, skills/delive-transcript-analyzer/SKILL.md | 独立 MCP 服务器将 DeLive 公开为工具/资源和座席技能定义。 | | 共享合约| shared/electronApi.tselectron/preload.tsshared/volcProxyCore.ts | 渲染器和主进程之间的类型化桥梁以及嵌入式 Volcengine 代理的共享协议帮助程序。 | | 调试和发布支持| server/scripts/.github/workflows/release.yml.github/workflows/ci.yml | 独立 Volc 代理调试、图标/运行时暂存脚本、持续集成和标记的多平台发布版本。 |

🔄 记录生命周期1. App.tsx 初始化存储、主题、设置、标签和保存的会话。

  1. useASR 要求 ProviderSessionManager 解析所选提供商的功能并进行连接。
  2. CaptureManager 通过 getDisplayMedia 请求系统音频,并选择 MediaRecorderAudioWorklet PCM16 捕获。
  3. 提供程序事件流入 sessionStore,而 CaptionBridge 将稳定的非最终文本镜像到浮动字幕窗口。
  4. sessionStore 构建会话快照、自动保存草稿并在下次启动时恢复中断的工作。
  5. 已完成的会话将在预览工作区中打开,用于转录审阅、AI 简报、问答、思维导图生成、标记和导出。

🏗 系统架构

graph TB
    subgraph "Desktop Shell"
        EM[Electron Main Process]
        WIN[Main Window]
        CAP[Caption Overlay Window]
        DESK[Tray / Shortcut / Auto Launch / Updater]
        SEC[IPC Security / SafeStorage / Diagnostics]
    end

    subgraph "Renderer"
        UI[React App]
        STORES[Zustand Stores]
        CFG[Provider and Runtime Setup]
        PREV[History / Preview / AI Workspace]
    end

    subgraph "Orchestration"
        ASR[useASR]
        CAPMGR[CaptureManager]
        PROVSESS[ProviderSessionManager]
        CAPBR[CaptionBridge]
    end

    subgraph "Capture Pipeline"
        GDM[getDisplayMedia]
        MR[MediaRecorder<br/>WebM / Opus]
        AP[AudioWorklet<br/>PCM16 16kHz]
    end

    subgraph "Provider Layer"
        REG[Provider Registry]
        SON[Soniox]
        VOL[Volcengine]
        GRQ[Groq]
        SIL[SiliconFlow]
        LOA[Local OpenAI-compatible]
        WCP[whisper.cpp Runtime]
    end

    subgraph "Electron Services"
        PROXY[Embedded Volc Proxy]
        RTM[Local Runtime Controller]
    end

    subgraph "Persistence"
        REPO[Session Repository]
        IDB[IndexedDB]
        LS[localStorage]
        SAFE[safeStorage]
    end

    UI --> STORES
    UI --> CFG
    UI --> PREV
    UI --> ASR

    ASR --> CAPMGR
    ASR --> PROVSESS
    ASR --> CAPBR

    CAPMGR --> GDM
    GDM --> MR
    GDM --> AP

    PROVSESS --> REG
    REG --> SON
    REG --> VOL
    REG --> GRQ
    REG --> SIL
    REG --> LOA
    REG --> WCP

    MR --> SON
    MR --> LOA
    AP --> VOL
    AP --> GRQ
    AP --> SIL
    AP --> WCP

    VOL --> PROXY
    WCP --> RTM

    STORES --> REPO
    REPO --> IDB
    REPO --> LS
    CFG --> SAFE

    UI --> EM
    EM --> WIN
    EM --> CAP
    EM --> DESK
    EM --> SEC
    EM --> PROXY
    EM --> RTM
    CAPBR --> CAP

    style UI fill:#61dafb,color:#000
    style EM fill:#334155,color:#fff
    style CAP fill:#f472b6,color:#000
    style REG fill:#f59e0b,color:#000
    style PROXY fill:#10b981,color:#fff
    style RTM fill:#0f766e,color:#fff
    style SEC fill:#ef4444,color:#fff
    style SAFE fill:#a855f7,color:#fff
    style IDB fill:#3b82f6,color:#fff

架构概述

主要部件笔记
桌面外壳Electron 主进程、主窗口、标题窗口、托盘、更新程序、诊断拥有本机生命周期、源选择、字幕覆盖和操作系统集成。
渲染器React UI、Zustand 商店、历史/预览工作区、主题、设置面板处理录制流程、配置、主题管理、会话审核和用户操作。
编排useASRCaptureManagerProviderSessionManagerCaptionBridge将提供者逻辑与捕获和 UI 分开。
提供者层注册表加 6 个实现统一实时云、窗口批处理云、本地服务和本地运行时流程。
电子服务嵌入式 Volc 代理、本地运行时控制器、安全存储 IPC、诊断 IPC提供浏览器环境无法直接执行的功能。
坚持会话存储库、IndexedDB、localStorage、safeStorage自动保存草稿、恢复中断的会话以及将机密与常规设置分开存储。
共享合约类型化预加载桥和共享辅助模块保持渲染器/主合约明确且更安全地发展。

📁 项目结构

DeLive/
├── electron/                         # Electron main process, windows, tray, IPC, updater, runtime control, Open API server
├── frontend/                         # React renderer app, providers, stores, UI components, tests
├── shared/                           # Shared TypeScript contracts for preload/renderer/main and proxy helpers
├── server/                           # Standalone Volcengine proxy used mainly for debugging
├── mcp/                              # Standalone MCP server for AI agents (Claude, Cursor, etc.)
├── skills/                           # Agent skill definitions
├── local-runtimes/                   # Optional packaged runtime assets (for whisper.cpp staging)
├── scripts/                          # Icon generation, runtime fetch/stage, release notes
├── assets/                           # README and branding assets
├── build/                            # Electron-builder icons and packaging resources
├── .github/workflows/ci.yml          # Push/PR continuous integration pipeline
├── .github/workflows/release.yml     # Tag-triggered quality + release pipeline
├── README.md
└── package.json

此处省略了生成的输出,例如 dist-electron/release/ 和依赖项文件夹。

🔧 技术堆栈

技术
桌面应用程序电子40
前端React 18.3 + TypeScript 5.6 + Vite 6
造型顺风 CSS 3.4
状态管理祖斯坦4.5
测试维泰斯特 4
音频处理MediaRecorderAudioWorklet、WAV 转换实用程序
桌面服务Electron主进程IPC,Express,ws
坚持IndexedDB、localStorage、Electron safeStorage
人工智能评论与 OpenAI 兼容的聊天完成功能,用于简报、问答和思维导图
包装electron-builder
发布自动化GitHub Actions 标签工作流程

🔒 安全

特色描述
上下文隔离contextIsolation: true, nodeIntegration: false
值得信赖的 IPC 发送者敏感处理程序验证调用者属于已注册的受信任窗口
内容安全政策CSP 在 Electron 层注入,仅允许所需的连接目标
导航卫士意外的渲染器导航被阻止
路径白名单文件路径检查仅限于安全根目录,例如 userData、家庭、桌面、下载和文档
秘密储藏当操作系统加密可用时,API 密钥通过 Electron safeStorage 存储
开放 API 门禁默认情况下禁用本地 REST API 和 WebSocket; 启用时可选的承载令牌身份验证
诊断卫生导出的诊断在编写 JSON 包之前编辑看起来秘密的字段

⌨️ 键盘快捷键

快捷方式功能
Ctrl+Shift+D / Cmd+Shift+D显示或隐藏主窗口

🌐 开放 API 和 MCP 生态系统

DeLive 通过本地 API 公开其转录数据,使外部工具、脚本和 AI 代理能够以编程方式访问会话历史记录、实时字幕和录制状态。

启用 API

  1. 进入 设置 > 开放 API
  2. 启用开放 API 切换为开。
  3. (可选)设置 访问令牌 进行身份验证(推荐)。

休息 API

启用后,以下端点可在 http://localhost:23456/api/v1/ 处使用:

端点描述
GET /health健康检查(始终可访问,即使 API 被禁用)
GET /sessions通过搜索、过滤和分页列出会话
GET /sessions/:id完整的会议详细信息,包括文字记录和 AI 摘要
GET /sessions/:id/transcript仅纯文本记录
GET /sessions/:id/summaryAI 摘要、行动项目和思维导图
GET /topics列出所有主题
GET /tags列出所有标签
GET /status当前录音状态

如果设置了令牌,请将其包含为 Authorization: Bearer <token>

WebSocket

实时转录流可在 ws://localhost:23456/ws/live 上获得。 通过 ?token=<token> 查询参数或 Authorization 标头进行身份验证。

MCP 服务器

独立的 MCP 服务器 (mcp/delive-mcp-server.js) 将 DeLive 的 API 公开为 AI 代理的工具和资源。 它使用 stdio 传输并与任何 MCP 兼容的客户端配合使用。

配置之前,请安装 MCP 服务器依赖项:

cd mcp && npm install

克劳德桌面/克劳德代码

添加到 claude_desktop_config.json

{
  "mcpServers": {
    "delive": {
      "command": "node",
      "args": ["C:/path/to/DeLive/mcp/delive-mcp-server.js"],
      "env": {
        "DELIVE_API_URL": "http://localhost:23456",
        "DELIVE_API_TOKEN": "your-token-from-settings"
      }
    }
  }
}

光标

添加到 .cursor/mcp.json(项目级)或 ~/.cursor/mcp.json(全局):

{
  "mcpServers": {
    "delive": {
      "command": "node",
      "args": ["C:/path/to/DeLive/mcp/delive-mcp-server.js"],
      "env": {
        "DELIVE_API_URL": "http://localhost:23456",
        "DELIVE_API_TOKEN": "your-token-from-settings"
      }
    }
  }
}

####樱桃工作室

  1. 打开 设置 > MCP 服务器 > 添加
  2. 选择 stdio 类型。 3、填写:
  • 命令node
  • 参数C:/path/to/DeLive/mcp/delive-mcp-server.js
  • 环境DELIVE_API_URL=http://localhost:23456DELIVE_API_TOKEN=your-token
  1. 保存并启用。

OpenAI Codex CLI /其他 MCP 客户端

任何支持 stdio 传输的 MCP 客户端都可以使用相同的模式:

DELIVE_API_URL=http://localhost:23456 \
DELIVE_API_TOKEN=your-token \
node /path/to/DeLive/mcp/delive-mcp-server.js
变量默认描述
DELIVE_API_URLhttp://localhost:23456DeLive REST API 基本 URL
DELIVE_API_TOKEN(空)用于身份验证的承载令牌

注意:DeLive 必须在 启用开放 API 的情况下运行,MCP 服务器才能正常运行。 在 DeLive 设置 > 打开 API 中设置令牌。

请参阅 mcp/ 以获取完整的工具和资源参考。

特工技能

代理技能定义可在 skills/delive-transcript-analyzer/SKILL.md 上找到,为 AI 代理使用 DeLive 功能提供结构化指导。

🔧 扩展提供者

  1. frontend/src/providers/implementations/ 下添加提供程序实现。
  2. 定义准确的 ASRProviderInfo 元数据、必填字段和功能标志。
  3. frontend/src/providers/registry.ts 中注册提供程序。
  4. 如果提供程序支持验证,请在 frontend/src/utils/providerConfigTest.ts 中添加配置测试逻辑。
  5. 对于本地服务或本地运行时流,在 frontend/src/utils/localModelSetup.tsfrontend/src/utils/localRuntimeManager.ts 中连接模型/运行时助手。
  6. 如果提供程序需要自定义标头或本机流程控制,请在 electron/ 中添加 Electron 端支持。

⚠️ 注释

  1. 系统要求:Windows 10+、macOS 13+ 或支持 PulseAudio 环回的 Linux。
  2. Volcengine proxy:正常桌面使用不需要单独的后端进程; Electron 在内部启动代理。
  3. 本地 OpenAI 兼容模式:发现需要 /v1/models,而转录需要 /v1/audio/transcriptions
  4. whisper.cpp模式:打包的二进制文件是可选的; 用户还可以稍后导入或下载运行时资产。
  5. 托盘行为:关闭主窗口隐藏到托盘而不是退出应用程序。
  6. 自动启动:目前在 Windows 和 macOS 上支持。
  7. 自动更新:在 Windows、macOS 和 Linux AppImage 版本上受支持。

🛡️ Windows SmartScreen 警告

首次启动 DeLive 时,Windows 可能会显示 SmartScreen 警告。 对于未签名或新分发的应用程序来说这是预期的。

  1. 单击“更多信息”。
  2. 单击仍然运行

您还可以直接检查源代码并独立验证发布的二进制文件。

📄 许可证

阿帕奇许可证 2.0

🙏致谢


Star History Chart

XimilalaXiang制作

更多信息

分类:Speech To Text

标签数量:5

Fork:4

贡献者:0

继续浏览