语音转文字专题当前支持什么？

当前提供音频转文字和视频转文字两个正式入口，分别处理音频文件和视频音轨中的语音内容。

这里支持图片 OCR 或视频画面识别吗？

不支持。当前专题只围绕语音转写，不包含图片 OCR、视频画面 OCR、翻译或配音生成。

转写结果能直接复制吗？

可以。工具页会直接展示全文文本，并在支持时提供字幕文件下载入口。

先看你要处理的是音频还是视频

如果手里是录音、播客或会议音频，就进音频转文字；如果是课程录屏、采访片段或带音轨视频，就进视频转文字。两页都会直接给出可复制全文结果。

上传视频后提取音轨并转成文字，适合课程视频、采访片段和素材转录

适合课程视频、采访片段、分享录屏

→

语音转写入口

语音转文字

这里聚焦两类高频转录任务：音频转文字，以及视频转文字。你上传录音或视频后，系统会先转写语音内容，再直接返回可复制全文；在支持的情况下，也会提供字幕文件下载入口。

语音转文字录音转文字音频转文字视频转文字视频文字提取

2 类独立转录入口 音频和视频分开处理，上传提示与结果展示更清晰

结果直接展示 不是只给下载链接，页面里会直接显示转写全文

围绕转录而不是 OCR 当前只处理语音内容，不承诺视频画面识别或字幕烧录

哪些场景适合用语音转文字

核心任务是把原本只能听的语音内容，尽快变成可复制、可整理的文本

会议录音整理

部门会议、访谈录音和语音备忘录通常不方便回听全文。先转成文字，再摘录重点、整理纪要，效率会高很多。

课程与播客转写

线上课程音频、播客片段和直播回放，适合先转成文字，再按主题归档或提炼摘要。

视频内容快速提纲

课程视频、采访视频或录屏演示，当前页面会提取音轨并转写文字，适合先拿到全文再找重点片段。

资料检索与留档

把会议、课程和素材中的语音转成文字后，更容易进知识库、文档系统和全文搜索流程。

怎么选音频转文字还是视频转文字

先看源文件，再看你是否需要额外保留时间轴信息

源文件是录音或音频

如果是 MP3、WAV、M4A 或其它音频文件，优先用音频转文字。它会直接围绕音频文件完成转写。

源文件是视频

如果是 MP4、MOV、WebM 或其它视频文件，优先用视频转文字。系统会先提取音轨，再做语音转写。

先保证音质

背景噪音大、多人同时说话、口音重、采样率低时，识别效果通常会下降。源文件越清晰，转录越稳定。

重要内容仍建议校对

专有名词、数字、英文缩写和多人交叉发言更容易出错。转写更适合“先提取、后整理”，重要场景仍建议人工过一遍。

当前能力边界

这组页面只做语音转录，不顺带承诺其它媒体处理能力

当前支持

音频转文字、视频音轨转文字、全文结果展示，以及在支持时导出字幕文件。

当前不做

不做图片 OCR、视频画面 OCR、翻译字幕、语音克隆、配音生成或视频裁剪编辑。

为什么要和 OCR 分开

输入文件、模型链路、结果展示和搜索意图都不同。把它们混在一个大识别页里，交互和文案都会变脏。

结果怎么使用

先复制全文做整理，再用时间分段或字幕文件回到原音频、原视频检查重点片段，会比纯回听高效得多。

常见问题

先把专题边界和真实能力说清楚

当前语音转文字支持哪些入口？ ▼

当前只提供音频转文字和视频转文字两个正式入口，分别处理音频文件与视频音轨。

这里是不是也支持图片 OCR 或视频画面 OCR？ ▼

不是。当前页面只围绕语音转写，不承诺图片文字识别、视频画面识别或字幕翻译等其它能力。

结果能直接复制吗？ ▼

可以。音频转文字页和视频转文字页都会直接展示全文结果，并在支持时提供 TXT 或 SRT 下载入口。

为什么不做成“识别工具大全”？ ▼

因为用户来这里的核心任务是“把语音内容转成文字”，不是浏览所有识别方向。把 OCR、语音转写和其它识别能力混在一起，只会让入口和结果都更混乱。