详细介绍
PengChengStarling 是一款多语言自动语音识别(ASR)工具,基于 icefall 项目构建。它支持多种语言,包括中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。
主要特点
- 高效的模型性能:
- 相比 Whisper-Large v3,PengChengStarling 的模型大小仅为 20%,但推理速度提高了 7 倍。
- 在多种语言的流式语音识别(streaming ASR)性能上,PengChengStarling 与 Whisper-Large v3 相媲美甚至更优。
- 多语言支持:
- 支持 8 种语言,涵盖中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。
- 实时语音识别:
- 支持实时流式语音识别,适用于需要实时处理的应用场景,如国际会议录音转文字、多语言视频自动生成字幕和跨语言客服系统。
- 开源与灵活性:
- PengChengStarling 采用 Apache 2.0 许可证,允许商业和个人使用。
- 提供完整的 ASR 流程支持,包括数据处理、模型训练、推理、微调和部署。
- 便捷的部署:
- 提供 PyTorch 和 ONNX 格式的模型,便于在各种环境中部署。
如何使用
- 开源代码:PengChengStarling 的代码已开源,Github:https://github.com/yangb05/PengChengStarling
- Docker 支持:提供 Docker 镜像,方便开发和部署。
- HuggingFace:https://huggingface.co/stdo/PengChengStarling
应用场景
- 语音助手:为智能设备提供多语言语音交互支持。
- 翻译工具:实时翻译多种语言的语音输入。
- 字幕生成:为多语言视频自动生成字幕。
- 语音搜索:支持多语言的语音搜索功能。