originos ocean系统发布会直播,nvidia broadcast直播怎么样

业务场景：主播在讲话中的同时，自动将语音转换为文字显示在屏幕上。

解决问题：因为直播是实时性的，没有字幕，往往注意力不集中，或其他噪音干扰，就会听不清主播的话，加上字幕可以帮助未听清主播话语的观众理解主播所表述的意思，主播唱歌时可看到实时歌词，对直播片段的后期剪辑提供方便。将视频直播或现场直播中的音频实时转为字幕，为观众提供更高效的观会体验，方便对内容进行监控

挑战：因不支持离线模式，使用免费资源，转换过程中，会出现卡顿，网络延迟，识别不准确。有时会出现识别效果特别差的情况。因初次使用，出现返回状态正常，识别结果为空的情况。

使用服务：Real-time ASR语音转写服务

如何解决：调用华为云提供的Websocket接口，将音频分片传输，服务器端可以返回中间临时转写结果，在最后返回最终转写结果。针对识别效果差的情况，咨询了解后，可以设置每次分片时间50ms-1000ms，当需要实时反馈的情况下设置为100ms，不需要实时反馈的情况下设置为500ms。分片的大小可根据位宽 * 采样率 * 分片时间(秒)/ 8 公式来计算。对于识别结果为空的情况，查看文档后知，需将音频采样率设置为8KHz或者16KHz，采样位数8bit或者16bit。提升网络情况，限制观众的发言频率，减少网络占用。主播尽量控制语速，标准发音。

使用场景：用于主播的直播间，在必要的时候可以开启语音转写功能(如唱歌，聊天等)

使用规模：2小时/每日

使用效果：更加投入主播的歌声中，显著提升观看体验，无需因没听懂主播所说而无法融入直播氛围

作者：hw81644006