我正在使用 CRIS 进行 POC,我们正在构建一个语音机器人,并希望针对动态条件和实时场景训练我们的机器人。
正如在 CRIS 中提到的,我们可以通过构建自定义声学模型来克服背景噪音障碍,我也想达到同样的目的。
我基于大约 4.5 小时的长度构建了 2 个自定义语音模型。第一个模型基于没有背景噪音的干净音频文件。第二个模型基于相同的音频文件,其中叠加了噪声。
上下文中的语言是简单的英语,没有特定的词汇。
两个模型的数据集相同,唯一的区别是在第二个模型的数据集中,所有文件都叠加了静态背景噪声。
我根据叠加有噪音的音频文件进行了准确性测试,但结果很奇怪。第二个模型给了我 93% 的 WER,第一个模型给了我 100% 的 WER,这对我来说真的很奇怪,因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该比第一个模型给出更少的 WER .
由于我无法在 CRIS 中看到幕后发生的事情,我想知道 CRIS 是否在背景噪音的情况下给出了有效的结果,或者它真的有效,如果是,那么我在尝试多次相同的结果时做错了什么。
首先,93% 的 WER 非常高,只有在听音频时你几乎听不懂它才会发生。
我的理解是您创建了 3 个数据集:
我假设 training_2 和 test_1 中的噪声相似。注意:您不能在 training_2 中添加人工噪声并在 test_1 中使用真实噪声。训练数据必须代表测试数据。
如果我做对了,当您使用通过 training_1 训练的模型解码 test_1 中的音频时,您会得到 93% 的 WER。当您使用通过 training_2 训练的模型解码 test_1 时,您会得到 100% 的 WER。如果您使用我们的基线模型(Microsoft 对话模型)解码 test_1,您会得到什么结果?您可以简单地创建一个新的准确度测试来获得这个值。
如果您想分享更多详细信息和数据,请联系我们(链接位于https://cris.ai/底部)。我们可以仔细看看出了什么问题。
感谢您对自定义语音服务的关注。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句