OpenAI发布Voice Engine：15秒录音就能模仿说话者声音，目前仅小范围使用

发布了ChatGPT、视频生成应用Sora后，OpenAI又有新搞作了。这次是针对声音的Voice Engine，号称只要15秒的录音和文本，就能精准模仿说话者的声音

OpenAI展现了部分的使用场景，比方说提供富有感情的声音进行儿童辅助阅读、视频翻译和播客内容，帮助有退化性言语病症患者恢复声音等等。

据介绍，这个技术在2022年底开始开发，同时OpenAI Voice Engine产品团队成员杰夫·哈里斯（Jeff Harris）在接受媒体采访时表示，该模型是根据“许可数据和公开数据的组合”进行训练的。

不过这样的技术看也知道有很多安全疑虑，所以OpenAI这里也表示他们目前也和少数“值得信赖”的伙伴测试使用这个功能，像是儿童教育公司Age of Learning利用GPT-4和Voice Engine与学生进行交流，Livox则是利用这个功能为残疾人士提供发出自然声音的机会，曾推出“Taylor Swift说中文”视频的公司Heygen也有使用这项技术。

毕竟我们也时常听说有人利用AI伪装成熟人的声音骗取转账等不法行径，甚至还有“利用”总统的声音来影响选民投票的可能性，种种情况来看，这个技术目前还是小范围的使用比较好。

更多有关Voice Engine的细节，可以到OpenAI的官方部落格了解更多。

Source :

openai, 新浪, 大图来源