发布了ChatGPT、视频生成应用Sora后,OpenAI又有新搞作了。这次是针对声音的Voice Engine,号称只要15秒的录音和文本,就能精准模仿说话者的声音
OpenAI展现了部分的使用场景,比方说提供富有感情的声音进行儿童辅助阅读、视频翻译和播客内容,帮助有退化性言语病症患者恢复声音等等。
据介绍,这个技术在2022年底开始开发,同时OpenAI Voice Engine产品团队成员杰夫·哈里斯 (Jeff Harris)在接受媒体采访时表示,该模型是根据“许可数据和公开数据的组合”进行训练的。
不过这样的技术看也知道有很多安全疑虑,所以OpenAI这里也表示他们目前也和少数“值得信赖”的伙伴测试使用这个功能,像是儿童教育公司Age of Learning利用GPT-4和Voice Engine与学生进行交流,Livox则是利用这个功能为残疾人士提供发出自然声音的机会,曾推出“Taylor Swift说中文”视频的公司Heygen也有使用这项技术。
毕竟我们也时常听说有人利用AI伪装成熟人的声音骗取转账等不法行径,甚至还有“利用”总统的声音来影响选民投票的可能性,种种情况来看,这个技术目前还是小范围的使用比较好。
更多有关Voice Engine的细节,可以到OpenAI的官方部落格了解更多。