网页顶部的“点击这里收听本文”功能对视觉障碍人士、阅读困难人士和时间紧迫的用户来说极为重要。本周,先锋语音AI初创公司ElevenLabs推出了Audio Native,这是一款创新音频播放器,利用该公司的先进文本转语音技术自动朗读网页内容。
此外,ElevenLabs还推出了ElevenLabs Reader,提供11种不同声音的人声朗读,支持网页和文档。其语音模型支持29种语言,具备为完整电影配音及将文本转换为歌词的能力。Audio Native的“创作者”套餐定价每月11美元,内置分析工具和听众仪表板,方便监测观众互动。在其X页面(前身为Twitter)上,ElevenLabs展示了使用其技术的网站,包括其博客、bensbites.com的一份SEO人工智能指南,以及2023年11月《纽约客》的一篇文章,题为“美国的国家安全威胁并不全在海外”。《大西洋月刊》和《纽约时报》等知名媒体也已采用ElevenLabs的技术。ElevenLabs的Sam Sklar在博客中表示:“这个工具可定制,设置简便,提升了读者互动性,同时让全球受众更容易接触到您的内容。”
为网站嵌入音频
使用Audio Native,用户可以轻松地为他们的网站嵌入音频,或通过ElevenLabs的API集成现有项目的音频。用户只需提供一段简短的HTML代码,将自己的域名添加到“允许”列表中,选择一款公司提供的声音,并自定义播放器的背景色和文本颜色,再将生成的代码复制并粘贴到自己的网站上。可选的发音词典允许为品牌特有的词汇进行特别处理。默认情况下,模型会为页面上的所有文本内容生成语音,但用户可以通过CSS选择器进行自定义。目前,该工具支持React、Squarespace、WordPress、Ghost、Webflow和Framer等平台。
早期用户评价该工具为“惊艳”和“强大”,突显了其在提升无障碍方面的巨大潜力。
未来创新展望
根据社交媒体的反馈,ElevenLabs显然致力于扩展其功能。当一位用户建议为播客添加RSS订阅功能时,ElevenLabs的增长负责人Luke Harries回应道:“好主意,正在分享给团队。”
ElevenLabs成立于2022年,由前谷歌工程师Piotr Dabkowski和Palantir战略家Mati Staniszewski创立,迅速达到11亿美元的估值。该公司在1月份的最新融资轮中获得了8000万美元。
在Speechify、Deepgram和Voicemod等竞争对手中,ElevenLabs在快速扩展的全球AI语音克隆市场内独占鳌头,预计到2032年市场规模将达到162亿美元,年复合增长率(CAGR)近28%。ElevenLabs还与哈珀柯林斯出版社合作,创建AI生成的有声读物,并推出市场,使用户能够将其克隆声音进行货币化。不过,关于其音乐生成能力以及在训练模型中使用版权材料的争议,近年来受到越来越多的关注。