WellSaid Labs는 인공지능(AI) 음성 기술의 선도주자로서 사용자들이 AI 음성 성능을 보다 자연스럽고 세밀하게 조정할 수 있는 혁신적인 도구인 HINTS(Highly Intuitive Naturally Tailored Speech)를 출시했습니다. 이 기능은 콘텐츠 제작자들이 영화 감독처럼 템포와 음량 조정과 같은 맥락적 주석을 사용하여 AI 음성을 맞춤 설정할 수 있게 합니다.
WellSaid Labs의 공동 창립자이자 CTO인 마이클 페트로척은 독점 인터뷰에서 "고객들이 AI 음성 출력에 대해 더 큰 통제력을 원하고 있습니다. 우리는 직관적이고 자연스러운 시스템을 만들고자 했으며, 사용자 맥락에 따라 진정한 성능을 예측할 수 있도록 했습니다. 창작자들이 자신의 예술적 비전을 실현할 수 있도록 지원합니다"라고 밝혔습니다.
HINTS는 전통적인 방식에서 벗어나, rigid markup language 또는 기본 프롬프트에 의존하지 않고 AI 음성을 제어할 수 있는 새로운 기술입니다. 사용자는 특정 구간을 0.7배 느리게 하거나 볼륨을 5dB 높이는 등 세밀하게 조정하면서도 AI 음성이 매끄럽게 반응하도록 할 수 있습니다. 맥락 인식을 통해 사용자는 긴 스크립트에 걸쳐 주석을 계층화하고 중첩할 수 있습니다.
"이 시스템은 실제 인적 데이터를(동의하에) 사용하여 음성 출력을 생성하므로 주석이 있는 발화도 주석이 없는 경우처럼 사실감 있게 표현됩니다"라고 페트로척은 설명했습니다. "놀랍게도 이 모델은 단일 데이터 세트를 효과적으로 활용할 뿐만 아니라 여러 화자의 성능을 일반화하여 운율을 강화합니다. 이 발견은 우리의 기대를 뛰어넘었으며, 향후 연구의 가능성을 강조합니다."
HINTS는 매우 맞춤화된 감독 중심의 AI 음성 도구에 대한 수요를 충족시키며, 오디오북, 교육 모듈, 마케팅 비디오 등 음성 기반 콘텐츠 혁신의 전환점을 가져올 잠재력을 지닙니다. 초기 평가에서는 정확도와 자연스러움이 향상된 것으로 나타났습니다.
이 연구는 책임감 있고 윤리적인 AI 관행을 prioritizes합니다. "우리는 처음부터 윤리적 혁신에 전념해 왔습니다"라고 페트로척은 언급했습니다. WellSaid는 음성 기여자로부터 명시적 동의를 확보하고, 개인정보를 보호하며, 악용을 방지하기 위해 콘텐츠를 조절합니다.
음성 AI가 소비자 기술과 엔터테인먼트에 점점 더 통합됨에 따라 HINTS는 이 기술이 단순한 음성 도구가 아니라 공감할 수 있는 스토리텔링 매체로서 어떻게 활용될 수 있는지를 보여줍니다. 비록 인간의 재능과 비교할 때 한계가 있지만, HINTS와 같은 혁신은 진정한 표현력이 풍부한 합성 음성을 구현하는 데 한 걸음 더 다가가고 있습니다.