WellSaid Labs, ein führendes Unternehmen in der KI-Sprachtechnologie, hat ein innovatives Tool namens HINTS (Highly Intuitive Naturally Tailored Speech) eingeführt, das es Nutzern ermöglicht, KI-Stimmen natürlicher und nuancierter zu steuern. Dieses neue Feature befähigt Content-Ersteller, KI-Stimmen mit kontextbezogenen Anmerkungen, wie Tempo- und Lautstärkeanpassungen, individuell anzupassen – ähnlich, wie es ein Filmregisseur tut.
Michael Petrochuk, Mitbegründer und CTO von WellSaid Labs, erklärte in einem exklusiven Interview: „Unsere Kunden haben den Wunsch geäußert, eine bessere Kontrolle über die stimmlichen Ausgaben unserer KI zu haben. Unser Ziel war es, ein System zu schaffen, das sowohl intuitiv als auch natürlich ist, sodass unser Modell authentische Darbietungen basierend auf dem Nutzerkontext vorhersagen kann. So können Kreative ihre künstlerische Vision verwirklichen.“
HINTS stellt eine Abkehr von traditionellen Methoden dar, die auf starren Markup-Sprachen oder einfachen Eingabeaufforderungen zur Steuerung von KI-Stimmen basieren. Diese neue Technologie ermöglicht detaillierte, interpolierbare Anpassungen – wie die Änderung eines bestimmten Abschnitts auf 0,7x langsamer oder die Erhöhung der Lautstärke um 5 dB – während die KI-Stimme nahtlos reagiert. Ihre kontextuelle Sensibilität erlaubt es Benutzern, Anmerkungen über umfangreiche Skripte hinweg zu schichten und zu gruppieren.
„Das System verwendet tatsächlich menschliche Daten (einvernehmlich gewonnen) für seine Audioausgaben, wodurch seine annotierten Sprachäußerungen ebenso realistisch sind wie die ohne Anmerkungen“, erklärte Petrochuk. „Erstaunlicherweise hat sich gezeigt, dass das Modell nicht nur ein einzelnes Datenset effektiv nutzt, sondern auch die Fähigkeit besitzt, über Darbietungen mehrerer Sprecher zu generalisieren, um die Prosodie zu verbessern. Diese Entdeckung hat unsere Erwartungen übertroffen und unterstreicht das Potenzial für zukünftige Forschungen.“
HINTS erfüllt die Nachfrage nach hochgradig anpassbaren, regieorientierten KI-Stimmtools und hat das Potenzial, sprachbasierte Inhalte für Hörbücher, Trainingsmodule, Marketingvideos und mehr zu transformieren. Erste Bewertungen zeigen Verbesserungen in Genauigkeit und Natürlichkeit.
Die Forschung legt zudem Wert auf verantwortungsvolle und ethische KI-Praktiken. „Von Anfang an waren wir der ethischen Innovation verpflichtet“, bemerkte Petrochuk. WellSaid sorgt für ausdrückliche Zustimmung von Sprachbeitragsleistenden, schützt die Privatsphäre und moderiert Inhalte, um Missbrauch zu verhindern.
Da sprachliche KI zunehmend in Verbraucher- technologien und Unterhaltungsbereichen integriert wird, zeigt HINTS, wie diese Technologie als empathisches Medium für Geschichtenerzählungen dienen kann, anstatt lediglich als sprachliches Werkzeug. Während es im Vergleich zu menschlichem Talent noch Einschränkungen gibt, bringen uns Innovationen wie HINTS näher daran, wirklich ausdrucksstarke synthetische Stimmen zu erreichen.