Getty Images verpflichtet sich, ein vertrauenswürdiger Datenpartner im Bereich KI zu werden. Das Unternehmen, bekannt für die Bereitstellung von visuellen Inhalten aus einem globalen Netzwerk von Fotografen und Videomakers, hat die Veröffentlichung eines offenen Beispieldatensatzes auf Hugging Face angekündigt.
Obwohl viele visuelle Datensätze auf dem Hugging Face Hub verfügbar sind, betont Getty Images, dass ihr Angebot einzigartig zuverlässig und kommerziell sicher ist. Diese Sicherheit ermöglicht es Unternehmensentwicklern, den Datensatz mit Zuversicht in ihre KI-Trainingspipeline zu integrieren und dabei Bedenken hinsichtlich Qualität oder rechtlicher Komplikationen zu verringern.
Andrea Gagliano, Leiterin für Datenwissenschaft und KI/ML bei Getty Images, erklärt: „Stellen Sie sich vor, Sie könnten Ihre KI/ML-Fähigkeiten mit Daten erweitern, die sowohl vielseitig als auch von hoher Qualität sind und verantwortungsbewusst beschafft wurden. Das bieten wir an.“
Das langfristige Ziel von Getty ist es, ein Ökosystem zu fördern, in dem KI-Entwickler bevorzugt offiziell lizenzierte Inhalte von ihrer Plattform für das Training ihrer Modelle nutzen.
Was Enthält der Getty Images Datensatz?
Entwickler stehen häufig vor Herausforderungen, wenn sie mit schlecht beschafften und minderwertigen Daten während des KI/ML-Modelltrainings arbeiten. Um dies zu beheben, unternehmen sie umfangreiche Anstrengungen zur Bereinigung und Anreicherung ihrer Datensätze, indem sie Duplikate, beschädigte Dateien und irrelevante Inhalte wie Promi-Bilder, Marken, Bilder in niedriger Auflösung und Materialien ohne geeignete Metadaten entfernen.
Dieser zeitaufwändige Prozess kann zu Ineffizienzen und potenziellen rechtlichen Streitigkeiten führen, da schädliche oder urheberrechtlich geschützte Materialien unbeabsichtigt in die Modellausgaben gelangen können.
Der offene Datensatz von Getty Images zielt darauf ab, diese Hürden zu überwinden, indem er eine kuratierte Sammlung von hochwertigen Bildern in 15 Kategorien bereitstellt. „Dieser Beispieldatensatz umfasst 3.750 Bilder aus Kategorien wie Abstraktionen, gebaute Umgebungen, Wirtschaft, Bildung, Gesundheitswesen, Industrie, Natur, Illustrationen und Reisen“, erläutert Gagliano.
Saubere und Kuratierte Inhalte
Der Datensatz stammt ausschließlich aus Gettys eigener kreativer Bibliothek, was sichert, dass alle Bilder kommerziell sicher verwendet werden können. Entwickler können dieses kuratierte Set nutzen, ohne sich um Bereinigung oder Anreicherung kümmern zu müssen, da es speziell für das Machine Learning-Training konzipiert wurde und hochauflösende Bilder sowie reichhaltige, strukturierte Metadaten enthält, frei von unerwünschten Elementen wie NSFW-Inhalten. Gagliano beschreibt es als den „saubersten, hochwertigsten Datensatz“, der für das Training von ML-Modellen verfügbar ist.
Nutzungsbedingungen
Während der Beispieldatensatz für die Nutzung offen ist, gewährleisten bestimmte Nutzungsbedingungen, dass die lizenzierten Inhalte verantwortungsbewusst für kommerzielle Anwendungen und akademische Forschung verwendet werden. Zu den Einschränkungen gehören:
- Keine Weiterverbreitung des Datensatzes
- Keine Entwicklung von Modellen oder Software, die Inhalte des Datensatzes reproduzieren oder generieren
- Keine Schaffung von Produkten oder Dienstleistungen, die direkt mit Getty Images konkurrieren
- Keine Verwendung biometrischer Identifikatoren, die aus dem Datensatz abgeleitet sind
- Einhaltung aller relevanten Gesetze und Vorschriften
Durch diese Initiative will Getty Images die Entwicklergemeinschaft ansprechen und die umfangreiche Bandbreite an Inhalten präsentieren, die sie anbietet, um sich als „vertrauenswürdiger Partner“ für hochwertige lizenzierte Daten für verantwortungsbewusstes KI-Training zu positionieren.
Gagliano betont: „Unser Ziel ist es zu zeigen, dass es möglich ist, Lizenzen für alle Inhalte bereitzustellen, die benötigt werden, um funktionale KI-Modelle zu trainieren, während die IP der Creator respektiert wird.“ Entwickler, die zusätzliche Daten suchen, können Getty Images für maßgeschneiderte Lizenzoptionen kontaktieren.
Dieser Ansatz stellt sicher, dass die ursprünglichen Inhaltsanbieter jährlich entschädigt werden, ein Modell, das Getty Images auch für sein KI-Bildgenerierungswerkzeug anwendet, das in Partnerschaft mit Nvidia entwickelt wurde.