A Getty Images está comprometida em se tornar um parceiro de dados confiável no espaço da IA. Reconhecida por facilitar a descoberta, compartilhamento e compra de conteúdo visual de um vasto conjunto global de fotógrafos e videomakers, a empresa anunciou o lançamento de um conjunto de dados aberto em amostra na Hugging Face.
Embora muitos conjuntos de dados visuais estejam disponíveis no hub da Hugging Face, a Getty Images afirma que sua oferta é singularmente confiável e comercialmente segura. Essa garantia permite que desenvolvedores corporativos integrem o conjunto de dados em seus fluxos de treinamento de IA com confiança, mitigando preocupações sobre qualidade ou complicações legais.
Como explicou Andrea Gagliano, responsável pela ciência de dados e IA/ML na Getty Images, “Imagine aprimorar suas capacidades de IA/ML com dados que são diversificados e de alta qualidade, obtidos de forma responsável. Isso é o que oferecemos."
O objetivo de longo prazo da Getty é fomentar um ecossistema onde os desenvolvedores de IA prefiram usar conteúdo licenciado oficialmente de sua plataforma para treinar seus modelos.
O Que Inclui o Conjunto de Dados da Getty Images?
Os desenvolvedores frequentemente enfrentam desafios ao lidar com dados de baixa qualidade, resultando em extensos esforços para limpar e enriquecer seus conjuntos de dados—removendo duplicatas, arquivos danificados e conteúdo irrelevante, como imagens de celebridades, marcas registradas e imagens de baixa resolução.
Esse processo demorado pode levar a ineficiências e potenciais disputas legais, já que materiais prejudiciais ou com direitos autorais podem inadvertidamente aparecer nas saídas dos modelos.
O conjunto de dados aberto da Getty Images busca superar esses obstáculos ao fornecer uma coleção curada de imagens de alta qualidade em 15 categorias. “Este conjunto de dados em amostra contém 3.750 imagens de categorias como abstrações, ambientes construídos, negócios, educação, saúde, indústria, natureza, ilustrações e viagens,” detalhou Gagliano.
Conteúdo Limpo e Curado
O conjunto de dados vem exclusivamente da própria biblioteca criativa da Getty, garantindo que todas as imagens sejam comercialmente seguras para uso. Os desenvolvedores podem aproveitar esse conjunto curado sem as preocupações de limpeza ou enriquecimento, já que foi projetado especificamente para treinamento de aprendizado de máquina, apresentando imagens em alta resolução e metadados estruturados ricos, livres de elementos indesejados, como conteúdo NSFW. Gagliano descreve-o como o “conjunto de dados mais limpo e de maior qualidade” disponível para treinamento de modelos de ML.
Condições de Uso
Embora o conjunto de dados em amostra esteja aberto para uso, certas condições asseguram que o conteúdo licenciado seja empregado de forma responsável para aplicações comerciais e pesquisas acadêmicas. As restrições incluem:
- Proibição de redistribuição do conjunto de dados
- Proibição de desenvolvimento de modelos ou softwares que recriem ou gerem reproduções do conteúdo do conjunto de dados
- Proibição de criação de produtos ou serviços que competem diretamente com a Getty Images
- Proibição de uso de identificadores biométricos derivados do conjunto de dados
- Conformidade com todas as leis e regulamentos relevantes
Através dessa iniciativa, a Getty Images visa engajar a comunidade de desenvolvedores, destacando a vasta gama de conteúdo que oferece e posicionando-se como um "parceiro confiável" para dados licenciados de alta qualidade para um treinamento de IA responsável.
Gagliano enfatiza, “Nosso objetivo é demonstrar que é possível acomodar a licenciamento para todo o conteúdo necessário para treinar modelos de IA funcionais, respeitando os direitos de propriedade intelectual dos criadores.” Desenvolvedores que buscam dados adicionais podem entrar em contato com a Getty Images para opções de licenciamento personalizadas.
Essa abordagem garante que os criadores de conteúdo originais recebam compensação anual, seguindo um modelo que a Getty Images também aplicou em sua ferramenta de geração de imagens por IA, desenvolvida em parceria com a Nvidia.