Desbloqueando LLMs: Dominando o Caos da Experimentação Online

Em uma mudança inovadora das práticas tradicionais, empresas de IA generativa estão implementando modelos de linguagem de grande escala (LLMs) diretamente no ambiente imprevisível da internet para garantir a qualidade. Por que investir tempo em testes minuciosos quando a comunidade online pode coletivamente identificar bugs e falhas? Este experimento audacioso convida os usuários a participar de um beta test amplo e não planejado. Cada prompt revela as peculiaridades únicas dos LLMs, enquanto a vasta internet atua como um repositório de erros—desde que os usuários concordem com os termos e condições.

Ética e Precisão: Opcional?

A pressa em liberar modelos de LLM de IA generativa se assemelha à distribuição de fogos de artifício—entretenimento, mas potencialmente perigoso. Por exemplo, a Mistral recentemente lançou seu modelo 7B sob a licença Apache 2.0. Contudo, a falta de restrições de uso explícitas levanta preocupações alarmantes sobre abusos potenciais. Pequenas alterações nos parâmetros subjacentes podem levar a resultados drasticamente diferentes. Além disso, preconceitos enraizados em algoritmos e conjuntos de dados de treinamento perpetuam desigualdades sociais. O CommonCrawl, que fornece a maior parte dos dados de treinamento para LLMs—60% para o GPT-3 e 67% para o LLaMA—opera sem controles de qualidade rigorosos, colocando o ônus da seleção de dados sobre os desenvolvedores. É crucial reconhecer e enfrentar esses preconceitos para garantir a implantação ética da IA.

Desenvolver software ético deve ser obrigatório, não opcional. No entanto, se os desenvolvedores optarem por ignorar diretrizes éticas, as salvaguardas são limitadas. Assim, é imperativo que formuladores de políticas e organizações garantam a aplicação responsável e imparcial da IA generativa.

Quem Detém a Responsabilidade?

O cenário jurídico em torno dos LLMs é obscuro, frequentemente levando a perguntas críticas sobre responsabilidade. Os termos de serviço para IA generativa não garantem precisão nem aceitam responsabilidade, confiando em vez disso na discrição do usuário. Muitos usuários interagem com essas ferramentas para aprender ou trabalhar, mas podem não ter as habilidades para distinguir informações confiáveis de conteúdo fabricado. O impacto de inexactidões pode reverberar no mundo real. Por exemplo, o preço das ações da Alphabet caiu abruptamente após o chatbot Bard do Google declarar erroneamente que o Telescópio Espacial James Webb havia capturado as primeiras imagens de um planeta fora do nosso sistema solar.

À medida que os LLMs se tornam integrados em aplicações significativas de tomada de decisão, surge a questão: Se ocorrem erros, a responsabilidade deve recair sobre o provedor do LLM, o prestador de serviços que utiliza LLMs, ou o usuário que não verificou a informação? Considere dois cenários: O Cenário A envolve um veículo com mau funcionamento que leva a um acidente, enquanto o Cenário B retrata uma condução imprudente causando o mesmo resultado. O desfecho é lamentável, mas a responsabilidade varia. Com os LLMs, os erros podem resultar de uma combinação de falhas do provedor e negligência do usuário, complicando a questão da responsabilidade.

A Necessidade de um ‘No-LLM-Index’

A regra atual de “noindex” permite que criadores de conteúdo optem por não aparecer na indexação de motores de busca. Uma opção semelhante, “no-llm-index”, poderia capacitar criadores a impedir que seu conteúdo fosse processado por LLMs. Os LLMs atuais não estão em conformidade com a Lei de Privacidade do Consumidor da Califórnia (CCPA) ou com o direito de apagamento do GDPR, complicando os pedidos de exclusão de dados. Ao contrário dos bancos de dados tradicionais, onde os dados são facilmente identificáveis e deletáveis, os LLMs geram saídas baseadas em padrões aprendidos, tornando quase impossível direcionar dados específicos para remoção.

Navegando Pelo Cenário Jurídico

Em 2015, um tribunal de apelações dos EUA considerou a digitalização de livros pelo Google para o Google Books como “uso justo”, citando sua natureza transformadora. No entanto, a IA generativa transcende essas fronteiras, provocando desafios legais sobre a compensação de criadores de conteúdo cujo trabalho alimenta os LLMs. Grandes players como OpenAI, Microsoft, GitHub e Meta enfrentam litígios relacionados à reprodução de código de software de código aberto. Criadores de conteúdo em plataformas sociais devem ter o poder de optar por não monetizar ou permitir que seu trabalho seja utilizado em LLMs.

Olhando Para o Futuro

Os padrões de qualidade variam significativamente entre os setores; por exemplo, o aplicativo Amazon Prime Music apresenta falhas diárias, enquanto uma taxa de falha de apenas 2% em serviços de saúde ou públicos poderia ser catastrófica. Enquanto isso, as expectativas sobre o desempenho dos LLMs permanecem instáveis. Ao contrário das falhas de aplicativos que são facilmente identificáveis, determinar quando a IA falha ou produz alucinações é complexo. À medida que a IA generativa avança, equilibrar a inovação com direitos fundamentais continua a ser crucial para formuladores de políticas, tecnólogos e para a sociedade. Propostas recentes do Comitê Técnico de Padronização de Segurança da Informação da China e uma Ordem Executiva do presidente Biden pedem estruturas para gerenciar questões da IA generativa.

Os desafios não são novos; experiências passadas mostram que, apesar de problemas persistentes como fake news, as plataformas muitas vezes respondem de forma mínima. Os LLMs precisam de conjuntos de dados expansivos frequentemente obtidos gratuitamente na internet. Embora seja possível curar esses conjuntos de dados para qualidade, definir “qualidade” permanece subjetivo. A questão central é se os provedores de LLM realmente abordarão esses problemas ou continuarão a transferir responsabilidades. Prepare-se; a jornada promete ser intensa.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles