A IA Generativa tem o potencial de aumentar significativamente a produtividade humana, mas atualmente apenas algumas organizações possuem a expertise e os recursos necessários para desenvolver e treinar modelos fundamentais essenciais do zero. Os desafios são duplos: primeiro, a coleta de dados de treinamento é cada vez mais difícil devido aos rígidos direitos de propriedade intelectual detidos pelos proprietários de conteúdo. Segundo, os recursos financeiros necessários para o treinamento podem ser proibitivos. No entanto, os benefícios sociais de tornar as tecnologias de IA generativa amplamente acessíveis são substanciais.
Como pequenas empresas ou desenvolvedores individuais podem integrar a IA generativa em suas aplicações? A solução está na criação e implantação de versões personalizadas de modelos fundamentais existentes. Considerando o investimento considerável envolvido no desenvolvimento de novos modelos de IA generativa, eles devem ser versáteis o suficiente para acomodar uma variedade de aplicações, assim como os inúmeros usos atuais dos modelos baseados em GPT. Porém, um modelo de uso geral pode não atender adequadamente às necessidades específicas de diferentes áreas. Utilizar um grande modelo de uso geral para uma aplicação de nicho pode também resultar em consumo desnecessário de recursos computacionais, tempo e energia.
Portanto, a maioria das empresas e desenvolvedores se beneficia ao começar com um grande modelo de IA generativa como base, adaptando-o para atender suas necessidades específicas com muito menos esforço de desenvolvimento. Essa abordagem também oferece flexibilidade de infraestrutura ao utilizar CPUs ou aceleradores de IA disponíveis, evitando problemas relacionados à escassez de GPUs. O importante é concentrar-se no caso de uso específico, restringindo o escopo do projeto enquanto se otimiza a flexibilidade por meio de software aberto, baseado em padrões, e hardware amplamente disponível.
Abordagem do Caso de Uso para Desenvolvimento de Aplicativos de IA
No desenvolvimento de software, um caso de uso descreve as características do usuário-alvo, o problema a ser resolvido e como a aplicação alcançará isso. Essa definição determina os requisitos do produto, influencia a arquitetura de software e fornece um roteiro para o ciclo de vida do produto. Mais importante ainda, esclarece o que está fora do escopo do projeto.
Para projetos de IA generativa, estabelecer um caso de uso pode reduzir o tamanho do modelo, as necessidades computacionais e o consumo de energia, enquanto aumenta a precisão ao focar em um conjunto de dados específico. Essa abordagem direcionada leva a menores esforços e custos de desenvolvimento.
Os fatores que definem um caso de uso para IA generativa podem variar por projeto, mas algumas perguntas orientadoras podem ajudar:
- Requisitos de Dados: Que tipo e quantidade de dados de treinamento são necessários e disponíveis? Os dados são estruturados (data warehouse) ou não estruturados (data lake)? Quais restrições se aplicam? Como a aplicação lidará com os dados—por meio de processamento em lote ou streaming? Qual é a frequência das atualizações do modelo? Treinar grandes modelos de linguagem (LLMs) do zero é demorado, então, se o conhecimento em tempo real for vital para sua aplicação (ex: saúde), abordagens alternativas podem ser necessárias para garantir dados atualizados.
- Requisitos do Modelo: Considerações como tamanho do modelo, desempenho e transparência dos resultados são cruciais ao selecionar o modelo certo. O desempenho em LLMs pode variar de bilhões a trilhões de parâmetros—o Llama 2 da Meta oferece versões de 7 a 70 bilhões de parâmetros, enquanto o GPT-4 da OpenAI possui 1,76 trilhões de parâmetros. Modelos maiores geralmente oferecem desempenho superior, mas modelos menores podem se alinhar melhor às suas necessidades. Modelos abertos permitem personalização mais profunda, enquanto modelos fechados oferecem soluções prontas com acesso a API. Adaptar um modelo aos seus dados pode ser importante para aplicações que precisam de rastreabilidade, como gerar resumos de demonstrações financeiras para investidores, enquanto um modelo pronto pode ser suficiente para tarefas criativas, como gerar textos publicitários.
- Requisitos da Aplicação: Identifique os padrões necessários para precisão, latência, privacidade e segurança. Quantos usuários simultâneos ela deve suportar? Como os usuários interagirão com a aplicação? Por exemplo, se seu modelo opera em um dispositivo de borda de baixa latência ou em um ambiente de nuvem de alta capacidade, isso influenciará significativamente as decisões de implementação.
- Requisitos de Computação: Uma vez que os fatores acima estejam esclarecidos, determine os recursos computacionais necessários. Você precisa paralelizar o processamento de dados usando Modin? Seus requisitos de ajuste fino e inferência justificam uma configuração híbrida de nuvem-borda? Mesmo que você tenha o talento e os dados para desenvolver um modelo de IA generativa do zero, avalie se seu orçamento pode suportar a necessária reformulação da infraestrutura de computação.
Essas considerações orientarão as discussões para definir e delinear os requisitos do seu projeto. Aspectos financeiros—abrangendo engenharia de dados, despesas iniciais de desenvolvimento e o modelo de negócios que apoia os custos de inferência—também determinam as estratégias para dados, treinamento e implantação.
Como as Tecnologias de IA Generativa da Intel Podem Ajudar
A Intel oferece soluções de hardware de IA heterogêneas adaptadas a diversas necessidades computacionais. Para maximizar o potencial do seu hardware, a Intel fornece versões otimizadas de ferramentas populares de análise de dados e de IA de ponta a ponta. Recentemente, a Intel lançou um modelo otimizado, classificado como o número 1 no ranking de 7 bilhões de parâmetros no leaderboard de LLMs abertos da Hugging Face (em novembro de 2023). Esses recursos, juntamente com os da comunidade de desenvolvedores de IA da Intel, podem atender às suas demandas de precisão, latência e segurança. Comece com centenas de modelos pré-treinados disponíveis na Hugging Face ou GitHub otimizados para hardware Intel. Você pode pré-processar dados usando ferramentas Intel como Modin, ajustar modelos fundamentais com ferramentas como Intel® Extension for Transformers ou Hugging Face Optimum e automatizar o ajuste de modelos com SigOpt, tudo baseado em otimizações contribuídas para frameworks de IA de código aberto, incluindo TensorFlow, PyTorch e DeepSpeed.
Exemplos de Casos de Uso em IA Generativa
1. Serviço ao Cliente: Caso de Uso de Chatbot
Chatbots baseados em LLM melhoram a eficiência do serviço ao oferecer respostas imediatas a perguntas comuns, permitindo que representantes lidem com questões mais complexas. LLMs de uso geral podem conversar em várias línguas, mas podem carecer de conhecimento específico do negócio ou podem “alucinar” informações com confiança, apesar de não terem fundamento. O ajuste fino atualiza o modelo de forma incremental, enquanto métodos de recuperação, como a geração aumentada por recuperação (RAG), buscam dados relevantes de um banco de dados externo construído a partir de documentos específicos do negócio. Ambas as abordagens geram respostas contextualizadas e podem utilizar CPUs disponíveis, como os processadores Intel® Xeon® Scalable.
2. Varejo: Caso de Uso de Experimentação Virtual
A IA generativa pode oferecer experiências imersivas de compras online, como experimentações virtuais, aumentando a satisfação dos clientes e otimizando a eficiência da cadeia de suprimentos. Esta aplicação se baseia na geração de imagens e deve focar na linha específica de roupas. O ajuste fino de modelos de imagem, como o Stable Diffusion, pode exigir apenas um número limitado de imagens processadas em plataformas de CPU. Para proteger a privacidade do cliente, as imagens devem ser armazenadas localmente, possivelmente em dispositivos dos consumidores.
3. Saúde: Caso de Uso de Monitoramento de Pacientes
Combinar a IA generativa com o monitoramento em tempo real de pacientes pode gerar relatórios personalizados e planos de ação. Este caso de uso requer IA multimodal para processar diferentes tipos de entradas e gerar relatórios. Treinar modelos na área da saúde levanta preocupações de privacidade, exigindo que os dados dos pacientes permaneçam com os provedores. O aprendizado federado permite que o modelo seja treinado localmente sem transferir dados sensíveis. Embora a inferência local seja ideal, soluções híbridas envolvendo componentes de borda e nuvem podem ser necessárias, podendo exigir técnicas de otimização.
Como Começar
Comece definindo seu caso de uso utilizando as perguntas orientadoras acima para esclarecer os requisitos de dados, computação, modelo e aplicação. Em seguida, explore modelos fundamentais relevantes, implementações de referência e recursos da comunidade disponíveis no ecossistema de IA. Identifique e aplique as técnicas de ajuste fino e otimização mais adequadas ao seu projeto.
Realizar uma avaliação das necessidades computacionais pode levar tempo, e elas frequentemente evoluem ao longo do projeto. O Intel® Developer Cloud oferece diversas CPUs, GPUs e aceleradores de IA para ajudar você a iniciar seu desenvolvimento.
Finalmente, para facilitar a transição entre diferentes plataformas de computação durante o desenvolvimento e a implantação, escolha ferramentas e frameworks de IA que sejam abertos, baseados em padrões, e capazes de um desempenho ótimo em vários dispositivos, sem exigir extensas reescritas de código.