À medida que as empresas buscam desenvolver aplicações e agentes de IA, torna-se evidente a importância de utilizar diversos modelos de linguagem e bancos de dados para resultados otimizados. A transição de uma aplicação de Llama 3 para Mistral pode exigir um refinamento tecnológico sofisticado. O segredo está na camada de orquestração, um intermediário essencial que conecta modelos fundamentais às aplicações, gerenciando chamadas de API para executar tarefas de forma eficaz.
Essa camada de orquestração é composta principalmente por soluções de software como LangChain e LlamaIndex, que facilitam a integração de bancos de dados. No entanto, surge uma questão crucial: essa camada é meramente baseada em software ou o hardware desempenha um papel significativo além de apenas fornecer energia aos modelos de IA?
A resposta é clara: o hardware é essencial para dar suporte a estruturas como LangChain e aos bancos de dados que fundamentam as aplicações de IA. As empresas precisam de pilhas de hardware robustas capazes de gerenciar fluxos de dados de alto volume, considerando também dispositivos que possam realizar tarefas significativas de data center localmente.
“Embora a camada intermediária de IA seja principalmente uma questão de software, os provedores de hardware podem influenciar significativamente seu desempenho e eficiência,” afirma Scott Gnau, diretor de plataformas de dados da InterSystems. Especialistas em infraestrutura de IA enfatizam que, embora o software seja fundamental para a orquestração de IA, sua eficácia depende da capacidade dos servidores e GPUs de lidar com extensos movimentos de dados. Para que a camada de orquestração funcione de maneira ideal, o hardware subjacente deve ser inteligente e eficiente, focando em conexões de alta largura de banda e baixa latência para gerenciar cargas de trabalho pesadas.
“Essa camada de orquestração exige chips rápidos,” explica Matt Candy, sócio-gerente de IA generativa na IBM Consulting. “Eu imagino um futuro onde silício, chips e servidores podem se otimizar com base no tipo e tamanho do modelo, enquanto a camada de orquestração alterna dinamicamente entre as tarefas.”
As GPUs atuais já disponíveis podem suportar essas necessidades de forma eficaz. John Roese, CTO global e Chief AI Officer da Dell, observa: “É uma questão de hardware e software. As pessoas costumam esquecer que a IA se manifesta como software, que opera em hardware. O software de IA é o mais exigente que já criamos, necessitando de uma compreensão das métricas de desempenho e dos requisitos computacionais.”
Embora a camada intermediária de IA exija hardware rápido e poderoso, novos equipamentos especializados não são necessários além das GPUs e chips existentes. “Certamente, o hardware é um habilitador crucial, mas duvido que exista algum hardware especializado que impulsione grandes avanços além das GPUs para melhorar o desempenho do modelo,” aponta Gnau. “A otimização virá do software e da arquitetura, minimizando o movimento de dados.”
O surgimento de agentes de IA aumentou a necessidade de fortalecer essa camada intermediária. À medida que os agentes de IA se comunicam e iniciam múltiplas chamadas de API, uma camada de orquestração eficaz é vital para gerenciar esse tráfego com servidores ágeis. “Essa camada garante acesso contínuo à API para todos os tipos de modelos e tecnologias de IA, aprimorando a experiência geral do usuário,” diz Candy. “Eu a chamo de controlador de IA dentro da pilha de middleware.”
Os agentes de IA são um tópico em alta na indústria e devem moldar o desenvolvimento da infraestrutura de IA nas empresas nos próximos anos. Roese acrescenta outra consideração para as empresas: a IA em dispositivos. As empresas devem planejar cenários nos quais os agentes de IA precisam operar localmente, especialmente em caso de perda de conectividade. “A questão crítica é onde as operações ocorrem,” sugere Roese. “É aqui que conceitos como o PC de IA entram em cena. Quando um conjunto de agentes colabora em seu nome, eles precisam ser todos centralizados?”
Ele discute a exploração pela Dell de agentes “concierge” em dispositivos que mantêm as operações funcionando mesmo durante interrupções na internet. A IA generativa facilitou uma explosão nas pilhas tecnológicas, com novos provedores de serviços emergindo, oferecendo espaço em GPU, bancos de dados e serviços de AIOps. No entanto, essa expansão pode não ser permanente, adverte Umesh Sachdev, CEO da Uniphore. “Embora a pilha tecnológica tenha explodido, acredito que testemunharemos uma fase de normalização,” prevê Sachdev. “No final, as organizações consolidarão recursos internamente, e a demanda por GPUs se estabilizará. A proliferação de camadas e fornecedores é típica de novas tecnologias, e veremos tendências semelhantes com a IA.”
Para as empresas, a melhor prática é considerar todo o ecossistema de IA—do hardware ao software—para garantir fluxos de trabalho de IA eficazes.