A Apple Lança o OpenELM: Modelos de IA Compactos e Open Source Otimizados para Desempenho em Dispositivos.

À medida que gigantes da tecnologia como Google, Samsung e Microsoft aprimoram suas capacidades de IA generativa em PCs e dispositivos móveis, a Apple entra na disputa com o OpenELM, um novo conjunto de modelos de linguagem de código aberto (LLMs) projetado para operar totalmente em dispositivos independentes, sem necessidade de conectividade com a nuvem. Recentemente lançado na comunidade de código de IA Hugging Face, o OpenELM abrange modelos pequenos otimizados para tarefas de geração de texto eficientes.

Visão Geral do OpenELM

A família OpenELM inclui oito modelos—quatro pré-treinados e quatro ajustados por instrução—variando em tamanho de 270 milhões a 3 bilhões de parâmetros. Esses parâmetros representam as conexões entre neurônios artificiais em um LLM, onde um número maior geralmente indica um desempenho superior. O pré-treinamento permite que o modelo gere texto coerente, mas se concentra principalmente na previsão de texto com base em comandos. Por outro lado, o ajuste por instrução ajuda o modelo a fornecer respostas mais relevantes e específicas. Por exemplo, ao ser questionado "ensine-me a fazer pão", um modelo pré-treinado poderia responder inadequadamente "em um forno doméstico", enquanto um modelo ajustado por instrução ofereceria passos detalhados.

A Apple disponibilizou os pesos de seus modelos OpenELM sob uma "licença de código de amostra", que permite uso comercial e modificação, desde que qualquer redistribuição não modificada mantenha o aviso e os isentos de responsabilidade acompanhando. No entanto, a Apple alerta os usuários que esses modelos podem produzir saídas que são imprecisas, prejudiciais, tendenciosas ou questionáveis.

Esse lançamento marca uma mudança significativa para a Apple, tradicionalmente conhecida por seu segredo e ecossistemas de tecnologia fechada. Anteriormente, a empresa introduziu o Ferret, um modelo de linguagem de código aberto com capacidades multimodais, ressaltando seu compromisso com a comunidade de IA de código aberto.

Principais Características do OpenELM

OpenELM, que significa Modelos de Linguagem Eficientes de Código Aberto, visa aplicações em dispositivo, alinhando-se às estratégias de concorrentes como Google, Samsung e Microsoft. O recente modelo Phi-3 Mini da Microsoft, por exemplo, opera completamente em smartphones, destacando a tendência em direção a soluções de IA portáteis.

O desenvolvimento do OpenELM foi liderado por Sachin Mehta, com contribuições significativas de Mohammad Rastegari e Peter Zatloukal. Os modelos estão disponíveis em quatro tamanhos: 270 milhões, 450 milhões, 1,1 bilhão e 3 bilhões de parâmetros—todos menores do que muitos modelos líderes, que geralmente excedem 7 bilhões de parâmetros. Eles foram treinados em um vasto conjunto de dados de 1,8 trilhão de tokens, provenientes de plataformas como Reddit, Wikipedia e arXiv.org, garantindo uma variedade diversificada de entendimento da linguagem.

Insights de Desempenho

Os benchmarks de desempenho do OpenELM indicam resultados sólidos, especialmente a partir da variante de instrução com 450 milhões de parâmetros. Notavelmente, o modelo OpenELM de 1,1 bilhão de parâmetros supera o OLMo, uma recente liberação do Allen Institute for AI, demonstrando eficácia enquanto requer significativamente menos tokens para pré-treinamento.

Em vários benchmarks, o OpenELM-3B pré-treinado apresentou as seguintes precisões:

- ARC-C: 42,24%

- MMLU: 26,76%

- HellaSwag: 73,28%

O feedback inicial dos usuários sugere que, embora o OpenELM produza saídas confiáveis e alinhadas, carece de criatividade e é menos propenso a explorar tópicos não convencionais ou NSFW. Em comparação, o Phi-3 Mini da Microsoft, com sua contagem de parâmetros maior e comprimento de contexto, domina nas métricas de desempenho.

Conclusão

À medida que os modelos OpenELM são testados e refinados, eles prometem aprimorar as aplicações de IA em dispositivos. Será intrigante observar como a comunidade aproveita essa iniciativa de código aberto, especialmente diante da empolgação em torno do compromisso da Apple com a transparência e a colaboração no espaço da IA.

Most people like

Find AI tools in YBX