Para aprovechar los modelos de lenguaje grandes (LLMs), las aplicaciones web suelen depender de conexiones a servidores en la nube. Sin embargo, el exingeniero de Google, Jacob Lee, ha introducido un método innovador para ejecutar IA de manera local, lo que podría reducir significativamente los costos y las preocupaciones de privacidad relacionadas con las soluciones basadas en la nube. Anteriormente involucrado en el desarrollo de Google Photos, Lee ahora contribuye al popular marco LangChain y comparte su enfoque en un blog en Ollama.
En su publicación, Lee explica cómo los desarrolladores pueden crear aplicaciones web que conversen con documentos directamente desde el dispositivo del usuario, eliminando así la necesidad de costosas conexiones en la nube. Utilizando una mezcla de herramientas de código abierto, ha diseñado una aplicación web que permite a los usuarios interactuar con informes o documentos en lenguaje natural. Los interesados pueden acceder fácilmente a una demostración instalando la aplicación de escritorio de Ollama, ejecutando algunos comandos para la configuración local y luego entablando una conversación con un chatbot sobre cualquier documento subido.
Para la demostración, los usuarios necesitarán una instancia de Mistral ejecutándose localmente a través de Ollama, y se detallan instrucciones completas de configuración en el blog de Lee.
Cómo Funciona el Proceso
Los mecanismos subyacentes de la implementación de Lee involucran un proceso simplificado de cinco pasos:
1. Ingesta de Datos: Los usuarios cargan documentos, como PDFs, en el sistema. Lee utiliza LangChain para segmentar estos documentos en partes manejables y genera incrustaciones vectoriales para cada parte usando Transformers.js. Estas partes se organizan dentro de la base de datos Voy vector store.
2. Recuperación: Cuando un usuario introduce una pregunta, el sistema busca en la base de datos vectorial para encontrar las partes más relevantes para la consulta.
3. Generación: La pregunta y las partes identificadas se envían a la IA de Ollama que se ejecuta localmente, la cual utiliza el modelo Mistral para generar una respuesta basada en la información recuperada.
4. Referencia: Para consultas adicionales, el sistema reformula las preguntas antes de repetir los pasos de recuperación y generación.
5. Exposición de IA Local: La herramienta Ollama permite acceder al modelo Mistral que se ejecuta localmente desde la aplicación web, lo que facilita la integración de la funcionalidad de generación.
En esencia, Lee ha desarrollado una aplicación web capaz de discutir documentos sin conexión, impulsada completamente por software inteligente que se ejecuta en la computadora personal del usuario.
Ventajas para Empresas y Desarrolladores
Este enfoque local tiene implicaciones significativas para empresas y desarrolladores. Al alejarse de la dependencia en la nube hacia implementaciones locales, las organizaciones pueden reducir sus costos operativos, especialmente al escalar operaciones. Además, este método permite una alta personalización, ya que los usuarios pueden crear modelos ajustados utilizando datos internos.
Procesar datos de manera local también aborda problemas de privacidad, asegurando que la información sensible permanezca dentro de las instalaciones y mitigando posibles brechas de seguridad. Lee anticipa que tales sistemas se volverán cada vez más comunes, ya que los modelos emergentes están diseñados para ser más pequeños y eficientes, lo que mejora su compatibilidad con dispositivos locales.
Para facilitar un acceso aún más amplio, Lee imagina una API de navegador que permita a las aplicaciones web solicitar acceso a un LLM que opere localmente, similar a una extensión de Chrome. "Estoy muy emocionado por el futuro de las aplicaciones web impulsadas por LLM y cómo tecnologías como Ollama y LangChain pueden facilitar interacciones de usuario increíbles", comentó.
El concepto de Lee se alinea con una tendencia creciente en el desarrollo web impulsado por IA. Plataformas como MetaGPT permiten a los usuarios construir aplicaciones utilizando comandos en lenguaje natural, mientras que herramientas como CodeWP.ai generan HTML para sitios web. Además, entornos de desarrollo como GitHub Copilot y Replit AI agilizan los procesos de codificación, y proyectos como el Project IDX de Google ofrecen recursos de IA para que los desarrolladores exploren.
En resumen, el enfoque innovador de Jacob Lee para la integración local de LLM no solo abre el camino para aplicaciones rentables y con conciencia de privacidad, sino que también transforma la forma en que los usuarios interactúan con la tecnología en un paisaje digital impulsado cada vez más por capacidades avanzadas de IA.