Cuando ChatGPT se lanzó hace más de un año, ofreció a los usuarios de Internet un asistente de IA siempre disponible para diversas tareas, desde la generación de contenido en lenguaje natural, como ensayos, hasta el análisis de información compleja. Este rápido ascenso destacó la potente tecnología que lo respalda: la serie GPT de modelos de lenguaje de gran tamaño (LLMs).
Hoy en día, los LLMs, incluida la serie GPT, no solo mejoran tareas individuales; están revolucionando las operaciones comerciales completas. Las empresas están utilizando APIs de modelos comerciales y soluciones de código abierto para automatizar tareas repetitivas, mejorar la eficiencia y optimizar funciones clave. Imagina interactuar con una IA para diseñar campañas publicitarias para equipos de marketing o acelerar el soporte al cliente accediendo rápidamente a la base de datos correcta.
La Transformación de la Estrategia de Datos
Los datos son fundamentales para el rendimiento de los modelos de lenguaje de gran tamaño. Cuando se entrenan de manera efectiva, estos modelos permiten a los equipos manipular y analizar sus datos de manera eficiente. A medida que ChatGPT y sus competidores ganaron popularidad en el último año, muchas empresas integraron la IA generativa en sus flujos de trabajo de datos, simplificando la experiencia del usuario y permitiendo a los clientes ahorrar tiempo y recursos en sus tareas principales.
Uno de los avances más significativos fue la introducción de capacidades de consulta conversacional. Esta función permite a los usuarios interactuar con datos estructurados (datos organizados en filas y columnas) usando lenguaje natural, eliminando la necesidad de escribir consultas SQL complejas. Con esta funcionalidad de texto a SQL, incluso los usuarios no técnicos pueden introducir consultas en lenguaje simple y recibir información de sus datos.
Varios proveedores clave han sido pioneros en esta capacidad, incluidos Databricks, Snowflake, Dremio, Kinetica y ThoughtSpot. Kinetica, que inicialmente utilizó ChatGPT, ahora emplea su propio LLM. Snowflake ofrece dos herramientas principales: un copiloto para consultas de datos conversacionales y generación de consultas SQL, y una herramienta de Document AI que extrae información de conjuntos de datos no estructurados como imágenes y PDFs. Databricks opera de manera similar con su solución ‘LakehouseIQ’.
Las startups emergentes también están enfocándose en análisis basados en IA. Por ejemplo, DataGPT, con sede en California, proporciona un analista de IA dedicado que ejecuta miles de consultas en tiempo real, presentando los resultados en un formato conversacional.
Apoyando la Gestión de Datos e Iniciativas de IA
Además de generar información, los LLMs están facilitando cada vez más tareas de gestión de datos, críticas para construir productos de IA robustos. En mayo, Informatica lanzó Claire GPT, una herramienta de IA conversacional multi-LLM que ayuda a los usuarios a descubrir, gestionar e interactuar con sus activos de datos en la Nube de Gestión de Datos Inteligente (IDMC) utilizando entradas en lenguaje natural. Claire GPT realiza diversas funciones, incluyendo descubrimiento de datos, creación de pipelines, exploración de metadatos y control de calidad.
Para ayudar aún más a los equipos en el desarrollo de ofertas de IA, Refuel AI ha introducido un LLM especializado para tareas de etiquetado y enriquecimiento de datos. Investigaciones publicadas en octubre de 2023 indican que los LLMs también pueden reducir eficazmente el ruido en los conjuntos de datos, un paso esencial para asegurar la calidad de la IA.
Los LLMs también son aplicables en la ingeniería de datos, especialmente en la integración y orquestación de datos. Pueden generar el código necesario para convertir diversos tipos de datos, conectarse a diferentes fuentes o crear plantillas en YAML y Python para construir DAGs en Airflow.
Mirando Hacia el Futuro
En solo un año, los LLMs han tenido un impacto significativo en el panorama empresarial, y a medida que estos modelos avancen en 2024, podemos esperar aún más aplicaciones en la estrategia de datos, incluyendo el emergente campo de la observabilidad de datos. Monte Carlo ha presentado Fix with AI, una herramienta que identifica problemas en pipelines de datos y recomienda código correctivo. De manera similar, Acceldata ha adquirido Bewgle para mejorar la integración de LLM en la observabilidad de datos.
A medida que surgen nuevas aplicaciones, es crucial que los equipos aseguren que sus modelos de lenguaje, ya sean desarrollados internamente o ajustados, mantengan un alto rendimiento. Incluso errores menores pueden tener un impacto significativo a nivel operativo, potencialmente interrumpiendo la experiencia del cliente.