En la última década, el panorama de las herramientas y la infraestructura de datos ha cambiado drásticamente. Como fundador de una empresa de infraestructura de datos en la nube desde 2009 y de una comunidad de meetups para ingenieros de datos desde 2013, he sido testigo de la evolución de esta comunidad mucho antes de que "ingeniero de datos" se convirtiera en un título formal. Esta perspectiva única me permite reflexionar sobre las lecciones aprendidas del pasado y cómo deben influir en el desarrollo de la nueva era de la IA.
En el ámbito de la antropología tecnológica, 2013 marcó la transición de la era del "big data" a la era del "modern data stack" (MDS). Durante el período del big data, se creía que más datos equivalían a mejores percepciones, supuestamente desbloqueando un nuevo valor comercial.
Como consultor estratégico para una importante empresa de internet, una vez se me encargó desarrollar una estrategia para analizar la enorme producción de datos de miles de millones de consultas DNS diarias con el fin de descubrir un posible insight de $100 millones. Desafortunadamente, a pesar de nuestros esfuerzos, no pudimos identificar tales insights dentro del limitado plazo del proyecto. Esta experiencia reforzó una lección crucial: mientras que almacenar grandes cantidades de datos es relativamente sencillo, extraer percepciones significativas es un proceso complejo y que consume muchos recursos.
Reconociendo este desafío, las empresas se apresuraron a fortalecer sus infraestructuras de datos, impulsadas por el mantra de que solo se podrían generar insights si sus sistemas de datos estaban optimizados. Esta prisa llevó a una explosión de herramientas de datos, ya que los proveedores afirmaban ofrecer la pieza que faltaba en un stack de datos completo que pudiera generar esos insights esquivos.
El término "explosión" no se usa a la ligera; según el Landscape MAD (Machine Learning, IA y Datos) de Matt Turck 2024, el número de empresas que ofrecen herramientas de infraestructura de datos aumentó de 139 en 2012 a 2,011 en este año, un asombroso incremento de 14.5 veces.
El Desafío de la Sobrecarga de Herramientas
Varios factores han moldeado el paisaje actual de los datos. Muchas empresas migraron sus cargas de trabajo locales a la nube, con proveedores de modern data stack ofreciendo servicios gestionados diseñados para fiabilidad, flexibilidad y soluciones escalables.
Sin embargo, a medida que las empresas ampliaron sus conjuntos de herramientas durante el periodo de tasas de interés cero (ZIRP), emergieron desafíos significativos. La complejidad de utilizar múltiples herramientas dispares, las dificultades de integración y los servicios en la nube infrautilizados generaron dudas sobre si el MDS podría cumplir sus promesas.
Muchas empresas Fortune 500 invirtieron fuertemente en infraestructura de datos sin una estrategia coherente para obtener valor de esos datos. La atracción de recopilar una amplia gama de herramientas llevó a redundancias, ya que equipos dentro de la misma organización a menudo utilizaban plataformas superpuestas, como Tableau y Looker, lo que generó costos inflados sin beneficios correspondientes.
A pesar del eventual estallido de la burbuja ZIRP, el panorama MAD continúa expandiéndose. ¿Por qué sucede esto?
El Nuevo Stack de IA
Muchas empresas de herramientas de datos, bien capitalizadas durante la era ZIRP, siguen operando a pesar de los presupuestos empresariales más ajustados y la disminución de la demanda del mercado. Un factor importante es el gran interés en la IA, que ha dado lugar a una nueva ola de herramientas de datos sin haber pasado por una consolidación significativa del mercado de la era anterior.
El “stack de IA” representa un paradigma fundamentalmente nuevo. Mientras que los stacks tradicionales de datos estaban diseñados para datos estructurados, la nueva ola de IA prospera con enormes conjuntos de datos no estructurados: texto, imágenes y video. Además, los modelos de IA generativa se diferencian de los modelos de aprendizaje automático deterministas anteriores al producir salidas variadas incluso a partir de entradas inalteradas, como se observa con herramientas como ChatGPT.
Dadas estas diferencias, los desarrolladores deben adoptar nuevas metodologías para evaluar y monitorear las salidas de los modelos de IA, asegurando una gobernanza ética y una integración efectiva. Las áreas clave de enfoque deberían incluir la orquestación de agentes (comunicación entre modelos), el desarrollo de modelos especializados para casos de uso específicos y herramientas innovadoras para la curación de conjuntos de datos.
Numerosas startups ya están abordando estos desafíos, llevando a la aparición de herramientas de vanguardia dentro del nuevo stack de IA.
Construyendo de Manera Más Inteligente en la Nueva Era de la IA
A medida que navegamos por esta nueva era de IA, es crucial reconocer nuestro pasado. Los datos son la base de la IA y la multitud de opciones de herramientas disponibles hoy en día han allanado el camino para tratar los datos como un activo vital. Sin embargo, debemos preguntarnos cómo evitar los errores de excesos pasados mientras avanzamos.
Una estrategia es que las empresas aclaren el valor específico que esperan de cualquier herramienta de datos o IA en particular. Comprometerse en exceso a tendencias tecnológicas sin un propósito estratégico puede ser perjudicial, especialmente a medida que el entusiasmo por la IA consume tanto atención como presupuesto. Es esencial priorizar herramientas que demuestren un valor claro y un ROI medible.
Los fundadores también deben tener cuidado de no crear soluciones "me too". Antes de perseguir una nueva herramienta en un mercado saturado, deben evaluar si su equipo posee conocimientos únicos y experiencia diferenciada que realmente agregue valor.
Los inversores, por su parte, deben evaluar críticamente dónde se consolidará el valor en el stack de herramientas de datos e IA antes de invertir. Confiar únicamente en los pedigrees de los fundadores de empresas prestigiosas puede llevar a un mercado saturado de productos no diferenciados.
Una pregunta convincente se planteó en una reciente conferencia: “¿Cuál es el costo para su negocio si una sola fila de sus datos es inexacta?” Esto impulsa a las empresas a establecer un marco claro para cuantificar el valor de los datos y las herramientas de datos dentro de sus operaciones.
Sin esta claridad, ninguna inversión en herramientas de datos e IA resolverá la confusión existente.