Bases de Datos
Almacenamiento
IA generativa

Impacto de la IA generativa en la tecnología de base de datos

La IA generativa no es sólo para chatbots. La inteligencia artificial y el aprendizaje automático están cambiando la forma de guardar, estructurar y consultar los datos en las tradicionales bases. Las novedades afectan a todos los niveles del almacenamiento.

base de datos, almacenamiento
Créditos: Jan Antonin (Unsplash).

Una de las mayores transformaciones que trae consigo la carismática IA generativa está sepultada bajo su software. Ocultos a la vista, los algoritmos de IA están cambiando la tecnología de base de datos a escala global. Están renovando los sistemas creados para rastrear los datos en todo el planeta en infinitas tablas regulares y reemplazándolos con capacidades de inteligencia artificial más nuevas que son complejas, adaptables y aparentemente intuitivas.

Las novedades afectan a todos los niveles del almacenamiento de datos. En la actualidad, se están revisando las estructuras de datos básicos. Los creadores de bases de datos están cambiando la forma en la que almacenamos la información para que funcione mejor con los modelos de IA. El papel del administrador de la base de datos, antes estático y mecánico, está evolucionando para ser más comunicativo. Salen de escena los registradores de datos y entran los magos que leen la mente.

He aquí 10 formas en que la tecnología de base de datos está cambiando, adaptándose a esta nueva era y mejorando a medida que la IA se vuelve cada vez más omnipresente.

 

Vectores e incrustaciones

A los desarrolladores de IA les gusta almacenar información como largos vectores de números. En el pasado, las bases de datos almacenaban estos valores como filas, con cada número en una columna separada. Ahora, algunas bases de datos admiten vectores puros, por lo que no es necesario dividir la información en filas y columnas. En cambio, las bases de datos los almacenan juntos. Algunos vectores utilizados para el almacenamiento tienen cientos o incluso miles de números.

Dichos vectores generalmente se combinan con incrustaciones, un esquema para convertir datos complejos en una sola lista de números. El diseño de incrustaciones sigue siendo en gran medida un arte y, a menudo, se basa en el conocimiento del dominio subyacente. Cuando las incrustaciones están bien diseñadas, las bases de datos pueden ofrecer un acceso rápido y consultas complejas.

Algunas empresas como Pinecone, Vespa, Milvus, Margo y Weaviate están creando nuevas bases de datos que se especializan en el almacenamiento de vectores. Otros como PostgreSQL están agregando vectores a sus herramientas actuales.

 

Modelos de consulta

Agregar vectores a las bases de datos es más que conveniente. Las nuevas funciones de consulta pueden hacer más cosas que buscar coincidencias exactas. Pueden localizar los valores “más cercanos”, lo que ayuda a implementar sistemas como motores de recomendación o detección de anomalías. Incrustar datos en el espacio vectorial simplifica los problemas complicados que involucran la coincidencia y la asociación a la mera distancia geométrica.

Las bases de datos de vectores como Pinecone, Vespa, Milvus, Margo y Weaviate ofrecen consultas de vectores. Algunas herramientas inesperadas como Lucene o Solr también ofrecen una coincidencia de similitud que puede ofrecer resultados similares con grandes bloques de texto no estructurado.

 

Recomendaciones

Los nuevos sistemas de consulta basados en vectores tienen un halo de magia y misterio mucho mayor a los del pasado. Las consultas antiguas buscaban coincidencias; las nuevas bases de datos impulsadas por IA parecen estar leyendo la mente del usuario. Usan búsquedas de similitud para encontrar elementos de datos que son "cercanos" y que a menudo son una buena coincidencia para lo que los usuarios quieren. Las matemáticas subyacentes pueden ser tan simples como encontrar la distancia en un espacio n-dimensional, pero de alguna manera eso es suficiente para generar lo inesperado. Estos algoritmos se han ejecutado por separado durante mucho tiempo como aplicaciones completas, pero poco a poco se están incorporando a la base de datos, donde pueden admitir consultas mejores y más complejas.

Oracle es solo un ejemplo de una base de datos que apunta a este mercado. Oracle ha ofrecido durante mucho tiempo varias funciones para la búsqueda de coincidencias aproximadas y similitudes. Ahora ofrece directamente herramientas personalizadas para industrias como el comercio minorista online.

 

Paradigmas de indexación

En el pasado, las bases de datos creaban índices simples que admitían búsquedas más rápidas por columnas particulares. Los administradores de bases de datos tenían la habilidad de elaborar consultas elaboradas con uniones y cláusulas de filtrado que se ejecutaban más rápido con los índices correctos. Ahora, las bases de datos vectoriales están diseñadas para crear índices que abarquen de forma efectiva todos los valores en un vector. Apenas estamos comenzando a descubrir todas las aplicaciones para encontrar vectores que están "cerca" entre sí.

Pero eso es solo el comienzo. Cuando se entrena la IA en la base de datos, ésta absorbe toda la información que contiene. Ahora podemos enviar consultas a la IA en un lenguaje sencillo y esta buscará de manera compleja y adaptable.

 

Clasificación de datos

Incluir la inteligencia artificial en la tecnología de base de datos no sólo consiste en agregar una nueva estructura a esta última. A veces supone agregar una nueva estructura dentro de los propios datos. Algunos datos llegan en un conjunto desordenado de bits. Puede haber imágenes sin anotaciones o grandes BLOB (Binary Large Objects) de texto escritos por alguien hace mucho tiempo.

Los algoritmos de inteligencia artificial están comenzando a limpiar el caos, filtrar el ruido e imponer orden en los conjuntos de datos desordenados. Rellenan las tablas automáticamente. Pueden clasificar el tono emocional de un bloque de texto o adivinar la actitud de un rostro en una fotografía. Se pueden extraer pequeños detalles de las imágenes y los algoritmos también pueden aprender a detectar patrones. Están clasificando los datos, extrayendo detalles importantes y creando una vista tabular regular y claramente delineada de la información.

Amazon Web Services ofrece varios servicios de clasificación de datos que conectan herramientas de IA como SageMaker con bases de datos como Aurora.

 

Mejor interpretación

Las buenas bases de datos manejan muchos de los detalles del almacenamiento de datos. En el pasado, los programadores todavía tenían que dedicar tiempo a analizar varios parámetros y esquemas utilizados por la base de datos para que funcionaran de manera eficiente. Precisamente se estableció el rol de administrador de la base de datos para gestionar estas tareas.

Ahora muchas de estas metatareas de alto nivel se están automatizando; a menudo mediante el uso de algoritmos de aprendizaje automático para comprender los patrones de consulta y las estructuras de datos. Pueden observar el tráfico en un servidor y desarrollar un plan para adaptarse a las demandas. Pueden adaptarse en tiempo real y aprender a predecir lo que necesitarán los usuarios.

Oracle ofrece uno de los mejores ejemplos. En el pasado, las empresas pagaban grandes salarios a los administradores de bases de datos que cuidaban sus bases de datos. Ahora, Oracle llama a sus bases de datos autónomas porque vienen con sofisticados algoritmos de inteligencia artificial que ajustan el rendimiento sobre la marcha.

 

Datos más limpios

Ejecutar una buena base de datos no solo requiere mantener el software en funcionamiento, sino también asegurarse de que los datos estén lo más limpios y libres de errores posibles. Las IA simplifican esta carga de trabajo al buscar anomalías, marcarlas y tal vez incluso sugerir correcciones. Pueden encontrar sitios donde el nombre de un cliente está mal escrito y luego encontrar la ortografía correcta buscando en el resto de los datos. También pueden aprender formatos de datos entrantes e ingerir los datos para producir un solo corpus unificado, donde todos los nombres, fechas y otros detalles se representan de la manera más consistente posible.

SQL Server de Microsoft es un ejemplo de una base de datos que está estrechamente integrada con los servicios de calidad de datos para limpiar cualquier dato con problemas como campos faltantes o fechas duplicadas.

 

Detección del fraude

Una aplicación del aprendizaje automático es crear un almacenamiento de datos más seguro. Hay quien utiliza algoritmos de aprendizaje automático para buscar anomalías en su fuente de datos porque pueden ser un buen indicador de fraude. ¿Alguien va al cajero automático a altas horas de la noche por primera vez? ¿Ha utilizado alguna vez la persona una tarjeta de crédito en este continente? Los algoritmos de IA pueden detectar filas peligrosas y convertir una base de datos en un sistema de detección de fraude.

Los servicios web de Google, por ejemplo, ofrecen varias opciones para integrar la detección de fraudes en su línea de almacenamiento de datos.

 

Mayor seguridad

Algunas organizaciones aplican estos algoritmos internamente. Las IA no solo intentan optimizar la base de datos para los patrones de uso; también están buscando casos inusuales que puedan indicar que alguien está entrando ilegalmente. No todos los días un usuario remoto solicita copias completas de tablas completas. Una buena IA puede oler algo sospechoso.

Guardium Security de IBM es un ejemplo de una herramienta que está integrada con las capas de almacenamiento de datos para controlar el acceso y detectar anomalías.

 

Fusión de la base de datos y la IA generativa

En el pasado, las IA se mantenían al margen de la base de datos. Cuando llegó el momento de entrenar el modelo, los datos se extraían de la base de datos, se reformateaban y luego se alimentaban a la IA. Los nuevos sistemas entrenan el modelo directamente a partir de los datos existentes. Esto puede ahorrar tiempo y energía para los trabajos más grandes, donde sólo mover los datos puede llevar días o semanas. También simplifica la vida de los equipos DevOps al hacer que entrenar un modelo de IA sea tan simple como emitir un comando.

Incluso se habla de reemplazar la base de datos por completo. En lugar de enviar la consulta a una base de datos relacional, la enviarán directamente a una IA que mágicamente responderá las consultas en cualquier formato. Google ofrece Bard y Microsoft está impulsando ChatGPT. Ambos son serios contendientes para reemplazar el motor de búsqueda. No hay ninguna razón por la que no puedan reemplazar la base de datos tradicional también.

El enfoque tiene sus desventajas. En algunos casos, las IA tienen alucinaciones y dan respuestas totalmente incorrectas. En otros casos, pueden cambiar el formato de su salida por capricho.

Pero cuando el dominio es lo suficientemente limitado y el conjunto de entrenamiento es profundo y completo, la inteligencia artificial puede ofrecer resultados satisfactorios. Y lo hace sin la molestia de definir estructuras tabulares y obligar al usuario a escribir consultas que encuentren datos dentro de ellas. El almacenamiento y la búsqueda de datos con IA generativa pueden ser más flexibles tanto para los usuarios como para los creadores.

 

 



Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital