Cloudflare lanza nuevas herramientas de inteligencia artificial para ayudar a los clientes a implementar y ejecutar modelos

Con el objetivo de sacar provecho de la moda de la IA, Cloudflare, el proveedor de servicios en la nube, está lanzando una nueva colección de productos y aplicaciones destinadas a ayudar a los clientes a construir, implementar y ejecutar modelos de IA en el borde de la red.

Una de las nuevas ofertas, Workers AI, permite a los clientes acceder a GPU físicamente cercanas alojadas por socios de Cloudflare para ejecutar modelos de IA mediante pago por uso. Otro, Vectorize, proporciona una base de datos de vectores para almacenar incrustaciones de vectores (representaciones matemáticas de datos) generadas por modelos de Workers AI. Un tercero, AI Gateway, está diseñado para proporcionar métricas que permitan a los clientes gestionar mejor los costos de ejecución de aplicaciones de IA.

Según Matthew Prince, director ejecutivo de Cloudflare, el lanzamiento de la nueva suite de productos centrados en IA fue motivado por un fuerte deseo de los clientes de Cloudflare de una solución de gestión de IA más simple y fácil de usar, enfocada en el ahorro de costos.

“Las ofertas que ya están en el mercado siguen siendo muy complicadas: requieren reunir a muchos proveedores nuevos y se vuelve costoso rápidamente”, dijo Prince a TechCrunch en una entrevista por correo electrónico. “Actualmente también hay muy poca información disponible sobre cómo se gasta el dinero en IA; La observabilidad es un gran desafío a medida que el gasto en IA se dispara. Podemos ayudar a simplificar todos estos aspectos para los desarrolladores”.

Con este fin, Workers AI intenta garantizar que la inferencia de IA siempre ocurra en las GPU cercanas a los usuarios (desde un punto de vista geográfico) para brindar una experiencia de usuario final de baja latencia impulsada por IA. Aprovechando ONNX, el conjunto de herramientas de aprendizaje automático intermediario respaldado por Microsoft que se utiliza para convertir entre diferentes marcos de IA, Workers AI permite que los modelos de IA se ejecuten dondequiera que el procesamiento tenga más sentido en términos de ancho de banda, latencia, conectividad, procesamiento y limitaciones de localización.

Los usuarios de Workers AI pueden elegir modelos de un catálogo para comenzar, incluidos modelos de lenguaje grande (LLM) como Meta’s Llama 2, modelos de reconocimiento automático de voz, clasificadores de imágenes y modelos de análisis de sentimientos. Con Workers AI, los datos permanecen en la región del servidor donde residían originalmente. Y cualquier dato utilizado para inferencias, p. Las indicaciones enviadas a un LLM o a un modelo de generación de imágenes no se utilizan para entrenar modelos de IA actuales o futuros.

“Lo ideal es que la inferencia se realice cerca del usuario para lograr una experiencia de usuario de baja latencia. Sin embargo, los dispositivos no siempre tienen la capacidad de cómputo o la energía de batería necesaria para ejecutar modelos grandes como los LLM”, dijo Prince. “Mientras tanto, las nubes centralizadas tradicionales suelen estar geográficamente demasiado lejos del usuario final. Estas nubes centralizadas también se encuentran principalmente en los EE. UU., lo que complica las cosas para las empresas de todo el mundo que prefieren no (o legalmente no pueden) enviar datos fuera de su país de origen. Cloudflare ofrece el mejor lugar para resolver ambos problemas”.

Workers AI ya tiene un importante socio proveedor: la startup de AI Hugging Face. Hugging Face optimizará los modelos de IA generativa para ejecutarlos en Workers AI, dice Cloudflare, mientras que Cloudflare se convertirá en el primer socio de GPU sin servidor para implementar modelos de Hugging Face.

Databricks es otro. Databricks dice que funcionará para llevar la inferencia de IA a Workers AI a través de MLflow, la plataforma de código abierto para administrar flujos de trabajo de aprendizaje automático y el mercado de software de Databricks. Cloudflare se unirá al proyecto MLflow como colaborador activo y Databricks implementará capacidades de MLflow para los desarrolladores que construyen activamente en la plataforma Workers AI.

Vectorize se dirige a un segmento diferente de clientes: aquellos que necesitan almacenar incrustaciones de vectores para modelos de IA en una base de datos. Las incorporaciones de vectores, los componentes básicos de los algoritmos de aprendizaje automático utilizados por aplicaciones que van desde la búsqueda hasta los asistentes de inteligencia artificial, son representaciones de datos de entrenamiento que son más compactas y al mismo tiempo preservan lo significativo de los datos.

Los modelos en Workers AI se pueden usar para generar incrustaciones que luego se pueden almacenar en Vectorize. O bien, los clientes pueden conservar las incorporaciones generadas por modelos de terceros de proveedores como OpenAI y Cohere.

Ahora bien, las bases de datos vectoriales no son nada nuevo. Empresas emergentes como Pinecone las alojan, al igual que empresas tradicionales de la nube pública como AWS, Azure y Google Cloud. Pero Prince afirma que Vectorize se beneficia de la red global de Cloudflare, lo que permite que las consultas de la base de datos se realicen más cerca de los usuarios, lo que lleva a una reducción de la latencia y el tiempo de inferencia.

“Como desarrollador, comenzar con la IA hoy requiere acceso y gestión de una infraestructura que es inaccesible para la mayoría”, dijo Prince. “Podemos ayudar a que sea una experiencia más sencilla desde el principio… Podemos agregar esta tecnología a nuestra red existente, lo que nos permite aprovechar nuestra infraestructura existente y transmitir un mejor rendimiento, así como un mejor costo”.

El último componente de la suite de IA, AI Gateway, proporciona funciones de observabilidad para ayudar con el seguimiento del tráfico de IA. Por ejemplo, AI Gateway controla la cantidad de solicitudes de inferencia de modelos, así como la duración de esas solicitudes, la cantidad de usuarios que utilizan un modelo y el costo general de ejecutar una aplicación de IA.

Además, AI Gateway ofrece capacidades para reducir costos, incluido el almacenamiento en caché y la limitación de velocidad. Con el almacenamiento en caché, los clientes pueden almacenar en caché las respuestas de los LLM a preguntas comunes, minimizando (pero probablemente no eliminando por completo) la necesidad de que un LLM genere una nueva respuesta. La limitación de velocidad confiere más control sobre cómo escalan las aplicaciones al mitigar los actores maliciosos y el tráfico intenso.

Prince afirma que, con AI Gateway, Cloudflare es uno de los pocos proveedores de su tamaño que permite a los desarrolladores y empresas pagar solo por la computación que utilizan. Eso no es del todo cierto: herramientas de terceros como GPTCache pueden replicar la funcionalidad de almacenamiento en caché de AI Gateway en otros proveedores, y proveedores como Vercel ofrecen limitación de velocidad como servicio, pero también sostiene que el enfoque de Cloudflare es más ágil que el de la competencia.

Tendremos que ver si ese es el caso.

“Actualmente, los clientes están pagando por una gran cantidad de computación inactiva en forma de máquinas virtuales y GPU que no se utilizan”, dijo Prince. “Vemos una oportunidad de abstraer gran parte del trabajo y la complejidad asociados con las operaciones de aprendizaje automático actuales y los flujos de trabajo de aprendizaje automático de los desarrolladores de servicios a través de una solución holística”.

دیدگاهتان را بنویسید

fa_IRPersian