Cloudflare lanserar nya artificiella intelligensverktyg för att hjälpa kunder att implementera och ejecutar modeller

Med målet att bevisa att IA är modernt, Cloudflare, en leverantör av tjänster på nätet, lanserar nu en ny samling produkter och tillämpningar som ska hjälpa kunderna att utforma, implementera och tillämpa IA-modeller i den röda tråden.

Ett av de nya erbjudandena, Workers AI, ger kunderna tillgång till GPU:er som är fysiskt nära varandra och som Cloudflare-bolagen har placerat ut för att utföra IA-modeller med pago por uso. Otro, Vectorize, proporciona una base de datos de vectores para almacenar incrustaciones de vectores (representaciones matemáticas de datos) generadas por modelos de Workers AI. En tredje, AI Gateway, är utformad för att tillhandahålla metoder som gör det möjligt för kunderna att bättre hantera kostnaderna för utveckling av IA-tillämpningar.

Matthew Prince, Director Ejecutivo på Cloudflare, säger att lanseringen av den nya produktsviten med fokus på IA motiverades av ett starkt önskemål från Cloudflares kunder om en mer enkel och lättanvänd lösning för IA-styrning med fokus på lägre kostnader.

"Las ofertas que ya están en el mercado siguen siendo muy complicadas: requieren reunir a muchos proveedores nuevos y se vuelve costoso rápidamente", dijo Prince a TechCrunch en una entrevista por correo electrónico. "För närvarande finns det också väldigt lite information tillgänglig om hur man förbrukar pengar i IA; La observabilidad är en stor utmaning om förbränningen i IA minskar. Vi kan hjälpa till att förenkla alla dessa aspekter för dem som utvecklar".

Workers AI vill därför garantera att IA-inferensen alltid sker i de GPU:er som är närmast användaren (ur ett geografiskt perspektiv) för att ge användaren en slutlig upplevelse med låg latens på grund av IA. Aprovechando ONNX, el conjunto de herramientas de aprendizaje automático intermediario respaldado por Microsoft que se utiliza para convertir entre diferentes marcos de IA, Workers AI permite que los modelos de IA se ejecuten dondequiera que el procesamiento tenga más sentido en términos de ancho de banda, latencia, conectividad, procesamiento y limitaciones de localización.

Användare av Workers AI kan välja modeller från en katalog för att börja, inklusive modeller för stora språk (LLM) som Meta's Llama 2, modeller för automatisk igenkänning av röst, klassificerare av bilder och modeller för analys av känsloyttringar. Med Workers AI stannar datan kvar i den del av servidorn där den ursprungligen fanns. Y cualquier dato utilizado para inferencias, p. Las indicaciones enviadas a un LLM o a un modelo de generación de imágenes no se utilizan para entrenar modelos de IA actuales o futuros.

"Lo ideal es que la inferencia se realice cerca del usuario para lograr una experiencia de usuario de baja latencia. Sin embargo, los dispositivos no siempre tienen la capacidad de cómputo o la energía de batería necesaria para ejecutar modelos grandes como los LLM", dijo Prince. "Mientras tanto, las nubes centralizadas tradicionales suelen estar geográficamente demasiado lejos del usuario final. Estas nubes centralizadas también se encuentran principmente en los EE. UU., lo que complica las cosas para las empresas de todo el mundo que prefieren no (o legalmente no pueden) enviar datos fuera de su país de origen. Cloudflare erbjuder den bästa lösningen för att lösa båda problemen".

Workers AI har nu en viktig leverantör: AI-startupen Hugging Face. Hugging Face optimizará los modelos de IA generativa para ejecutarlos en Workers AI, dice Cloudflare, mientras que Cloudflare se convertirá en el primer socio de GPU sin servidor para implementar modelos de Hugging Face.

Databricks är en annan. Databricks meddelar att de kommer att använda MLflow, den plattform med öppen kod för att administrera automatiska inlärningsflöden och Databricks mjukvarumarknad, för att föra över IA-inferenser till AI-arbetstagare. Cloudflare ansluter sig till MLflow-projektet som en aktiv samarbetspartner och Databricks implementerar MLflow-kapaciteter för de utvecklare som aktivt arbetar med plattformen Workers AI.

Vectorize riktar sig till ett helt annat kundsegment: de som behöver lagra inkorporerade vektorer för IA-modeller i en databas. Las incorporaciones de vectores, los componentes básicos de los algoritmos de aprendizaje automático utilizados por aplicaciones que van desde la búsqueda hasta los asistentes de inteligencia artificial, son representaciones de datos de entrenamiento que son más compactas y al mismo tiempo preservan lo significativo de los datos.

Modellerna i Workers AI kan användas för att generera inkrustningar som sedan kan lagras i Vectorize. O bien, los clientes pueden conservar las incorporaciones generadas por modelos de terceros de proveedores como OpenAI y Cohere.

Ahora bien, las bases de datos vectoriales no son nada nuevo. Framväxande företag som Pinecone använder sig av dem, precis som traditionella företag som AWS, Azure och Google Cloud. Pero Prince afirma att Vectorize se beneficia de la red global de Cloudflare, lo que permite que las consultas de la base de datos se realicen más cerca de los usuarios, lo que lleva a una reducción de latencia y el tiempo de inferencia.

"Att som utvecklare börja med IA kräver idag tillgång till och förvaltning av en infrastruktur som är otillgänglig för den stora massan", sade Prince. "Podemos ayudar a que sea una experiencia más sencilla desde el principio... Podemos agregar esta tecnología a nuestra red existente, lo que nos permite aprovechar nuestra infraestructura existente y transmitir un mejor rendimiento, así como un mejor costo".

Den sista komponenten i IA-sviten, AI Gateway, proportionerona funktioner de observabilidad para ayudar con el seguimiento del tráfico de IA. AI Gateway kontrollerar till exempel antalet förfrågningar om inferens av modeller, liksom hur länge dessa förfrågningar varar, antalet användare som använder en modell och den allmänna kostnaden för att utföra en tillämpning av IA.

Dessutom erbjuder AI Gateway kapaciteter för att minska kostnaderna, inklusive lagring i caché och begränsning av hastigheten. Med hjälp av lagring i caché kan kunderna lagra svaren från LLM på vanliga frågor i caché, vilket minimerar (men förmodligen inte helt eliminerar) behovet av att en LLM genererar ett nytt svar. La limitación de velocidad confiere más control sobre cómo escalan las aplicaciones al mitigar los actores maliciosos y el tráfico intenso.

Prince säger att Cloudflare, med AI Gateway, är en av de få leverantörerna i sin storleksklass som gör det möjligt för utvecklare och företag att betala enbart för den beräkning de använder. Eso no es del todo cierto: herramientas de terceros como GPTCache pueden replicar la funcionalidad de almacenamiento en caché de AI Gateway en otros proveedores, y proveedores como Vercel ofrecen limitación de velocidad como servicio, pero también sostiene que el enfoque de Cloudflare es más ágil que el de la competencia.

Tendremos que ver si ese es el caso.

"För närvarande betalar kunderna för en stor mängd inaktiva beräkningar i form av virtuella maskiner och GPU som de inte använder", sade Prince. "Vemos una oportunidad de abstraer gran parte del trabajo y la complejidad asociados con las operaciones de aprendizaje automático actuales y los flujos de trabajo de aprendizaje automático de los desarrolladores de servicios a través de una solución holística".

Lämna en kommentar

sv_SESwedish