Cloudflare lanciert neue künstliche Intelligenz zur Unterstützung von Kunden bei der Implementierung und Ausführung von Modellen

Con el objetivo de sacar provecho de la moda de la IA, Cloudflare, der Anbieter von Netzwerkdiensten, lanciert eine neue Reihe von Produkten und Anwendungen, die Kunden bei der Entwicklung, Implementierung und Ausführung von IA-Modellen an der Grenze des Netzes helfen sollen.

Eines der neuen Angebote, Workers AI, ermöglicht den Kunden den Zugriff auf nahegelegene GPUs von Cloudflare-Gesellschaften, um IA-Modelle im Rahmen einer Nutzungsgebühr auszuführen. Ein weiterer Anbieter, Vectorize, stellt eine Vektordatenbank zur Verfügung, in der Vektordaten (mathematische Darstellungen von Daten) gespeichert werden können, die von KI-Modellen generiert wurden. Ein drittes Tool, AI Gateway, wurde entwickelt, um Methoden bereitzustellen, die es Kunden ermöglichen, die Kosten für die Entwicklung von KI-Anwendungen besser zu verwalten.

Laut Matthew Prince, Director Ejecutivo von Cloudflare, ist die Einführung der neuen IA-Produktreihe auf den Wunsch der Cloudflare-Kunden nach einer einfacheren und benutzerfreundlicheren IA-Lösung zurückzuführen, bei der die Kosteneinsparung im Vordergrund steht.

"Las ofertas que ya están en el mercado siguen siendo muy complicadas: requieren reunir a muchos proveedores nuevos y se vuelve costoso rápidamente", dijo Prince a TechCrunch en una entrevista por correo electrónico. "Actualmente también hay muy poca información disponible sobre cómo se gasta el dinero en IA; La observabilidad es un gran desafío a medida que el gasto en IA se dispara. Podemos ayudar a simplificar todos estos aspectos para los desarrolladores".

Mit diesem Ziel will Workers AI sicherstellen, dass IA-Inferencing immer in der Nähe des Benutzers stattfindet (aus geografischer Sicht), um dem Benutzer ein endgültiges Benutzererlebnis mit geringer Latenz zu bieten, das durch IA beeinflusst wird. Durch die Weiterentwicklung von ONNX, dem von Microsoft bereitgestellten Paket automatischer Vermittlungssysteme für die Konvertierung zwischen verschiedenen IA-Modellen, ermöglicht Workers AI, dass die IA-Modelle so ausgeführt werden, dass die Verarbeitung in Bezug auf Bandbreiten, Latenz, Konnektivität, Verarbeitung und Lokalisierungsbeschränkungen mehr Sinn ergibt.

Die Nutzer von Workers AI können zum Einstieg Modelle aus einem Katalog auswählen, darunter große Sprachmodelle (LLM) wie Meta's Llama 2, Modelle zur automatischen Spracherkennung, Bildklassifizierer und Modelle zur Gefühlsanalyse. Mit Workers AI bleiben die Daten in der Region des Servidors, in der sie ursprünglich gespeichert waren. Y cualquier dato utilizado para inferencias, p. Las indicaciones enviadas a un LLM o a un modelo de generación de imágenes no se utilizan para entrenar modelos de IA actuales o futuros.

"Ideal ist es, wenn die Inferenz in der Nähe des Benutzers stattfindet, um eine kurze Benutzererfahrung zu ermöglichen. Allerdings verfügen die Geräte nicht immer über die nötige Speicherkapazität oder die nötige Energie, um große Modelle wie LLM auszuführen", so Prince. "Mientras tanto, las nubes centralizadas tradicionales suelen estar geográficamente demasiado lejos del usuario final. Estas nubes centralizadas también se encuentran principalmente en los EE. UU., lo que complica las cosas para las empresas de todo el mundo que prefieren no (o legalmente no pueden) enviar datos fuera de su país de origen. Cloudflare ofrece el mejor lugar para resolver ambos problemas".

Workers AI hat bereits einen wichtigen Partner gefunden: das KI-Startup Hugging Face. Hugging Face wird die generativen KI-Modelle für die Ausführung in Workers AI optimieren, sagt Cloudflare, während Cloudflare zum ersten GPU-Anbieter ohne Server für die Implementierung der Modelle von Hugging Face wird.

Databricks ist ein anderes Unternehmen. Databricks gibt an, dass es mit MLflow, der Plattform für die Verwaltung von automatisierten Arbeitsabläufen und dem Softwaremarkt von Databricks, möglich sein wird, IA- und KI-Inferencing zu verbinden. Cloudflare wird dem MLflow-Projekt als aktiver Mitarbeiter beitreten und Databricks wird MLflow-Kapazitäten für Entwickler implementieren, die aktiv auf der KI-Plattform arbeiten.

Vectorize richtet sich an ein anderes Kundensegment: diejenigen, die Vektoren für IA-Modelle in einer Datenbasis speichern müssen. Die Vektoren, die grundlegenden Komponenten der automatischen Lernalgorithmen, die von Anwendungen von der Suche bis zum Einsatz künstlicher Intelligenz verwendet werden, sind kompaktere Darstellungen von Lerndaten, die gleichzeitig die Signifikanz der Daten bewahren.

Los modelos en Workers AI se pueden usear para generar incrustaciones que luego se pueden almacenar en Vectorize. Oder aber die Kunden können die von Drittanbietern wie OpenAI und Cohere generierten Überlagerungen konservieren.

Nun sind die vektoriellen Datenbasen nichts Neues mehr. Aufstrebende Unternehmen wie Pinecone nutzen sie ebenso wie traditionelle Unternehmen des öffentlichen Netzes wie AWS, Azure und Google Cloud. Prince betont jedoch, dass Vectorize von der globalen Cloudflare-Redaktion profitiert, die es ermöglicht, dass die Abfragen der Datenbasis näher an den Nutzern durchgeführt werden, was zu einer Verringerung der Latenz und des Zeitaufwands für Abfragen führt.

"Als Entwickler erfordert der Einstieg in die IA heute den Zugang und die Verwaltung einer Infrastruktur, die für die meisten Menschen unzugänglich ist", sagte Prince. "Podemos ayudar a que sea una experiencia más sencilla desde el principio... Podemos agregar esta tecnología a nuestra red existente, lo que nos permite aprovechar nuestra infraestructura existente y transmitir un mejor rendimiento, así como un mejor costo".

El último componente de la suite de IA, AI Gateway bietet Beobachtungsfunktionen zur Unterstützung der Überwachung des IA-Prozesses. AI Gateway kontrolliert z.B. die Anzahl der Abfragen von Modellen, die Dauer dieser Abfragen, die Anzahl der Nutzer, die ein Modell verwenden, und die allgemeinen Kosten für die Ausführung einer KI-Anwendung.

Darüber hinaus bietet AI Gateway Möglichkeiten zur Kostenreduzierung, einschließlich der Speicherung im Cache und der Geschwindigkeitsbegrenzung. Mit der Zwischenspeicherung können die Kunden die Antworten der LLM auf gemeinsame Fragen im Zwischenspeicher ablegen, wodurch die Notwendigkeit, dass ein LLM eine neue Antwort gibt, minimiert (aber wahrscheinlich nicht vollständig beseitigt) wird. Die Geschwindigkeitsbegrenzung gibt mehr Kontrolle darüber, wie sich die Anwendungen entwickeln, um böswillige Handlungen und intensiven Schaden zu begrenzen.

Prince sagt, dass Cloudflare mit AI Gateway einer der wenigen Anbieter seiner Größe ist, der es Entwicklern und Unternehmen ermöglicht, nur für die genutzte Rechenleistung zu bezahlen. Das ist noch nicht alles: Drittanbieter wie GPTCache können die Speicherfunktion von AI Gateway bei anderen Anbietern replizieren, und Anbieter wie Vercel bieten Geschwindigkeitsbegrenzungen als Service an, aber auch hier gilt, dass das Konzept von Cloudflare besser ist als das der Konkurrenz.

Tendremos que ver si ese es el caso.

"Actualmente, los clientes están pagando por una gran cantidad de computación inactiva en forma de máquinas virtuales y GPU que no se utilizan", dijo Prince. "Wir sehen eine Möglichkeit, einen großen Teil des Arbeitsaufwands und der Komplexität, die mit den aktuellen automatisierten Arbeitsabläufen und den automatisierten Arbeitsabläufen der Entwickler von Dienstleistungen verbunden sind, durch eine ganzheitliche Lösung zu reduzieren."

Schreibe einen Kommentar

de_DEGerman