Cloudflare lança novos recursos de inteligência artificial para ajudar os clientes a implementar e executar modelos

Com o objetivo de sacar provecho de la moda de la IA, Cloudflare, o fornecedor de serviços em nuvem, está a lançar uma nova coleção de produtos e aplicações destinadas a ajudar os clientes a construir, implementar e executar modelos de IA na fronteira da rede.

Uma das novas ofertas, Workers AI, permite aos clientes aceder a GPUs fisicamente cercanas alojadas por parceiros da Cloudflare para executar modelos de IA mediante pagamento por utilização. Outro, Vectorize, fornece uma base de dados de vectores para armazenar incrustações de vectores (representações matemáticas de dados) geradas por modelos de Workers AI. Um terceiro, AI Gateway, está concebido para fornecer métricas que permitem aos clientes gerir melhor os custos de implementação de aplicações de IA.

De acordo com Matthew Prince, diretor executivo da Cloudflare, o lançamento da nova suite de produtos centrados em IA foi motivado por um forte desejo dos clientes da Cloudflare de uma solução de gestão de IA mais simples e fácil de utilizar, centrada na redução de custos.

"As ofertas que já existem no mercado continuam a ser muito complicadas: requerem a reunião de muitos novos fornecedores e tornam-se rapidamente dispendiosas", disse Prince ao TechCrunch numa entrevista por correio eletrónico. "Atualmente também há muito pouca informação disponível sobre como se gasta o dinheiro em IA; A observabilidade é um grande desafio à medida que o gasto em IA se dispara. Podemos ajudar a simplificar todos estes aspectos para os desenvolvedores".

Com este objetivo, a Workers AI pretende garantir que a inferência de IA ocorre sempre nas GPU próximas dos utilizadores (de um ponto de vista geográfico) para proporcionar uma experiência de utilizador final de baixa latência impulsionada pela IA. Aprovando o ONNX, o conjunto de ferramentas de aprendizagem automática intermediária respaldado pela Microsoft que é utilizado para converter entre diferentes marcos de IA, o Workers AI permite que os modelos de IA sejam ejecutados de forma a que o processamento tenha mais sentido em termos de alcance de banda, latência, conetividade, processamento e limitações de localização.

Os utilizadores do Workers AI podem escolher modelos de um catálogo para começar, incluindo modelos de linguagem grande (LLM) como Meta's Llama 2, modelos de reconhecimento automático de voz, classificadores de imagens e modelos de análise de sentimentos. Com o Workers AI, os dados permanecem na região do servidor onde residiam originalmente. Y cualquier dato utilizado para inferencias, p. Las indicaciones enviadas a un LLM o a un modelo de generación de imágenes no se utilizan para entrenar modelos de IA actuales o futuros.

"O ideal é que a inferência seja realizada perto do utilizador para obter uma experiência de utilizador de baixa latência. No entanto, os dispositivos nem sempre têm a capacidade de computação ou a energia de bateria necessárias para executar modelos grandes como os LLM", disse Prince. "Ao mesmo tempo, os núcleos centralizados tradicionais podem estar geograficamente demasiado afastados do utilizador final. Estas núvens centralizadas também se encontram principalmente nos EE. UU., o que complica as coisas para as empresas de todo o mundo que preferem não (ou legalmente não podem) enviar dados para fora do seu país de origem. A Cloudflare oferece o melhor lugar para resolver ambos os problemas".

A Workers AI já tem um importante sócio fornecedor: a startup de IA Hugging Face. A Hugging Face otimizará os modelos de IA generativa para executá-los no Workers AI, diz a Cloudflare, ao mesmo tempo em que a Cloudflare se converterá no primeiro fornecedor de GPU sem servidor para implementar modelos da Hugging Face.

A Databricks é outra. A Databricks diz que funcionará para levar a inferência de IA a Workers AI através do MLflow, a plataforma de código aberto para administrar fluxos de trabalho de aprendizagem automática e o mercado de software da Databricks. A Cloudflare se unirá ao projeto MLflow como colaborador ativo e a Databricks implementará capacidades de MLflow para os desenvolvedores que construírem ativamente na plataforma Workers AI.

A Vectorize dirige-se a um segmento diferente de clientes: aqueles que necessitam de armazenar incrustações de vectores para modelos de IA numa base de dados. As incrustações de vectores, os componentes básicos dos algoritmos de aprendizagem automática utilizados por aplicações que vão desde a pesquisa até aos assistentes de inteligência artificial, são representações de dados de treino que são mais compactas e ao mesmo tempo preservam o significativo dos dados.

Os modelos do Workers AI podem ser usados para gerar incrustações que, em seguida, podem ser armazenadas no Vectorize. Ou ainda, os clientes podem conservar as incorporações geradas por modelos de terceiros de provedores como OpenAI e Cohere.

Agora bem, as bases de dados vectoriais não são nada de novo. As empresas emergentes como a Pinecone estão a alojar, tal como as empresas tradicionais da nuvem pública como a AWS, Azure e Google Cloud. No entanto, Prince afirma que a Vectorize beneficia da rede global da Cloudflare, o que permite que as consultas à base de dados sejam realizadas mais perto dos utilizadores, o que leva a uma redução da latência e do tempo de inferência.

"Como desenvolvedor, começar com a IA hoje requer acesso e gestão de uma infraestrutura que é inacessível para a maioria", disse Prince. "Podemos ajudar a que seja uma experiência mais simples desde o início... Podemos agregar esta tecnologia à nossa rede existente, o que nos permite aproveitar a nossa infraestrutura existente e transmitir um melhor rendimento, bem como um melhor custo".

O último componente da suite de IA, IA Gateway, fornece funções de observabilidade para ajudar no acompanhamento do tráfico de IA. Por exemplo, o AI Gateway controla a quantidade de solicitações de inferência de modelos, bem como a duração dessas solicitações, a quantidade de utilizadores que utilizam um modelo e o custo geral de executar uma aplicação de IA.

Além disso, o AI Gateway oferece capacidades para reduzir os custos, incluindo o armazenamento em cache e a limitação da velocidade. Com o armazenamento em cache, os clientes podem armazenar em cache as respostas dos LLM a perguntas comuns, minimizando (provavelmente não eliminando por completo) a necessidade de um LLM gerar uma nova resposta. A limitação da velocidade permite um maior controlo sobre a forma como as aplicações são utilizadas para mitigar os actores maliciosos e o tráfico intenso.

Prince afirma que, com o AI Gateway, a Cloudflare é um dos poucos fornecedores do seu porte que permite que os desenvolvedores e empresas paguem apenas pela computação que utilizam. Isso não é de todo verdade: ferramentas de terceiros como GPTCache podem replicar a funcionalidade de armazenamento em cache do AI Gateway em outros provedores, e provedores como Vercel oferecem limitação de velocidade como serviço, mas também afirmam que o enfoque da Cloudflare é mais ágil do que o da concorrência.

Tendremos que ver si ese es el caso.

"Atualmente, os clientes estão a pagar por uma grande quantidade de computação inativa sob a forma de máquinas virtuais e GPU que não são utilizadas", disse Prince. "Vemos uma oportunidade de abstrair grande parte do trabalho e da complexidade associados às operações de aprendizagem automática actuais e aos fluxos de trabalho de aprendizagem automática dos desenvolvedores de serviços através de uma solução holística".

Deixe um comentário

pt_PTPortuguese