O mais recente modelo de IA de código aberto da Meta é o maior até agora.
Hoje, a Meta anunciou que está lançando o Llama 3.1 405B, um modelo contendo 405 bilhões de parâmetros. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.
Com 405 bilhões de parâmetros, o Llama 3.1 405B não é o modelo de código aberto absoluto mais extenso, mas é o maior dos últimos anos. Treinado usando 16.000 GPUs Nvidia H100, ele também se beneficia de técnicas mais recentes de treinamento e desenvolvimento, que a Meta afirma torná-lo competitivo com os principais modelos proprietários, como o GPT-4o da OpenAI e o Sonnet Claude 3.5 da Anthropic (com algumas ressalvas).
Como nos modelos anteriores da Meta, o Llama 3.1 405B está disponível para download ou uso em plataformas de nuvem como AWS, Azure e Google Cloud. Ele também está sendo usado no WhatsApp e no Meta.ai, onde está alimentando uma experiência de chatbot para usuários nos EUA.
Novo e melhorado
Como outros modelos de IA generativa de código aberto e fechado, o Llama 3.1 405B pode executar uma variedade de tarefas diferentes, desde codificação e resposta a perguntas básicas de matemática até resumir documentos em oito idiomas (inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês). É apenas texto, o que significa que não pode, por exemplo, responder a perguntas sobre uma imagem, mas a maioria das cargas de trabalho baseadas em texto, como analisar arquivos PDF e planilhas, estão dentro de sua competência.
A Meta pretende deixar claro que está experimentando com multimodalidade. Em um artigo publicado hoje, pesquisadores da empresa escrevem que estão desenvolvendo ativamente modelos Llama que podem reconhecer imagens e vídeos, e entender (e gerar) fala. Ainda assim, esses modelos ainda não estão prontos para serem lançados publicamente.
Para treinar o Llama 3.1 405B, a Meta usou um conjunto de dados de 15 trilhões de tokens com data até 2024 (tokens são partes de palavras que os modelos podem internalizar mais facilmente do que palavras inteiras e 15 trilhões de tokens equivalem a incríveis 750 bilhões de palavras). Não é um novo conjunto de treinamento em si, uma vez que a Meta usou o conjunto base para treinar modelos Llama anteriores, mas a empresa afirma ter refinado seus pipelines de curadoria de dados e adotado abordagens de garantia de qualidade e filtragem de dados “mais rigorosas” no desenvolvimento deste modelo.
A empresa também usou dados sintéticos (dados gerados por outros modelos de IA) para ajustar finamente o Llama 3.1 405B. A maioria dos principais fornecedores de IA, incluindo OpenAI e Anthropic, está explorando aplicações de dados sintéticos para escalar seu treinamento de IA, mas alguns especialistas acreditam que dados sintéticos devem ser usados como último recurso devido ao potencial de exacerbarem o viés do modelo.
Por sua vez, a Meta insiste que “equilibrou cuidadosamente” os dados de treinamento do Llama 3.1 405B, mas se recusou a revelar exatamente de onde vieram os dados (além de páginas da web e arquivos web públicos). Muitos fornecedores de IA generativa veem os dados de treinamento como uma vantagem competitiva e, portanto, mantêm essas informações próximas ao peito. No entanto, detalhes dos dados de treinamento também são uma fonte potencial de processos judiciais relacionados à propriedade intelectual, outro desincentivo para empresas revelarem muito.
No artigo mencionado, os pesquisadores da Meta escreveram que, em comparação com os modelos Llama anteriores, o Llama 3.1 405B foi treinado com uma mistura aumentada de dados não-ingleses (para melhorar seu desempenho em idiomas não-ingleses), mais dados “matemáticos” e código (para melhorar as habilidades de raciocínio matemático do modelo) e dados da web recente (para reforçar seu conhecimento sobre eventos atuais).
Relatos recentes da Reuters revelaram que a Meta em um determinado momento usou e-books protegidos por direitos autorais para treinamento de IA, apesar dos avisos de seus próprios advogados. A empresa treina polêmica com sua IA em postagens do Instagram e do Facebook, fotos e legendas, e dificulta para os usuários optarem por sair. Além disso, Meta, juntamente com OpenAI, é objeto de um processo em curso movido por autores, incluindo a comediante Sarah Silverman, sobre o suposto uso não autorizado de dados protegidos por direitos autorais para treinamento de modelo.
“Os dados de treinamento, de muitas maneiras, são como a receita secreta e o molho que vão para a construção desses modelos”, disse Ragavan Srinivasan, VP de gerenciamento de programas de IA na Meta, em uma entrevista ao TechCrunch. “E, portanto, do nosso ponto de vista, investimos muito nisso. E isso será uma dessas coisas em que continuaremos a aprimorar.”
Contexto e ferramentas maiores
O Llama 3.1 405B possui uma janela de contexto maior do que os modelos Llama anteriores: 128.000 tokens, ou aproximadamente o comprimento de um livro de 50 páginas. O contexto de um modelo se refere aos dados de entrada (por exemplo, texto) que o modelo considera antes de gerar a saída (por exemplo, texto adicional).
Uma das vantagens de modelos com contextos maiores é que eles podem resumir pedaços de texto e arquivos mais longos. Ao alimentar chatbots, tais modelos também são menos propensos a esquecer tópicos discutidos recentemente.
Dois outros modelos menores novos que a Meta revelou hoje, Llama 3.1 8B e Llama 3.1 70B - versões atualizadas dos modelos Llama 3 8B e Llama 3 70B lançados em abril - também têm janelas de contexto de 128.000 tokens. Os contextos dos modelos anteriores chegavam a 8.000 tokens, o que torna essa atualização bastante substancial - desde que os novos modelos Llama consigam raciocinar de forma eficaz em todo esse contexto.
Todos os modelos Llama 3.1 podem usar ferramentas, aplicativos e APIs de terceiros para concluir tarefas, como modelos rivais da Anthropic e da OpenAI. De fábrica, eles são treinados para usar o Brave Search para responder a perguntas sobre eventos recentes, a API do Wolfram Alpha para consultas relacionadas a matemática e ciência, e um interpretador Python para validar código. Além disso, a Meta afirma que os modelos Llama 3.1 podem usar certas ferramentas que eles ainda não viram antes - até certo ponto.
Construindo um ecossistema
Se os benchmarks forem acreditados (não que benchmarks sejam a solução final em IA generativa), o Llama 3.1 405B é realmente um modelo muito capaz. Isso seria algo bom, considerando algumas das limitações dolorosamente óbvias dos modelos Llama de gerações anteriores.
O Llama 3 405B tem desempenho comparável ao GPT-4 da OpenAI e alcança “resultados mistos” em comparação com o GPT-4o e o Claude 3.5 Sonnet, de acordo com avaliadores humanos contratados pela Meta, observa o artigo. Enquanto o Llama 3 405B é melhor na execução de código e na geração de gráficos do que o GPT-4o, suas capacidades multilíngues são globalmente mais fracas, e o Llama 3 405B fica atrás do Claude 3.5 Sonnet em programação e raciocínio geral.
E devido ao seu tamanho, ele precisa de hardware robusto para rodar. A Meta recomenda pelo menos um nó de servidor.
Por isso, a Meta está empurrando seus novos modelos menores, o Llama 3.1 8B e o Llama 3.1 70B, para aplicações de propósito geral, como alimentar chatbots e gerar código. O Llama 3.1 405B, diz a empresa, é melhor reservado para destilação de modelo - o processo de transferência de conhecimento de um modelo grande para um modelo menor e mais eficiente - e geração de dados sintéticos para treinar (ou ajustar) modelos alternativos.
Para incentivar o caso de uso de dados sintéticos, a Meta informou que atualizou a licença do Llama para permitir que os desenvolvedores usem as saídas da família de modelos Llama 3.1 para desenvolver modelos generativos de IA de terceiros (se isso é uma ideia sábia é passível de debate). Importante, a licença ainda restringe como os desenvolvedores podem implantar modelos Llama: os desenvolvedores de aplicativos com mais de 700 milhões de usuários mensais devem solicitar uma licença especial da Meta que a empresa concederá a seu critério.