Houve muitas tentativas de assistentes de voz de código aberto alimentados por IA (consulte Rhasspy, Mycroft e Jasper, para citar alguns) - todos estabelecidos com o objetivo de criar experiências off-line que preservem a privacidade e não comprometam a funcionalidade. Mas o desenvolvimento tem se mostrado extraordinariamente lento. Isso ocorre porque, além de todos os desafios habituais relacionados a projetos de código aberto, programar um assistente é difícil. Tecnologias como Google Assistant, Siri e Alexa têm anos, se não décadas, de pesquisa e desenvolvimento por trás delas - e uma infraestrutura enorme também.
Mas isso não está desencorajando as pessoas do Large-scale Artificial Intelligence Open Network (LAION), a organização sem fins lucrativos alemã responsável por manter algumas das bases de dados de treinamento de IA mais populares do mundo. Este mês, a LAION anunciou uma nova iniciativa, BUD-E, que busca construir um assistente de voz "totalmente aberto" capaz de ser executado em hardware de consumo.
Por que lançar um novo projeto de assistente de voz quando existem inúmeros outros em vários estados de abandono? Wieland Brendel, um membro do Instituto Ellis e contribuinte para o BUD-E, acredita que não há um assistente aberto com uma arquitetura extensível o suficiente para aproveitar ao máximo as tecnologias emergentes da GenAI, principalmente modelos de linguagem grandes (LLMs) ao longo das linhas do ChatGPT da OpenAI.
“A maioria das interações com [assistentes] depende de interfaces de chat que são bastante difíceis de interagir, [e] os diálogos com esses sistemas parecem forçados e não naturais”, Brendel disse ao TechCrunch em uma entrevista por e-mail. “Esses sistemas são OK para transmitir comandos para controlar sua música ou ligar a luz, mas eles não são a base para conversas longas e envolventes. O objetivo do BUD-E é fornecer a base para um assistente de voz que pareça muito mais natural para os humanos e que imite os padrões naturais de fala dos diálogos humanos e lembre-se de conversas passadas.”
Brendel acrescentou que a LAION também deseja garantir que cada componente do BUD-E possa eventualmente ser integrado a aplicativos e serviços sem licença, mesmo comercialmente - o que não é necessariamente o caso de outros esforços de assistentes abertos.
Uma colaboração com o Instituto Ellis em Tübingen, a consultoria tecnológica Collabora e o Tübingen AI Center, o BUD-E - abreviado recursivamente para "Amigo para Entendimento e Empatia Digital" - tem uma ambiciosa estratégia. Em uma postagem de blog, a equipe da LAION detalha o que eles esperam realizar nos próximos meses, principalmente construir "inteligência emocional" no BUD-E e garantir que ele possa lidar com conversas envolvendo vários interlocutores ao mesmo tempo.
“Existe uma grande necessidade de um assistente de voz natural que funcione bem”, disse Brendel. “LAION demonstrou no passado que é ótimo em construir comunidades, e o Instituto Ellis Tübingen e o Tübingen AI Center estão comprometidos em fornecer os recursos para desenvolver o assistente.
O BUD-E está em funcionamento - você pode baixá-lo e instalá-lo hoje no GitHub em um PC com Ubuntu ou Windows (o macOS está a caminho) - mas está muito claramente em estágios iniciais.
LAION juntou vários modelos abertos para montar um MVP, incluindo o LLM Phi-2 da Microsoft, o StyleTTS2 de texto para fala da Columbia e o FastConformer da Nvidia para fala para texto. Como tal, a experiência é um pouco não otimizada. Fazer o BUD-E responder a comandos dentro de cerca de 500 milissegundos - na faixa de assistentes de voz comerciais como o Google Assistant e a Alexa - requer uma GPU robusta como a RTX 4090 da Nvidia.
A Collabora está trabalhando de forma pro bono para adaptar seus modelos de reconhecimento de fala e texto para fala de código aberto, o WhisperLive e o WhisperSpeech, para o BUD-E.
“Construir as soluções de texto para fala e reconhecimento de fala nós mesmos significa que podemos personalizá-las a um grau que não é possível com modelos fechados expostos por meio de APIs”, disse Jakub Piotr Cłapa, pesquisador de IA na Collabora e membro da equipe do BUD-E, em um e-mail. “A Collabora começou inicialmente a trabalhar em [assistentes abertos] parcialmente porque tivemos dificuldade em encontrar uma boa solução de texto para fala para um agente de voz baseado em LLM em um de nossos clientes. Decidimos unir forças com a comunidade de código aberto mais ampla para tornar nossos modelos mais amplamente acessíveis e úteis.
No curto prazo, LAION diz que trabalhará para tornar os requisitos de hardware do BUD-E menos onerosos e reduzir a latência do assistente. Um projeto de longo prazo é construir um conjunto de dados de diálogos para ajustar o BUD-E - bem como um mecanismo de memória para permitir que o BUD-E armazene informações de conversas anteriores e um pipeline de processamento de fala que pode acompanhar várias pessoas falando ao mesmo tempo.
Eu perguntei à equipe se a acessibilidade era uma prioridade, considerando que os sistemas de reconhecimento de fala historicamente não tiveram um bom desempenho com idiomas que não são o inglês e sotaques que não são transatlânticos. Um estudo da Universidade de Stanford descobriu que os sistemas de reconhecimento de fala da Amazon, IBM, Google, Microsoft e Apple eram quase duas vezes mais propensos a interpretar erroneamente palestrantes negros em comparação com palestrantes brancos da mesma idade e gênero.
Brendel disse que LAION não está ignorando a acessibilidade - mas que não é um "foco imediato" para o BUD-E.
“O primeiro foco é realmente redefinir a experiência de como interagimos com assistentes de voz antes de generalizar essa experiência para sotaques e idiomas mais diversos”, disse Brendel.
Nesse sentido, LAION tem algumas ideias bastante ousadas para o BUD-E, que vão desde um avatar animado até a personificação do assistente para suporte à análise dos rostos dos usuários por meio de webcams para levar em conta seu estado emocional.
A ética dessa última parte - análise facial - é um pouco delicada, como é desnecessário dizer. Mas Robert Kaczmarczyk, cofundador da LAION, enfatizou que a LAION permanecerá comprometida com a segurança.
“[Nós] aderimos estritamente às diretrizes de segurança e ética formuladas pelo AI Act da UE”, ele disse ao TechCrunch por e-mail - referindo-se ao quadro jurídico que governa a venda e o uso de IA na UE. O AI Act da UE permite que os países membros adotem regras e salvaguardas mais restritivas para IA "de alto risco", incluindo classificadores de emoções.
“Essa dedicação à transparência não apenas facilita a identificação precoce e correção de possíveis preconceitos, mas também ajuda a causa da integridade científica”, acrescentou Kaczmarczyk. “Ao tornar nossos conjuntos de dados acessíveis, permitimos que a comunidade científica mais ampla se envolva em pesquisas que mantenham os mais altos padrões de reprodutibilidade.”
O trabalho anterior da LAION não foi imaculado do ponto de vista ético, e atualmente está conduzindo um projeto separado um tanto controverso sobre detecção de emoções. Mas talvez o BUD-E seja diferente; teremos que esperar para ver.
。