As pesquisas têm sido utilizadas para obter insights sobre populações, produtos e opinião pública desde tempos imemoriais. E embora as metodologias possam ter mudado ao longo dos milênios, uma coisa permanece constante: a necessidade de pessoas, muitas pessoas.
\n\nMas e se você não conseguir encontrar pessoas suficientes para construir um grupo de amostra grande o suficiente para gerar resultados significativos? Ou, e se você potencialmente conseguir encontrar pessoas suficientes, mas as limitações orçamentárias limitarem a quantidade de pessoas que você pode recrutar e entrevistar?
\n\nAqui é onde a Fairgen quer ajudar. A startup israelense lançou hoje uma plataforma que utiliza "IA estatística" para gerar dados sintéticos que ela diz serem tão bons quanto o real. A empresa também está anunciando uma nova captação de fundos de $5,5 milhões de dólares da Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia e de alguns investidores-anjo, elevando o total levantado desde a sua criação para $8 milhões de dólares.
\n\n\"Dados falsos\"
\n\nOs dados podem ser o motor da IA, mas também têm sido a base da pesquisa de mercado desde sempre. Então, quando os dois mundos se encontram, como acontece no mundo da Fairgen, a necessidade de dados de qualidade se torna um pouco mais pronunciada.
\n\nFundada em Tel Aviv, Israel, em 2021, a Fairgen anteriormente estava focada em enfrentar o viés na IA. Mas no final de 2022, a empresa fez uma mudança para um novo produto, o Fairboost, que agora está sendo lançado depois de sair da versão beta.
\n\nO Fairboost promete "impulsionar" um conjunto de dados menor em até três vezes, permitindo insights mais granulares em nichos que podem ser muito difíceis ou caros de alcançar. Usando isso, as empresas podem treinar um modelo de aprendizado profundo para cada conjunto de dados que carregam na plataforma Fairgen, com a IA estatística aprendendo padrões em diferentes segmentos de pesquisa.
\n\nO conceito de "dados sintéticos" - dados criados artificialmente em vez de eventos do mundo real - não é novo. Suas origens remontam aos primeiros dias da computação, quando era usado para testar software e algoritmos, e simular processos. Mas os dados sintéticos, como os entendemos hoje, assumiram vida própria, principalmente com o advento da aprendizagem de máquina, onde é cada vez mais usado para treinar modelos. Podemos abordar tanto questões de escassez de dados quanto preocupações com privacidade de dados ao usar dados artificialmente gerados que não contêm informações sensíveis.
\n\nA Fairgen é a mais recente startup a testar dados sintéticos e tem a pesquisa de mercado como seu principal alvo. Vale ressaltar que a Fairgen não produz dados do nada, ou joga milhões de pesquisas históricas em um caldeirão movido a IA - os pesquisadores de mercado precisam conduzir uma pesquisa para uma pequena amostra de seu mercado-alvo, e a partir disso, a Fairgen estabelece padrões para expandir a amostra. A empresa diz que pode garantir pelo menos um aumento de dois vezes na amostra original, mas em média, pode alcançar um aumento de três vezes.
\n\nDessa forma, a Fairgen pode estabelecer que alguém de uma faixa etária e/ou nível de renda específico está mais inclinado a responder a uma pergunta de determinada maneira. Ou, combinar qualquer número de pontos de dados para extrapolar do conjunto de dados original. Basicamente, trata-se de gerar o que o co-fundador e CEO da Fairgen, Samuel Cohen, diz serem "segmentos de dados mais fortes e mais robustos, com uma margem de erro menor".
\n\nA "realização principal foi que as pessoas estão se tornando cada vez mais diversas - as marcas precisam se adaptar a isso, e elas precisam entender seus segmentos de clientes", explicou Cohen ao TechCrunch. "Os segmentos são muito diferentes - as gerações Z pensam de forma diferente das pessoas mais velhas. E, para ser capaz de ter essa compreensão de mercado ao nível dos segmentos, custa muito dinheiro, leva muito tempo e recursos operacionais. E foi aí que percebemos que era o ponto doloroso. Sabíamos que os dados sintéticos tinham um papel a desempenhar aí".
\n\nUma crítica óbvia - com a qual a empresa admite que teve que lidar - é que tudo isso parece um atalho massivo para ter que sair a campo, entrevistar pessoas reais e coletar opiniões reais.
\n\nCom certeza qualquer grupo sub-representado deveria estar preocupado que suas vozes reais estejam sendo substituídas por, bem, vozes falsas?
\n\n"Cada cliente com quem conversamos no espaço de pesquisa tem enormes pontos cegos - audiências totalmente difíceis de alcançar", disse Fernando Zatz, chefe de crescimento da Fairgen, ao TechCrunch. "Na verdade, eles não vendem projetos porque não há pessoas suficientes disponíveis, especialmente em um mundo cada vez mais diversificado onde temos muita segmentação de mercado. Às vezes eles não conseguem ir para países específicos; não conseguem ir para demografias específicas, então na verdade eles perdem projetos porque não conseguem alcançar suas cotas. Eles têm um número mínimo [de respondentes], e se não atingirem esse número, eles não vendem as percepções".\n\nA Fairgen não é a única empresa aplicando IA generativa ao campo da pesquisa de mercado. A Qualtrics anunciou no ano passado que estava investindo $500 milhões de dólares ao longo de quatro anos para trazer IA generativa para sua plataforma, embora com um foco substancial em pesquisa qualitativa. No entanto, é mais uma evidência de que os dados sintéticos estão aqui, e estão para ficar.\n\nMas a validação dos resultados desempenhará um papel importante para convencer as pessoas de que isso é real e não apenas uma medida de corte de custos que produzirá resultados subóptimos. A Fairgen faz isso comparando um aumento de amostra "real" com um aumento de amostra "sintético" - ela pega uma pequena amostra do conjunto de dados, extrapola e coloca lado a lado com o real.\n\n“Com cada cliente que assinamos, fazemos este mesmo tipo de teste,” disse Cohen.\n\nFalando estatisticamente
\n\nCohen possui um mestrado em ciência estatística pela Universidade de Oxford e um PhD em aprendizado de máquina pela UCL de Londres, parte do qual envolveu um período de nove meses como cientista pesquisador na Meta.
\n\nUm dos cofundadores da empresa é o presidente Benny Schnaider, que já esteve no espaço de software empresarial, com quatro saídas para seu nome: Ravello para a Oracle por cerca de $500 milhões de dólares em 2016; Qumranet para a Red Hat por $107 milhões de dólares em 2008; P-Cube para a Cisco por $200 milhões de dólares em 2004; e Pentacom para a Cisco por $118 milhões de dólares em 2000.\n\nE então há Emmanuel Candès, professor de estatística e engenharia elétrica na Universidade de Stanford, que atua como principal consultor científico da Fairgen.\n\nEste suporte empresarial e matemático é um grande ponto de venda para uma empresa que tenta convencer o mundo de que dados falsos podem ser tão bons quanto dados reais, se aplicados corretamente. É assim também que eles conseguem explicar claramente os limiares e limitações de sua tecnologia - quão grandes as amostras precisam ser para alcançar os aumentos ótimos.\n\nDe acordo com Cohen, eles precisam idealmente de pelo menos 300 respondentes reais para uma pesquisa, e a partir disso, o Fairboost pode aumentar um segmento constituindo no máximo 15% da pesquisa mais ampla.\n\n“Abaixo de 15%, podemos garantir um aumento médio de 3 vezes após validar com centenas de testes paralelos,” disse Cohen. "Estatisticamente, os ganhos são menos dramáticos acima de 15%. Os dados já apresentam bons níveis de confiança, e nossos respondentes sintéticos só podem potencialmente iguais-los ou trazer um aumento marginal. Do ponto de vista empresarial, também não há ponto crítico acima de 15% - as marcas já podem aprender com esses grupos; eles só estão presos em um nível de nicho”.\n\nO fator no-LLM
\n\nVale ressaltar que a Fairgen não utiliza grandes modelos de linguagem (LLMs), e sua plataforma não gera respostas em "plain English" à la ChatGPT. O motivo para isso é que um LLM usaria aprendizados de uma infinidade de outras fontes de dados fora dos parâmetros do estudo, o que aumenta as chances de introduzir viés incompatível com a pesquisa quantitativa.
\n\nA Fairgen é toda sobre modelos estatísticos e dados tabulares, e seu treinamento se baseia unicamente nos dados contidos no conjunto de dados carregado. Isso permite que pesquisadores de mercado gerem novos respondentes sintéticos extrapolando de segmentos adjacentes na pesquisa.\n\n“Não usamos LLMs por um motivo muito simples, que é se treinássemos previamente em muitas [outras] pesquisas, isso apenas transmitiria informações erradas," disse Cohen. "Porque você teria casos em que aprendeu algo em outra pesquisa, e não queremos isso. É tudo sobre confiabilidade.”\n\nEm termos de modelo de negócios, a Fairgen é vendida como um SaaS, com empresas carregando suas pesquisas em qualquer formato estruturado (.CSV, ou .SAV) para a plataforma baseada em nuvem da Fairgen. De acordo com Cohen, leva até 20 minutos para treinar o modelo nos dados da pesquisa fornecida, dependendo do número de questões. O usuário então seleciona um "segmento" (um subconjunto de respondentes que compartilham certas características) - por exemplo, "Geração Z trabalhando na indústria x" - e então a Fairgen entrega um novo arquivo estruturado da mesma forma que o arquivo de treinamento original, com as mesmas perguntas, apenas novas linhas.\n\nA Fairgen está sendo utilizada pela BVA e pela empresa francesa de pesquisas de mercado e de opinião IFOP, que já integraram a tecnologia da startup em seus serviços. A IFOP, que é um pouco semelhante à Gallup nos Estados Unidos, está usando a Fairgen para fins de pesquisa nas eleições europeias, embora Cohen ache que ela possa acabar sendo usada nas eleições dos EUA ainda este ano também.\n\n“A IFOP é basicamente nosso selo de aprovação, porque eles existem há cerca de 100 anos,” disse Cohen. "Eles validaram a tecnologia e foram nosso parceiro de design original. Estamos testando ou já integrando com algumas das maiores empresas de pesquisa de mercado do mundo, sobre as quais ainda não posso falar.”