Futuros
Centenas de contratos liquidados em USDT ou BTC
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Início em Futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Launchpad
Chegue cedo para o próximo grande projeto de token
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Por que os seus resultados de testes A/B podem estar escondendo a verdade devido ao "Efeito Bola de Neve"
No mundo da análise de dados, muitas vezes somos atraídos por modelos complexos de aprendizagem de máquina e arquiteturas de deep learning, mas esquecemos uma ferramenta discreta porém poderosa: a regressão linear. Hoje, vamos partir de um cenário real para ver como ela pode mudar nossa compreensão dos resultados de testes A/B.
Cenário: Teste de banner em plataforma de e-commerce
Imagine que uma loja online lançou um novo design de banner na página, com o objetivo de avaliar seu impacto na duração média da sessão dos usuários. Eles realizaram um experimento e coletaram dados. Agora, a questão é: usar o teste t ou a regressão linear para analisar esses resultados?
Resposta do teste t
Com a ferramenta tradicional de teste t, obtemos números que parecem bastante promissores:
A estimativa do efeito incremental é de 0,56 minutos (ou seja, os usuários gastam em média 33 segundos a mais). Essa diferença é entre as médias das amostras do grupo de controle e do grupo de tratamento. Parece bem claro.
Descoberta interessante: a regressão linear diz a mesma coisa
Mas e se usarmos a regressão linear para fazer a mesma análise, considerando se o banner foi exibido como variável independente e a duração média da sessão como variável dependente, o que acontece?
O resultado é surpreendente: o coeficiente da variável de tratamento é exatamente 0,56— totalmento consistente com o teste t.
Isso não é coincidência. Os dois métodos partem da mesma hipótese nula, portanto, ao calcular o estatístico t e o p-valor, obtemos resultados idênticos.
Porém, há um ponto importante a notar: o R² é apenas 0,008, o que significa que nosso modelo explica menos de 1% da variância. Ainda há muita coisa que não capturamos.
O poder oculto: viés de seleção e covariáveis
Aqui está o ponto crucial: apenas explicar o comportamento do usuário com a variável de tratamento pode ser simplista demais.
Em testes A/B reais, pode haver viés de seleção—ou seja, diferenças sistemáticas entre os grupos que não são causadas pelo experimento aleatório. Por exemplo:
Embora a alocação aleatória ajude a mitigar esse problema, é difícil eliminá-lo completamente.
Modelo ajustado: inclusão de covariáveis
E se adicionarmos uma covariável—por exemplo, a duração média da sessão antes do experimento—como isso afetaria?
O desempenho do modelo melhora drasticamente. O R² sobe para 0,86, agora explicando 86% da variância. O efeito do tratamento passa a ser de 0,47 minutos.
Essa diferença é significativa. Nos dados simulados, o efeito real do tratamento é de 0,5 minutos. Assim, o modelo com covariáveis (0,47) está mais próximo da verdade do que o modelo simples (0,56).
Esse fenômeno às vezes é chamado de efeito “snowballing”—variáveis ocultas iniciais podem amplificar ou atenuar a estimativa, desviando o resultado inicial da realidade.
Por que escolher a regressão linear
Então, entre 0,47 e 0,56, qual é a resposta correta?
Quando conhecemos o efeito verdadeiro, um modelo de regressão linear com covariáveis adequadas geralmente fornece uma estimativa mais precisa. Isso porque:
Reflexões adicionais
Esse princípio não se aplica apenas ao teste t. Você também pode estender o uso da regressão linear para o teste de Welch, teste do qui-quadrado e outros métodos estatísticos—embora cada um exija ajustes técnicos específicos.
A lição principal é: não se deixe enganar por resultados aparentemente simples. Aprofunde-se nos dados, identifique variáveis que podem estar escondidas na “bola de neve”, e assim encontrará uma verdade mais precisa.