Comparando dois grupos:
Essa diferença é devido ao tratamento ou ao erro experimental?


Experimentação científica é uma poderosa ferramenta de simplificação da natureza, usada na tentativa de facilitar a nossa compreensão de fenômenos complexos, que são influenciados por múltiplas causas ao mesmo tempo. O controle experimental é uma tentativa de reduzir ao máximo as fontes de variação do fenômeno, pois elas confundem a nossa percepção de causa-efeito (ex. dar a mesma comida para cobaias). Já o tratamento experimental é a manipulação artificial de um fator que está sendo avaliado como uma potencial influência no fenômeno em estudo (ex. aplicar diferentes dosagens de hormônio nas cobaias). Entretanto, por mais cuidadosa que seja a pesquisadora, o controle experimental nunca será perfeito, e sempre haverá erro experimental confundindo os padrões gerados pelo tratamento, e, portanto, causando incerteza nas conclusões do estudo. Será que a diferença no peso das cobaias é causada pelo hormônio ou por fontes desconhecidas (não-controladas) de variação (ex. genética)? É pelo uso de réplicas que podemos estimar do tamanho do erro experimental, ao comparar a variabilidade entre unidades experimentais (ex. cobaias) que foram sujeitas às mesmas condições experimentais (ex. mesma comida e mesma dosagem de hormônio). Essa variabilidade indesejada é o próprio erro experimental, pois gera incerteza nas conclusões sobre o real efeito do tratamento experimental. Então, como é que poderíamos levar em consideração o tamanho do erro experimental na hora de tirar conclusões sobre o efeito do tratamento? Nessa aula vamos aprender a lidar com a incerteza no mais simples delineamento experimental possível, que possui apenas dois grupos (ex. tratamento e controle).


O Efeito e o Erro Experimental na Comparação entre Grupos

Cada grupo do experimento (ex. cobaias que receberam injeção de hormônio), que é mantido sob condições controladas, apresenta uma variável de interesse (ex. peso das cobaias). A média do grupo é a tendência natural de resposta das unidades experimentais (ex. cobaias) às condições experimentais (ex. injeção ou não de hormônio). Em um experimento simples, com apenas dois grupos (ex. com ou sem injeção de hormônio), o tamanho do efeito do tratamento pode ser verificado através da diferença observada entre as médias dos dois grupos (ex. diferença entre a média de peso cobaias que receberam hormônio e a média daquelas que não receberam). Entretanto, como sempre há erro amostral, precisamos observar a variabilidade entre as réplicas de um mesmo grupo (ex. diferenças apenas entre as cobaias que receberam hormônio), na tentativa de medir a influência das fontes não-controladas de variação. Portanto, usaremos como medida do efeito do tratamento a diferença entre as médias das unidades experimentais (ex. peso médio das cobaias) de cada grupo. Mas será que essas médias seriam as mesmas se repetíssemos o experimento? Claro que não, pois não há controle experimental absolutamente perfeito. Como nossas conclusões serão baseadas na diferença entre as médias de cada grupo, o erro experimental é a expectativa de variabilidade dessas diferenças entre médias caso o experimento fosse repetido. Felizmente, como temos réplicas dentro de cada grupo (ex. cobaias sob as mesmas condições), podemos utilizar a variabilidade entre as réplicas dentro dos grupos (ex. desvio padrão do peso das cobaias que receberam o mesmo hormônio) para estimar a variabilidade esperada entre a diferença das médias dos grupos (erro padrão da diferença entre médias), caso o experimento fosse repetido. Como você deve lembrar da aula sobre erro amostral, a variabilidade esperada da média ao longo de estudos repetidos é conhecida como erro padrão da média, e depende da variabilidade entre as unidades amostrais (variabilidade natural) e o tamanho amostral (quantidade de informação). Da mesma forma, o erro padrão da diferença entre médias leva em consideração a variabilidade dentro dos grupos (erro experimental) e a quantidade de réplicas dentro dos grupos (esforço/tamanho experimental). Éh... parece que o Erro Padrão da Média vai nos servir novamente como uma medida de incerteza... sorte que já sabemos tudo sobre ele! Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo.


"Reciclando" o Intervalo de Confiança para Uso em Experimentação Científica

Em estudos observacionais (amostras passivas) de uma única variável, o Intervalo de Confiança informa a frequência/probabilidade que futuros Intervalos de Confiança, caso a amostragem fosse repetida, abarcaria o parâmetro. Como poderíamos utilizar essa mesma técnica na comparação entre dois grupos experimentais? Como estamos comparando dois grupos experimentais, o interesse está no estudo da diferença entre as médias dos grupos, que é a medida do efeito do tratamento experimental. Entretanto, a diferença entre as médias dos grupos deve variar se o estudo fosse repetido, pois o controle experimental nunca é perfeito, já que sempre existirá erro experimental. O erro padrão da diferença entre as médias pode ser estimado com base no desvio padrão (ex. variabilidade entre cobaias que receberam hormônio) e número de réplicas (ex. número de cobaias que receberam hormônio) de cada grupo experimental. Assim, de posse da diferença observada entre as médias dos grupos (ex. diferença entre a média das cobaias que receberam e que não receberam hormônio), e do erro padrão da diferença entre as médias (ex. expectativa de variabilidade da diferença entre as médias, se o estudo fosse repetido), podemos calcular um Intervalo de Confiança para o tamanho do efeito do tratamento. Clique aqui para baixar o programa que construí para ilustrar o Erro Padrão da Diferença entre as Médias de diferentes populações. Se o tratamento (ex. injeção de hormônio) não exerce nenhum efeito (ex. cobaias não engordam com hormônio), então a diferença entre as médias dos grupos tende a ser sempre próxima de zero. De fato, podemos dizer que o parâmetro (tamanho de efeito) é zero, já que qualquer diferença observada será apenas consequência do erro amostral. Assim, o Nível de Confiança (alfa) escolhido pela pesquisadora indicará a probabilidade/frequência com que Intervalos de Confianças calculados em futuros experimentos abarcaria a diferença zero entre os grupos (parâmetro). Ao contrário, se o tratamento (ex. hormônio) promove de fato um efeito (ex. ganho de peso), então o parâmetro será maior do que zero, já que o tratamento promove essa diferença entre a média dos grupos (ex. aumento de peso de 100g em cada cobaia). Então, podemos afirmar que, dado um Nível de Confiança escolhido pela pesquisadora, futuros Intervalos de Confiança raramente abarcarão o valor zero, pois estes Intervalo de Confiança tenderiam a estar concentrados ao redor de uma diferença positiva entre os grupos promovida pelo tratamento (ex. ganho de peso de 100g). Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo. Clique aqui para baixar o programa que construí para ilustrar o Intervalo de Confiança da Diferença entre as Médias.


Delineamento Pareado

No exemplo que usamos até agora o efeito é medido como a diferença entre as médias dos dois grupos, compostos por cobaias que foram tratadas com hormônio e as cobaias não foram tratadas com hormônio. Entretanto, esse não é o único desenho experimental possível com apenas dois grupos. Em algumas situações é possível medir o efeito experimental através do tamanho das mudanças ocorridas em cada uma das unidades experimentais antes e depois do tratamento. Por exemplo, poderíamos estudar experimentalmente o efeito de um antibiótico comparando o hemograma das cobaias um dia antes com uma semana depois de administrarmos o antibiótico. Esses estudos experimentais são conhecidos como pareados, pois cada unidade experimental é medida duas vezes, permitindo uma comparação direta entre o estado da unidade experimental antes e depois do tratamento (ex. antibiótico). Nesses casos o efeito do tratamento experimental pode ser medido diretamente através da diferença promovida pelo tratamento em cada unidade experimental, enquanto o erro experimental pode ser estimado através da variabilidade na resposta ao tratamento entre as unidades experimentais. Assim, enquanto no delineamento de grupos independentes nós calculamos a diferença entre as médias de dois grupos (ex. tratamento e não-tratamento), no delineamento pareado nós calculamos a média das diferenças, antes e depois do tratamento. Da mesma maneira que no delineamento experimental não-pareado (grupos independentes), se o Intervalo de Confiança abarcar o valor zero nós concluiremos que as diferenças observadas antes e depois do tratamento podem ocorrer por consequência de erro experimental (ex. diferenças entre as cobaias não são consequência do antibiótico). Ao contrário, se o Intervalo de Confiança não abarca o valor zero, concluiremos que há indicações que o tratamento exerceu efeito sobre as unidades experimentais (ex. o antibiótico afetou as cobaias, alterando o hemograma delas). Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo.


A Razão Efeito / Erro da Média

Calcular um Intervalo de Confiança para cada um dos grupos do experimento é certamente uma boa ideia, pois permite verificar até que ponto o erro experimental está confundindo a percepção do efeito do tratamento experimental. Mesmo assim, existe uma maneira ainda mais direta de avaliar o efeito do tratamento experimental enquanto controlamos estatisticamente as fontes de incerteza que confundem as nossas conclusões. Como o tamanho do efeito do tratamento (ex. diferença entre a média de peso das cobaias que receberam e as que não-receberam hormônio) está na mesma unidade de medida de erro experimental (erro padrão da diferença entre as médias, ex. variabilidade esperada da diferença entre as médias de peso de cobaias em diferentes grupos, se o experimento fosse repetido várias vezes), podemos usar a razão efeito / erro como uma medida universal para indicar o tamanho do efeito do tratamento experimental, descontando a incerteza medida pelo erro experimental. Como essa razão efeito / erro pode ser modelada pela Distribuição t de Student, essa razão também leva o nome de t. Assim, existem três possibilidades do valor de t ser pequeno: (1) baixo efeito e baixo erro, (2) baixo efeito e alto erro, e (3) alto efeito e alto erro. Porém, existe apenas uma maneira de t ser grande: alto efeito e baixo erro. Assim, quanto maior for o valor t, maior será a confiabilidade que o tratamento experimental (ex. aplicação do hormônio) de fato exerce influência real sobre o fenômeno, descontando o efeito de incerteza do experimento (ex. hormônio promove o aumento do tamanho de peso das cobaias, apesar das fontes de variação não controladas). Como o valor t (razão efeito / erro) é uma proporção e não possui unidade, simplesmente mede quantas vezes o efeito é maior do que o erro, esse é um número universal, e possui a mesma interpretação independentemente do fenômeno que está sendo estudado. Por exemplo, enquanto uma pesquisadora pode estimar/calcular um valor t em um experimento que estuda o efeito de hormônio em cobaias criadas em laboratório (levando em consideração o erro experimental sobre as cobaias), um outro pesquisador pode estimar/calcular um valor t em um experimento que avalia diferentes técnicas didáticas/pedagógicas no ensino de estatística (levando em consideração o erro experimental sobre os alunos de estatística); incrivelmente, o valor t é comparável entre estes dois estudos, por mais que digam respeito a fenômenos tão diferentes Por fim, quanto maior for o valor t maior será a garantia que encontraríamos um efeito de tratamento tão grande quanto o que foi observado no experimento, caso o experimento seja repetido. Clique aqui para baixar o programa que construí para ilustrar a Razão Efeito / Erro.