Teste da Hipótese Nula:
Seria absurdo supor que o tratamento é eficaz?


Na aula anterior nós lidamos com a incerteza sobre a eficácia do tratamento experimental (ex. ganho de peso pela aplicação de hormônio nas cobaias) utilizando o Intervalo de Confiança. Esse intervalo é utilizado para indicar uma faixa de variação esperada para o tamanho de efeito observado no experimento (ex. diferença da média de peso entre os grupos controle e tratado), com uma certa probabilidade/frequência (Nível de Confiança), caso o experimento seja repetido. Assim, a decisão sobre a eficácia do tratamento depende se o Intervalo de Confiança inclui, ou não, o valor zero, que é o valor de diferença esperado caso o tratamento não exerça nenhuma influência (ex. a aplicação de hormônio nas cobaias não promove nenhum ganho de peso). Na aula de hoje vamos reverter a pergunta, estimando a probabilidade/frequência de voltarmos a observar a razão efeito / erro que foi registrado no experimento apenas por consequência do erro experimental (ex. fontes de variação não controladas), mesmo quando, de fato, o hormônio não tenha exercido nenhum efeito real sobre o metabolismo das cobaias. Assim, se essa probabilidade for baixa, concluiremos que o tratamento (ex. hormônio) deve ter contribuído para a diferença das cobaias tratadas, pois razão efeito / erro estimada no experimento seria grande demais para ter sido consequência apenas de erro experimental.


A Razão Efeito / Erro e a Distribuição t de Student

Em um experimento controlado simples, o tamanho do efeito do tratamento pode ser estimado através da diferença observada entre as médias das réplicas que receberam o tratamento, e as que não receberam. Por outro lado, a variabilidade entre as réplicas dentro de cada grupo (ex. desvio padrão do peso das cobaias que receberam o mesmo hormônio) é indicativo do erro experimental, e pode ser utilizada para estimar a variabilidade esperada entre a diferença das médias dos grupos (erro padrão da diferença entre médias) quando o experimento for repetido. Como o tamanho do efeito está na mesma unidade de medida que o erro experimental (ex. peso, medido em gramas), podemos usar a razão efeito / erro como uma medida sintética e universal do tamanho do efeito do tratamento experimental, descontando a incerteza causada pelo erro experimental. Assim, se a razão efeito / erro for um valor grande, o tamanho do efeito experimental será proporcionalmente maior do que o tamanho do erro experimental, indicando que o tratamento experimental parece exercer influência real sobre o fenômeno, apesar da incerteza causada pelo erro experimental. Nesse vídeo eu mostro que a variabilidade da razão efeito / erro pode ser modelada pela distribuição de probabilidade/frequência t de Student se o experimento for repetido várias vezes. Por isso, em experimentos de comparação entre apenas dois grupos, chamaremos a razão efeito / erro pelo seu apelido carinhoso t. Clique aqui para baixar o programa que construí para ilustrar o significado da razão efeito / erro, e clique aqui para baixar o programa que construí para ilustrar a distribuição de probabilidade/frequência dessa razão efeito / erro.


A Hipótese Nula:
“Assumindo que o Tratamento NÃO é Eficaz...”

A eterna presença de erro experimental nunca nos permitirá ter certeza sobre o real efeito do tratamento (ex. injeção de hormônio nas cobaias promove ganho de peso?). Na verdade, existe uma infinita gradação de intensidade que o tratamento pode exercer, variando de pouco (ex. hormônio promove pouco ganho de peso) até muito (ex. hormônio promove grande ganho de peso). Ao contrário, em um cenário imaginário em que o tratamento não exerce qualquer influência, a expectativa do tamanho de efeito é precisamente zero (ex. nenhum ganho de peso). Assim, enquanto existe uma única expectativa para a ausência de efeito do tratamento, existem infinitas possibilidades para o tamanho de efeito caso o tratamento seja eficiente. Portanto, é mais fácil comparar o resultado observado do experimento (ex. cobaias ganharam em média 50 gramas) com um cenário hipotético simples de ausência de efeito do tratamento (ex. a diferença de peso entre os grupos deveria ser 0g), pois são infinitas as possibilidades de cenários hipotéticos em que tratamento é eficaz (ex. se o hormônio exerce efeito, as cobaias poderiam ter ganhado 10g, ou 20g ou, 30g ou, 40g ou, 50g ou, ..., ???). Além disso, esse cenário de ausência de efeito é mais conservativo e parcimonioso, pois não demanda nenhuma explicação adicional sobre o efeito do tratamento no fenômeno que está sendo estudado. Por exemplo, não precisaremos de uma explicação biológica se o hormônio testado não promover nenhum ganho de peso nas cobaias. Ao contrário, caso o hormônio promova ganho de peso, será necessário explicar qual alteração fisiológica / metabólica ele causou para que o ganho de peso acontecesse. Chamaremos de Hipótese Nula esse cenário TEÓRICO de ausência de efeito do tratamento , e usaremos ele como referência para comparação com o resultado observado no experimento. Então, se a Hipótese Nula FOSSE verdadeira (não sabemos se é!), deveríamos esperar que o efeito observado no experimento fosse zero (ex. nenhuma diferença entre os grupos). Por consequência, também esperaríamos que a razão efeito / erro fosse igual a zero (t = 0). Ao contrário, se a Hipótese Nula fosse falsa (ex. o hormônio realmente causa ganho de peso nas cobaias), deveríamos esperar que o experimento seja capaz de detectar algum efeito (ex. diferença de peso entre grupos), o que faria com que a razão efeito / erro tendesse a ser diferente de zero (t ≠ 0). Portanto, quanto maior for a razão efeito / erro (t >> 0), maior será a evidência que a Hipótese Nula é falsa. Repare que não sabemos se a Hipótese Nula é, ou não falsa! A avaliação sempre será do resultado do experimento (diferença entre os grupos), e não da veracidade da Hipótese Nula. Entretanto, mesmo que a Hipótese Nula fosse realmente verdadeira (ex. injeção de solução neutra tanto no grupo controle quanto no grupo tratado) a razão efeito / erro nunca vai ser exatamente igual à expectativa (t = 0), já que o erro experimental nunca será plenamente eliminado, e sempre influenciará o resultado do experimento. Porém, sempre que a Hipótese Nula for verdadeira, e o experimento estiver livre de vieses, podemos esperar que a razão efeito / erro seja sempre próxima de zero (t ≈ 0). Na verdade, se repetirmos várias vezes o experimento garantindo que a Hipótese Nula é verdadeira (ex. não aplicando hormônio nas cobaias do grupo “tratado”), poderíamos calcular o valor da razão efeito / erro para cada repetição do experimento, e construir uma distribuição de probabilidade/frequência para a expectativa da variação da razão efeito / erro (t ) quando a hipótese nula é verdadeira. Nesse caso, todas as vezes que a razão efeito / erro for diferente de zero poderíamos afirmar que foi apenas consequência do erro experimental, já que o tratamento não foi administrado, e não deveria haver diferenças entre os grupos. Chamaremos essa distribuição de probabilidade/frequência que assume que a Hipótese Nula é verdadeira como Distribuição Nula de Referência. Portanto, como a Hipótese Nula assume que não há efeito de tratamento, pois não há tratamento, esperamos que a média dos valores de razão / erro seja zero (t médio ≈ 0). Além disso, como a medida de erro experimental é o próprio denominador da razão efeito / erro, o tamanho do erro experimental já está sendo levado em consideração na construção da distribuição nula de referência. Assim, como todo número dividido por ele mesmo é igual a 1, a Distribuição Nula de Referência deverá possuir desvio padrão próximo de 1. O desvio padrão da Distribuição Nula mede a variabilidade esperada da razão efeito / erro quando a Hipótese Nula é verdadeira e o experimento é repetido. Como sempre, a variabilidade de uma estimativa na repetição do experimento é uma medida de erro. Portanto, podemos dizer que a Distribuição Nula sempre terá média = 0 e erro padrão = 1. Usei esse programa para ajustar a Hipótese Nula como verdadeira (mesma média entre as duas distribuições e gerar uma Distribuição Nula de Referência para a razão efeito / erro.


P-Valor
Se o Tratamento NÃO Fosse Eficaz eu Veria esse Resultado do meu Experimento?
Teste t de Student

O cenário da Hipótese Nula (ex. hormônio não exerce influência no peso das cobaias) permite formular a expectativa (Distribuição Nula) sobre o valor da razão efeito / erro (t médio = 0, erro padrão = 1), já que esse cenário simples assume justamente a ausência de efeito (ex. nenhuma diferença entre os grupos controle e tratado promovida pelo hormônio). Entretanto, ainda não aprendemos nada com o resultado do experimento que foi executado, pois a Hipótese Nula é apenas um CENÁRIO, e a Distribuição Nula diz apenas sobre a expectativa de um experimento TEÓRICO no qual a Hipótese Nula SERIA verdadeira, não sobre o experimento que foi de fato executado. A partir da medida de efeito e de erro estimada no experimento real também podemos calcular uma razão efeito / erro. Chamaremos essa razão de t calculado, pois esse t não é um cenário, mas o real resultado do experimento. Então, com o t calculado (resultado do experimento), e a Distribuição Nula de referência, podemos perguntar se o resultado do meu experimento é compatível com o esperado pelo cenário da Hipótese Nula. Em outras palavras, quão grande precisará ser a razão efeito / erro resultante do experimento (t calculado) para que eu possa concluir que há evidências suficientes que a Hipótese Nula é falsa? Ao comparar o resultado do experimento (t calculado) com o cenário da Hipótese Nula (Distribuição Nula) podemos estimar a probabilidade/frequência de observarmos um valor de razão efeito / erro (t ) tão grande, ou ainda maior, do que aquele que calculamos para o nosso experimento, se a Hipótese Nula fosse verdadeira e o experimento fosse repetido. Como você já deve ter percebido, essa probabilidade/frequência pode ser estimada como a área das caudas da Distribuição Nula de referência a partir do valor da razão efeito / erro (t ) calculada como resultado do experimento. Essa probabilidade/frequência é conhecida como P-Valor, e é extremamente utilizada para avaliar se a razão efeito / erro (t ) estimada resultante do experimento é compatível com o cenário da Hipótese Nula (t ≈ 0 e P-Valor ≈ 1). Portanto, se o P-Valor for grande (P ≈ 1, pois t ≈ 0), podemos concluir que a razão efeito / erro (t ) é provável/frequente de acontecer se o experimento for repetido e a Hipótese Nula for verdadeira, seja porque o experimento detectou um efeito baixo (ex. pouca diferença de peso entre grupos), ou porque o erro experimental é grande (ex. muita diferença dentro de grupos). Ao contrário, se o P-Valor for pequeno (P ≈ 0, pois t >> 0), podemos concluir que é improvável que uma razão efeito / erro (t ) tão grande tenha sido causada apenas pelo erro experimental, seja porque o efeito é grande (ex. peso médio das cobaias que receberam hormônio é muito maior do que o das cobaias que não receberam hormônio), ou porque o erro experimental é pequeno (ex. pouca diferença entre as cobaias de um mesmo grupo). Assim, quando o P-Valor for pequeno (P ≈ 0), concluiremos que seria improvável/raro de observarmos o valor da razão efeito / erro (t ) tão grande quanto o que observamos no experimento se a Hipótese Nula fosse verdadeira e repetíssemos o experimento. Em resumo, o P-Valor mede o grau de compatibilidade entre o resultado observado do experimento e o cenário teórico da Hipótese Nula. Essa medida é feita em valor de probabilidade/frequência, caso o experimento fosse repetido e a Hipótese Nula fosse verdadeira. Usei esse programa aqui para mostrar a área sob a cauda da distribuição normal, e esse programa aqui para demonstrar graficamente o P-Valor como uma comparação entre o t calculado e a Distribuição Nula de referência. Aqui está o conjunto de dados que usei na demonstração.


Erros do Tipo I e do Tipo II:
Se Correr, o Bicho Pega; Se Ficar, o Bicho Come

O P-Valor é a medida da probabilidade/frequência de observarmos a razão efeito / erro (t ) tão grande, ou ainda maior, caso a Hipótese Nula fosse verdadeira, e repetíssemos o experimento. Porém, ainda assim, o P-Valor não indica se a Hipótese Nula é verdadeira, apenas assume que é verdadeira. Portanto, continuaremos sem saber se tratamento é eficaz, ou não (ex. se o hormônio promoveu ganho de peso nas cobaias, ou não). Apesar de valores de P muito baixos (P ≈ 0) sugerirem que há evidências suficientes que a Hipótese Nula é falsa (t >> 0, pois o tratamento é eficaz, ex. hormônio promove ganho de peso), e que valores de P muito altos (P >> 0) indicarem que não há evidência de que a Hipótese Nula é falsa (t ≈ 0, pois tratamento não é eficaz), continuaremos precisando de um critério para concluir se o tratamento é eficaz ou não (ex. hormônio exerce ou não efeito no ganho de peso das cobaias). O critério para decidir sobre a eficácia do tratamento é conhecido como Nível Crítico de Significância (α), e é estabelecido arbitrariamente pelo pesquisador como um valor probabilidade (ex.: 0,001; 0,01; 0,05) a ser comparado com o P-Valor. Assim, se o P-Valor é menor do que o Nível de Significância estabelecido pela pesquisadora (ex. P = 0,03 e α = 0,05), a pesquisadora deve concluir que há evidências suficientes que o efeito observado não é consequência de erro experimental (ex. diferença entre grupos é grande demais para não ter sido causada pelo hormônio), pois dificilmente uma razão efeito / erro (t ) tão grande, ou maior do que a observada no experimento aconteceria se a Hipótese Nula fosse verdadeira, e o experimento fosse repetido. Portanto, a conclusão deverá ser que o tratamento exerce efeito (ex. o hormônio promoveu o ganho de peso). Ao contrário, se o P-Valor é maior do que o Nível de Significância estabelecido pela pesquisadora (ex. P = 0,12 e α = 0,05), a pesquisadora deve concluir que não há evidências suficientes que o efeito observado não possa ter sido consequência do erro experimental (ex. diferença entre grupos pode não ter sido causada pelo hormônio, mas por fontes não-controladas de variação), já que o valor da razão efeito / erro (t ) do experimento é pequena, e por causa do erro amostral poderia acontecer mesmo quando a Hipótese Nula é verdadeira, e o experimento for repetido. Assim, a conclusão deverá ser que o tratamento não exerce efeito (ex. não foi o hormônio que promoveu a diferença de peso). Porém, mesmo quando a Hipótese Nula é verdadeira, apesar de improvável, é possível que a razão efeito / erro seja grande (t >> 0; P ≈ 0), pois, mesmo que raramente, o erro experimental poderia promover uma diferença entre os grupos (ex. as cobaias do grupo tratado já tinham tendência para ganho de peso). Portanto, o Nível Crítico de Significância (α) mede a probabilidade / frequência que a pesquisadora irá concluir erroneamente que o tratamento é eficaz (ex. hormônio causa diferença entre os grupos), mesmo quando não tenha sido o tratamento a causa do efeito observado (ex. diferença da média de peso entre os grupos), já que a razão efeito / erro também é afetada pelo erro experimental. “Erro do Tipo I” (falso negativo) é quando afirmamos erroneamente que o tratamento é eficaz, quando, na verdade, o tratamento não exerce qualquer influência, pois a diferença entre os grupos foi provocada apenas pelo erro experimental. Assim, a probabilidade/frequência de cometermos o Erro do Tipo I é controlada pelo Nível de Significância, que é estabelecido pela própria pesquisadora. Quando estabelecemos um Nível de Significância de 5% (α = 0,05), estamos dizendo que uma em cada 20 repetições do experimento irá concluir que a diferença entre os grupos foi causada pelo tratamento, quando, na verdade, o tratamento não exerceu nenhum efeito, pois a diferença entre os grupos foi causada apenas pelo erro experimental. Então, poderíamos imaginar que deveríamos reduzir o Nível de Significância ao mínimo (digamos, α = 0,0001, ou apenas uma ocorrência de Erro Tipo I em 10,000 repetições do experimento), na tentativa de diminuir a probabilidade/frequência de cometermos Erro do Tipo I, se voltarmos a repetir o experimento. Nesse caso, ao reduzir o Nível de Significância, estaríamos sendo cada vez mais céticos com relação ao efeito do tratamento, pois seria necessário que o tratamento causasse uma diferença muito grande entre os grupos para que concluíssemos que a diferença foi causada pelo tratamento, ao invés do erro experimental. Portanto, ao reduzirmos o Nível de Significância (α) nós passamos a exigir que o efeito do tratamento seja cada vez maior (ex. grande ganho de peso no grupo tratado, em função do hormônio) para que possamos concluir que o tratamento exerce algum efeito. Em outras palavras, corremos o risco de passar a atribuir ao erro experimental mesmo os efeitos reais do tratamento, que promoveram diferenças pequenas/moderadas entre os grupos (ex. as cobaias do grupo tratado são em média 100g maiores do que o grupo controle, mas, mesmo assim, essa diferença é insuficiente para convencer que não foi causada por outras causas que não o hormônio). Portanto, quando o Nível de Significância é baixo demais, pequenos efeitos reais promovidos pelo tratamento seriam confundidos com erro experimental (ex. se o hormônio exerce um pequeno efeito, apesar de real, concluiríamos que ele exerce efeito nenhum). “Erro do Tipo II” (falso negativo) é quando afirmamos erroneamente que o tratamento não é eficaz, quando, na verdade, o tratamento exerce alguma influência, mas o efeito do tratamento é confundido com erro experimental por não ser suficientemente grande. A probabilidade/frequência de cometermos Erro Tipo II é conhecida como β. Então, quando diminuímos a probabilidade/frequência de Erro do Tipo I (afirmar que o tratamento causa efeito, mesmo quando de fato não causa), aumentamos automaticamente a probabilidade/frequência de Erro do Tipo II (afirmar que o tratamento não causa efeito, mesmo quando de fato causa). Usei esse mesmo programa aqui para demonstrar graficamente o Nível de Significância na Distribuição Nula de Referência, bem como seus efeitos na probabilidade/frequência de Erro Tipo I e II.


O Poder do Teste:
Eu Tenho a Força?!

A capacidade do teste de corretamente detectar o efeito do tratamento, quando de fato ele existe, é conhecia como Poder. O Poder de um teste é o complemento da probabilidade/frequência de Erro do Tipo II (1 – β). Em outras palavras, se a Hipótese Nula é falsa (ex. o hormônio de fato causa ganho de peso nas cobaias), e o experimento for repetido várias vezes, a probabilidade/frequência de concluirmos que tratamento exerce efeito (rejeitarmos a Hipótese Nula) é o Poder do Teste, que depende fundamentalmente de três grandezas: (1) o tamanho do real efeito do tratamento, (2) o tamanho do erro do experimento e (3) o Nível de Significância escolhido pelo pesquisador. Se o tratamento experimental exerce pouquíssimo efeito (ex. o hormônio promove um ganho real de peso nas cobaias, porém muito pequeno), será muito difícil concluir que esse pequeno efeito é consequência do tratamento, pois será facilmente confundido com o erro experimental. Ao contrário, se o tratamento exerce um enorme efeito (ex. o hormônio promove um grande ganho de peso), será muito mais fácil identificar esse efeito e atribuí-lo ao tratamento, já que o erro experimental não costuma gerar diferenças muito grandes entre os grupos do experimento. Se o erro do experimento for muito pequeno, seja pela semelhança entre as unidades experimentais de um mesmo grupo (ex. cobaias dentro do grupo controle, e dentro do grupo tratado, possuem o mesmo peso), ou também pelo alto número de réplicas de cada grupo (ex. muitas cobaias no grupo controle e no grupo tratado), então qualquer pequena diferença entre os grupos poderá ser corretamente atribuída ao tratamento. Ao contrário, se o erro experimental for muito grande (ex. as poucas cobaias que foram mantidas sobre as mesmas condições apresentam grande diferença de peso), então será menos confiável atribuir qualquer diferença entre os grupos ao tratamento (ex. a diferença entre os grupos é consequência do hormônio ou de fontes desconhecidas de variação?). Por fim, se o pesquisador estabelecer um Nível de Significância (α) muito baixo, firmando uma posição muito cética com relação ao efeito do tratamento, então, para convencer esse pesquisador a concluir que é o tratamento que realmente causa a diferença entre os grupos (ex. cobaias tratadas com hormônio têm maior peso por causa do hormônio, não por outros motivos) será preciso que o tratamento experimental exerça um grande efeito (ex. grande diferença de peso entre as cobaias do grupos controle e tratado), e que o erro experimental seja muito baixo (ex. grande homogeneidade entre as cobaias dentro de cada grupo).