Avaliando fenômenos complexos:
Análise de Variância


Na aula anterior nós aprendemos como comparar o resultado de um experimento com a expectativa de um cenário teórico no qual o tratamento não exercia nenhum efeito (hipótese nula). O objetivo principal daquela aula era entender a ideia desta comparação entre resultado e hipótese nula, sem focar na complexidade do próprio experimento. Assim, no exemplo da aula, o experimento era o mais simples possível, com apenas dois grupos (e.g. controle vs tratamento). Nessa situação, podemos utilizar tanto o Intervalo de Confiança quanto o Teste t, pois eles utilizam diretamente a diferença observada entre as médias dos dois grupos, calculada por uma simples subtração aritmética, e compara essa diferença com a expectativa de diferença segundo hipótese nula. Entretanto, a complexidade dos sistemas naturais frequentemente requer que cientistas criem experimentos com muito mais abrangentes do que uma simples comparação entre apenas dois grupos. Nessa aula vamos aprender como medir o impacto do tratamento em experimentos mais poderosos, com mais de dois grupos, levando em consideração o indelével erro experimental.


Múltiplos testes da hipótese nula?
Receita para identificar um falso efeito...

A através da diferença entre duas médias nós analisamos o efeito de um tratamento experimental quando havia apenas dois grupos a serem comparados (ex. controle vs tratamento), mas essa diferença só é calculável quando há apenas duas médias a serem comparadas. Entretanto, para entender melhor a complexidade da natureza precisaremos de experimentos com mais de dois grupos (i.e. níveis), pois assim poderemos estudar a variação natural de forma mais abrangente e realista. Nesse vídeo eu apresento um exemplo de delineamento experimental mais complexo, na tentativa de entender se diferentes espécies de peixe afetam a densidade de fitoplâncton (organismos aquáticos microscópicos que realizam fotossíntese, tais como algas). Para responder essa pergunta foi criado um experimento no qual as unidades experimentais são caixas-d’água, todas com a mesma quantidade de água, planta aquática e nutriente (controle experimental). Em cada caixa-d’água foi colocado a mesma quantidade (biomassa) de uma única espécie de peixe. Porém, em diferentes caixas-d’água colocamos diferentes espécies de peixe (níveis do experimento). Portanto, o efeito do tratamento é a diferença na densidade de fitoplâncton entre as caixas-d’água que receberam diferentes espécies de peixe (tratamento). Por outro lado, a variabilidade na densidade de fitoplâncton entre as caixas-d’água que receberam a mesma espécie de peixe (réplicas) é causada por fontes não-controladas de variação (erro experimental). Seria preciso utilizar vários Testes t para comparar a diferença entre as médias de vários pares de espécies (1x2, 1x3, 1x4, etc.). Portanto, o Teste t não responderia se a variação entre níveis (espécies de peixe) causa variação em todo o fenômeno de interesse (densidade de fitoplâncton), mas apenas se existe diferença em uma pequena expressão do fenômeno (variação na densidade de fitoplânction causada por um par de espécies de peixe). Além disso, em cada Teste t há uma probabilidade de cometermos Erro do Tipo I (falso positivo), que consiste em confundir erro experimental com tratamento, descartando a hipótese nula (afirmar que peixe causa diferença) quando essa hipótese é verdadeira (de fato, não foram os peixes causaram a diferença, mas o erro experimental). Portanto, repetições dos Testes t para responder uma única pergunta aumenta essa probabilidade de Erro do Tipo I, pois em várias comparações sequenciais par-a-par é mais provável encontrarmos diferenças espúrias entre grupos (erro experimental) que sejam suficientemente grandes para serem confundidas com efeito do tratamento. Já ouviu aquele ditado popular “procurar chifre em cabeça de égua”, ou “quem procura demais acaba achando o que não queria”? Pois bem... nunca faça múltiplos testes de significância para responder uma única pergunta científica!, pois nesse caso o erro experimental vai te confundir e você vai acabar concluindo que há efeito de tratamento, quando na verdade há apenas erro experimental (Erro do Tipo I, ou falso positivo).
Clique aqui para baixar o programa que demonstra o P-Valor na comparação entre dois grupos (teste t).


Medindo ERRO experimental:
Soma de Quadrados DENTRO de grupos

O Erro Experimental associado ao protocolo de qualquer experimento pode ser estimado ao medir a variabilidade entre unidades experimentais sujeitas exatamente às mesmas condições experimentais (réplicas). Se o controle experimental fosse perfeito não existiria erro experimental, e todas as réplicas de tratamento seriam idênticas. Portanto, qualquer variabilidade entre réplicas não pode ser atribuída ao tratamento, mas sim a fontes desconhecidas de variação (incerteza). No nosso experimento, colocamos cada uma das cinco espécies de peixe (nível) em dez caixas-d’água diferentes, que chamamos de “grupo de réplicas”, ou apenas “grupo”. Portanto, nosso experimento contém cinco grupos (um para cada espécie, que são níveis do tratamento), e cada grupo consiste em 10 réplicas. Assim, o erro experimental é a variabilidade na densidade de fitoplâncton dentro dos grupos de réplicas, pois receberam a mesma espécie de peixe. Como sempre fazemos, a média de um grupo (nível) será usada para representar a condição padrão (referência) daquela condição. Para medirmos o tamanho do erro experimental em todo o experimento nós vamos medir a variabilidade dentro de todos os grupos, ao comparar cada uma das réplicas com a média de cada grupo. A soma dos quadrados dos desvios de cada réplica em relação a média do respectivo grupo mede a variabilidade total do experimento devido a erro experimental. Chamamos essa soma de “SQd”, pois é uma Soma de Quadrados DENTRO dos grupos.
Clique aqui para baixar os dados que usei nesse vídeo, e também nos próximos, para demonstrar a Análise de Variância.


Medindo EFEITO do tratamento:
Soma de Quadrados ENTRE grupos

O Efeito do Tratamento é a variabilidade no fenômeno estudado que está associada à manipulação experimental imposta no protocolo do experimento. Se o efeito do tratamento for grande, haverá uma grande diferença observável entre os diferentes níveis do tratamento. Assim, a variabilidade entre níveis de um fator pode ser atribuída ao tratamento, pois está diretamente associada às diferenças experimentais conhecidas e impostas pelo próprio experimentador. No nosso experimento, colocamos cada uma das cinco espécies de peixe (nível) em dez caixas-d’água diferentes, que chamamos de “grupo de réplicas”, ou apenas “grupo”. Portanto, nosso experimento contém cinco grupos (um para cada espécie, que são níveis do tratamento), sendo cada grupo formado por 10 réplicas. Assim, o efeito do tratamento é a variabilidade na densidade de fitoplâncton entre dos grupos, pois estes receberam diferentes espécies espécie de peixe. Como sempre fazemos, a média de um grupo (nível) será usada para representar a condição padrão (referência) daquela condição. Da mesma maneira, usaremos a média de todas as unidades experimentais como referencial para a condição natural do fenômeno no experimento, independente de erro ou efeito. Portanto, para medir o tamanho do efeito do tratamento em todo o experimento bastará medir a variabilidade entre as médias de cada grupo, ao comparar cada uma das médias dos grupos com a média de todo o experimento. A soma dos quadrados dos desvios de cada média de grupo em relação à média total do experimento é uma estimativa do efeito do tratamento experimental. Chamamos essa soma de “SQe”, pois é uma Soma de Quadrados ENTRE os grupos.


Razão efeito / erro e a comparação com a hipótese nula

A soma de quadrados dos desvios da média é o fundamento da nossa medida de variabilidade, seja dentro dos grupos (erro experimental) ou entre grupos (efeito de tratamento). Entretanto, para que essas Somas de Quadrados (SQ) possam ser comparadas elas precisam ser padronizadas pelo número de informações independentes que contribuíram em cada soma de quadrados, ou seja, precisam ser divididas pelos respectivos graus de liberdade (GL). A razão entre SQ e GL é a nossa conhecida variância (VAR). De fato, a média que é usada como referência para cada observação uma soma de quadrados é obtida a partir das próprias observações, e, portanto, não é uma informação independente (inédita). Ao calcular a soma de quadrados dentro de grupos (SQd) nós comparamos as unidades experimentais (50 no total) com cada média do respectivo grupo (5 no total). Portanto, o Grau de Liberdade Dentro de Grupos (GLd) é igual ao total de unidades experimentais menos o número de grupos (GLd = N-g, ou 45 no nosso exemplo). Ao calcular a soma de quadrados entre grupos (SQe) nós comparamos cada uma das médias dos grupos (5 no total) com a média total do experimento (1 apenas). Portanto, o Grau de Liberdade Entre Grupos (GLe) é igual ao total de níveis do tratamento menos 1 (GLe = g-1, ou 5 no nosso experimento). Portanto, podemos calcular o tamanho da variância causada pelo erro experimental (VARd) como a razão entre SQd e GLd, bem como a o tamanho da variância causada pelo tratamento (VARe) como a razão entre SQe e GLe. A estimativa de Efeito do Tratamento é a Variância Entre Grupos (VARe), enquanto a estimativa de Erro Experimental é a Variância Dentro de Grupos (VARd). Assim, na Análise de Variância a razão efeito / erro é uma razão entre duas variâncias (VARe / VARd), que é chamada de F em homenagem a Ronald Fisher. A estatística/estimativa F mede o tamanho relativo do efeito do tratamento em relação à incerteza causada pelo erro experimental. Assim como fazíamos no Teste t, podemos imaginar um cenário no qual o tratamento (espécie de peixe) não exerce qualquer tipo de influência no fenômeno (densidade de fitoplâncton), que chamamos de “Hipótese Nula”. Sob esse cenário deveríamos esperar que a razão efeito / erro fosse zero, apesar de que o erro experimental pode fazer com que essa razão seja um pouco maior do que zero. Porém, é improvável que essa razão seja muito grande quando o tratamento não exerce qualquer efeito. A distribuição de probabilidade/frequência dos valores de F sob o cenário teórico da hipótese nula é a nossa distribuição nula de referência, com a qual podemos comparar o valor de F que foi observado no experimento. A probabilidade/frequência de obtermos um valor de F tão grande quanto, ou ainda maior, do que aquele que foi observado no experimento, se a hipótese nula fosse verdadeira e o experimento fosse repetido, é conhecida como P-Valor. P-Valores muito baixos indicam que o resultado obtido é pouco compatível com o cenário da hipótese nula, pois a diferença no fenômeno (densidade de fitoplâncton) entre os níveis do tratamento (grupos com diferentes espécies de peixe) é muito rara de ser observada quando o tratamento não exerce influência no fenômeno. Nesse caso, pode ser que queiramos descartar a hipótese nula e inferir que o tratamento exerce mesmo influência. P-Valores muito altos indicam que o resultado obtido é compatível com um cenário no qual apenas o erro experimental causa variabilidade entre as unidades experimentais, e que o tratamento é completamente inócuo. Nesse caso, há pouca evidência para concluir que foi o tratamento que causou a pequena diferença observada no fenômeno entre os grupos, já que o próprio erro experimental também poderia ter causado um tamanho de diferença equivalente. A comparação numérica entre o P-Valor e o Nível Crítico de Significância (α) pode ser usada como critério para aceitar ou rejeitar a Hipótese Nula (H0): P < α sugere que existe evidências suficientes para concluir que o efeito de tratamento, enquanto P > α sugere que não existe evidências suficientes para concluir que o tratamento exerce influência no fenômeno.
Clique aqui para baixar o programa que demonstra a razão efeito / erro de duas variâncias (estatística/estimativa F), aqui para baixar o programa com a distribuição F nula de referência, e aqui para baixar o programa que demonstra o P-Valor na Análise de Variância.


Medindo a proporção de explicação do fenômeno

Enquanto a Soma de Quadrados Entre grupos (SQe) mede a variabilidade no fenômeno (densidade de fitoplâncton) causada pela manipulação do tratamento (espécies de peixe), a Soma de Quadrados Dentro de grupos (SQd) mede o impacto das fontes de variação não controladas pelo experimentador (erro experimental). O total (soma) dessas duas medidas é conhecida como Soma de Quadrados Total (SQt), e pode tanto ser calculada como SQt = SQe + SQd, como também pela a soma dos quadrados dos desvios de cada unidade experimental em relação ao média geral do experimento (média de todas unidades experimentais). A razão entre SQe / SQt indica a proporção de variabilidade observada no fenômeno durante o experimento que pode ser atribuída ao tratamento (espécies de peixe). Essa razão é conhecida como Coeficiente de Determinação, ou r². Como toda proporção parte/todo (fração), o r² varia entre zero (ausência de efeito, presença apenas de erro) e um (presença apenas de efeito, ausência de erro). Portanto, é comum dizer que essa é o Coeficiente de Determinação mede a proporção (ou porcentagem) de variabilidade “explicada”, “causada” ou “determinada” pelo tratamento. O P-Valor é (1a) uma probabilidade do resultado do experimento, (2a) assumindo o cenário da ausência de efeito do tratamento, (3a) que diminui com o aumento do efeito do tratamento, e é aplicado para (4a) fazer inferência sobre o resultado esperado caso o experimento seja repetido. Por outro lado, o Coeficiente de Determinação é (1b) uma proporção parte / todo, (2b) que não faz referência/comparação com nenhum cenário teórico, (3b) aumenta conforme o efeito observado do tratamento, (4b) e é usado para descrever apenas o resultado observado do experimento que foi executado.


O que causou o efeito observado?
Comparando pares de grupos

O cálculo das Somas de Quadrados Entre (SQe) e Dentro (SQd) de grupos combina o efeito e o erro em todos os níveis do tratamento do experimento. Portanto, a estatística/estimativa F (razão VARe / VARd) não indica se há efeito específico de níveis particulares do tratamento. Ao contrário, F pode ser utilizado para indicar se há um efeito geral entre todos os níveis do tratamento (variação de espécies de peixe) sobre o fenômeno em estudo (densidade de fitoplâncton). Em outras palavras, a Análise de Variância não informa quais são as espécies que causaram a diferença na densidade de fitoplâncton. Para identificar se apenas dois níveis (duas espécies de peixe) exercem influência no fenômeno (promovem variação na densidade de fitoplâncton) podemos usar um teste a posteriori, que permite a comparação entre apenas dois grupos. O mais famoso teste a posteriori é conhecido como “teste de Tukey”, “procecimento de Tukey” ou “Diferença Significativa Honesta” (HSD, em Inglês). Esse teste funciona exatamente como um teste t, porém usa como medida de erro experimental não apenas o erro padrão medido através da variabilidade dentro dos dois grupos em comparação, mas a variabilidade dentro de todos os grupos do experimento. O Teste de Tukey utiliza como referência uma distribuição nula chamada q, que permite comparar par-a-par cada nível do tratamento sem inflar a probabilidade de Erro do Tipo I. Assim, é possível identificar quais níveis do tratamento promovem efeito no fenômeno estudado, descontando o erro experimental. Infelizmente a estimativa do P-Valor para este teste não pode ser feita no Excel, já que não possui a fórmula para a distribuição q. Entretanto, a maior parte dos programas de análise estatística (ex. R, Statistica, Systat, JMP) calcula esse P-Valor automaticamente.