Questões científicas Qualidade dos dados Pressupostos Parcimonia Variáveis de confusão Variáveis omitidas


Introdução

Se você usar o código ou as informações deste guia em um trabalho publicado, solicito que cite-o como uma fonte nas referências bibliográficas.

DUTT-ROSS,Steven Cinco regras simples para uma análise estatística eficaz. Rio de Janeiro. 2020. mimeo. Disponível em: https://blog.metodosquantitativos.com/cincoregras/


Você não precisa usar o R… pode usar o Python também.


Regra 1: Os métodos estatísticos devem habilitar os dados para responder questões científicas

A análise estatística é sobre processo de descoberta. O desenvolvimento científico precisa gera um método para examinar objetos de interesse de uma maneira sistemática. A estatística raramente é um fim em si mesma. Em outras palavras, use a estatística como método para responder questões científicas. Não utilize a estatística só para aplicar modelos matemáticos no seu TCC/Dissertação/Tese.

Regra 2: Preocupe-se com a qualidade dos dados

Quando se trata de análise de dados, sempre afirmamos “entrada de lixo produz saída de lixo” (“garbage in, garbage out.”). É altamente recomendável abordar o pré-processamento com cuidado, pois isso pode causar efeitos que passam despercebidos facilmente. Mesmo com dados pré-processados, um esforço considerável adicional pode ser necessário antes da análise. isso é chamado de “limpeza de dados” ou “higienização de dados”.

A limpeza de dados é um processo que tem como objetivo limpar dados, remover linhas duplicadas, identificar dados ausentes (missing), identificar dados discrepantes (outliers) e tornar os dados mais legíveis e confiáveis. A experiência pode ser extremamente útil, pois a limpeza de dados geralmente revela informações importantes sobre a qualidade dos dados. Além disso, na melhor das hipóteses, você confirma que o que foi medido é realmente o que se pretendia ser medido. As unidades de medida devem ser entendidas e registradas de forma consistente. É importante que valores de dados ausentes podem ser reconhecidos como tal. Por exemplo, 999 pode significar o número 999 ou pode ser o código para “não respondeu” ou o código “Em branco”. Além disso, você deve ter uma regra defensável para lidar com situações como: Por que alguns dados estão ausentes? Eles se perderam através de algum mecanismo relevante? algum mecanismo sistemático?

Regra 3: Verifique os pressupostos

Toda inferência estatística envolve premissas, baseadas em alguma representação probabilística da variação dos dados - é o que chamamos de modelo estatístico.

Os métodos estatísticos paramétricos geralmente envolvem uma suposição de normalidade dos dados. Em outras palavras, para o teste de hipoteses ser efetivo, os dados devem seguir uma distribuição normal.

O coeficiente de correlação de Pearson, é uma medida de associação linear. Se você tiver um outro tipo de associação como quadrada ou cúbica, o coeficiente de correlação de Pearson não é adequado e pode indicar um valor igual a zero mesmo quando há uma correlação não linear.

Regra 4: Parcimonia

Simplicidade é a sofisticação máxima. Sendo tudo igual, a simplicidade supera a complexidade. Esta regra é consagrada nos procedimentos operacionais e descritos de várias formas como “Navalha de Occam” ou “Navalha de Ockham”. O princípio da parcimônia pode ser um guia confiável: comece com abordagens simples e adicione complexidade necessária. Em outras palavras,adicione apenas o mínimo que for essencial.

Regra 5: Identifique as variáveis de confusão e as variáveis omitidas

Um fator de confusão é uma variável que influencia tanto a variável dependente, quanto a variável independente, causando uma associação espúria. Confusão é uma grande ameaça à validade das inferências feitas sobre as associações estatísticas. Além disso, podemos ter variáveis omitidas causam viés. Para saber mais:

Para saber sobre outras funções no R e no Python, você pode acessar o meu blog https://blog.metodosquantitativos.com/ ou o meu site pessoal https://steven.metodosquantitativos.com/