Questões científicas Qualidade dos dados Pressupostos Parcimonia Variáveis de confusão Variáveis omitidas
Se você usar o código ou as informações deste guia em um trabalho publicado, solicito que cite-o como uma fonte nas referências bibliográficas.
DUTT-ROSS,Steven Cinco regras simples para uma análise estatística eficaz. Rio de Janeiro. 2020. mimeo. Disponível em: https://blog.metodosquantitativos.com/cincoregras/
Você não precisa usar o R… pode usar o Python também.
A análise estatística é sobre processo de descoberta. O desenvolvimento científico precisa gera um método para examinar objetos de interesse de uma maneira sistemática. A estatística raramente é um fim em si mesma. Em outras palavras, use a estatística como método para responder questões científicas. Não utilize a estatística só para aplicar modelos matemáticos no seu TCC/Dissertação/Tese.
Quando se trata de análise de dados, sempre afirmamos “entrada de lixo produz saída de lixo” (“garbage in, garbage out.”). É altamente recomendável abordar o pré-processamento com cuidado, pois isso pode causar efeitos que passam despercebidos facilmente. Mesmo com dados pré-processados, um esforço considerável adicional pode ser necessário antes da análise. isso é chamado de “limpeza de dados” ou “higienização de dados”.
A limpeza de dados é um processo que tem como objetivo limpar dados, remover linhas duplicadas, identificar dados ausentes (missing), identificar dados discrepantes (outliers) e tornar os dados mais legíveis e confiáveis. A experiência pode ser extremamente útil, pois a limpeza de dados geralmente revela informações importantes sobre a qualidade dos dados. Além disso, na melhor das hipóteses, você confirma que o que foi medido é realmente o que se pretendia ser medido. As unidades de medida devem ser entendidas e registradas de forma consistente. É importante que valores de dados ausentes podem ser reconhecidos como tal. Por exemplo, 999 pode significar o número 999 ou pode ser o código para “não respondeu” ou o código “Em branco”. Além disso, você deve ter uma regra defensável para lidar com situações como: Por que alguns dados estão ausentes? Eles se perderam através de algum mecanismo relevante? algum mecanismo sistemático?
Toda inferência estatística envolve premissas, baseadas em alguma representação probabilística da variação dos dados - é o que chamamos de modelo estatístico.
Os métodos estatísticos paramétricos geralmente envolvem uma suposição de normalidade dos dados. Em outras palavras, para o teste de hipoteses ser efetivo, os dados devem seguir uma distribuição normal.
O coeficiente de correlação de Pearson, é uma medida de associação linear. Se você tiver um outro tipo de associação como quadrada ou cúbica, o coeficiente de correlação de Pearson não é adequado e pode indicar um valor igual a zero mesmo quando há uma correlação não linear.
Simplicidade é a sofisticação máxima. Sendo tudo igual, a simplicidade supera a complexidade. Esta regra é consagrada nos procedimentos operacionais e descritos de várias formas como “Navalha de Occam” ou “Navalha de Ockham”. O princípio da parcimônia pode ser um guia confiável: comece com abordagens simples e adicione complexidade necessária. Em outras palavras,adicione apenas o mínimo que for essencial.
Um fator de confusão é uma variável que influencia tanto a variável dependente, quanto a variável independente, causando uma associação espúria. Confusão é uma grande ameaça à validade das inferências feitas sobre as associações estatísticas. Além disso, podemos ter variáveis omitidas causam viés. Para saber mais:
Para saber sobre outras funções no R e no Python, você pode acessar o meu blog https://blog.metodosquantitativos.com/ ou o meu site pessoal https://steven.metodosquantitativos.com/