Sobre a maestria

Tenho um grande amigo que uma vez me disse uma definição de maestria que reproduzo aqui:

“A nota dez na prova não me diz nada sobre a pessoa! Isso só me diz que a pessoa atingiu uma forma de fazer estatística. A maestria vem quando você sabe umas três ou quatro formas de resolver o mesmo problema.”

Ele ainda continuou….

“O ideial é pensar as diferentes abordagens para o problema e o resultado que você pode alcançar. Por exemplo, antes de executar uma metodologia, podemos pensar algo do tipo: posso usar a abordagem bayesiana e chegar mais ou menos aqui, usar um método multivariado e chegar mais ou menos ali, usar um modelo de regressão e alcançar tal resultado, ou ainda usar um Machine learning e fazer tal coisa….

Essa fala dele me fez pensar muito. Não concordo com tudo com que ele disse, mas concordo que é bom saber vários métodos. Assim, penso que podemos essa publicação para explorar várias abordagens na programação no R. Inclusive, poderíamos comparar os métodos R-Base com os métodos tidyverse :)


Como examinar os seus dados

Qual seria a melhor forma de examinar os seus dados? Aqui, apresento as formas que eu mais utilizo para esse fim.

Para isso, vamos criar uma base de dados.

### Banco de dados
Entrada <- ("
 Palestrante Nota
 Stark 3
 Stark 5
 Stark 4
 Stark 4
 Stark 4
 Stark 4
 Stark 4
 Stark 4
 Stark 5
 Stark 5
 Targaryen 2
 Targaryen 4
 Targaryen 2
 Targaryen 2
 Targaryen 1
 Targaryen 2
 Targaryen 3
 Targaryen 2
 Targaryen 2
 Targaryen 3
")

dados <- read.table(textConnection(Entrada), head = TRUE)

Apresento a seguir as principais funções para inspecionar os seus dados.

funções interessantes

head() e summary()

Essas são as funções clássicas para ver a estrutura de dados. Além disso, essas foram as primeiras que aprendi.

head(dados)
  Palestrante Nota
1       Stark    3
2       Stark    5
3       Stark    4
4       Stark    4
5       Stark    4
6       Stark    4
summary(dados)
 Palestrante             Nota     
 Length:20          Min.   :1.00  
 Class :character   1st Qu.:2.00  
 Mode  :character   Median :3.50  
                    Mean   :3.25  
                    3rd Qu.:4.00  
                    Max.   :5.00  

str()

Essa função serve para mostrar a estrutura de dados das variáveis.

str(dados)
'data.frame':   20 obs. of  2 variables:
 $ Palestrante: chr  "Stark" "Stark" "Stark" "Stark" ...
 $ Nota       : int  3 5 4 4 4 4 4 4 5 5 ...

describe()

Função interessante do pacote psych.

library(psych)
describe(dados)
             vars  n mean   sd median trimmed  mad min max range  skew kurtosis
Palestrante*    1 20 1.50 0.51    1.5    1.50 0.74   1   2     1  0.00    -2.10
Nota            2 20 3.25 1.21    3.5    3.25 1.48   1   5     4 -0.12    -1.34
               se
Palestrante* 0.11
Nota         0.27

glimpse()

Função do pacote do dplyr. Eu amo o tidyverse! Se der para usar o tidyverse, use-o.

library(dplyr)
glimpse(dados)
Rows: 20
Columns: 2
$ Palestrante <chr> "Stark", "Stark", "Stark", "Stark", "Stark", "Stark", "Sta~
$ Nota        <int> 3, 5, 4, 4, 4, 4, 4, 4, 5, 5, 2, 4, 2, 2, 1, 2, 3, 2, 2, 3

visualize()

Função um pouco mais visual para o mesmo fim. Ela é do pacote dataMaid.

library(dataMaid)
visualize(dados)