O uso do R para fazer uma análise do Censo da Educação Superior do INEP/2018

INEP Gestão Pública Censo Educação Superior UNIRIO 2018

Introdução

Diversos professores e alunos já me perguntaram quantos alunos estão na Universidade. Lembro que eu não consegui responder rapidamente a essa pergunta. Todavia, com uma maior experiencia com o R e com acesso aos dados do inep já podemos responder a essa pergunta.

Neste artigo vamos descobrir quantos alunos a UNIRIO tem. Mais do que isso, vamos ver o perfil do aluno. Para isso, temos que acessar os microdados do INEP e fazer um filtro para os alunos da Unirio. Felizmente, o DATAUNIRIO já fez isso e colocou a base de dados da UNIRIO para download em CSV. Logo, neste tutorial, vamos aprender a usar o R para fazer uma análise sobre a Universidade.

A base de dados está no formato CSV e pode ser baixada do repositório de dados do DATAUNIRIO. Para carregar a base de dados no R precisamos utilizar o código abaixo.

Carregando a Base de Dados

UNIRIO2018 <- readr::read_csv("https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-04-17/cambio_lealtades.csv")

UNIRIO2018<-droplevels(UNIRIO2018)

Já com o download da base de dados, podemos retirar todas as categorias que não vamos utilizaqr no R com o comando:

UNIRIO2018<-droplevels(UNIRIO2018)

Com a limpeza da base de dados no R, já podemos verificar quantos alunos a UNIRIO tem (de acordo com o INEP).


Quantos alunos a UNIRIO tem?

Para responder a essa pergunta, precisamos definir o que é aluno com base na sua situação.

Definição: o registro deve se encaixar em uma dessas quatro situações para ser considerado aluno:

  1. Cursando
  2. Matrícula trancada
  3. Transferido para outro curso da mesma IES
  4. Formado

Assim, os alunos desvinculados do curso não serão considerados. A definição de desviculado do INEP é:

Desvinculado do curso: aluno que, na data de referência do Censo, não possui vínculo com o curso por motivos de evasão, abandono, desligamento ou transferência para outra IES.

Encontrei 58 registros classificados como "desvinculado do curso". Precisamos retirá-los da base de dados.

Após retirá-los da base de dados, podemos responder a pergunta: Quantos alunos a UNIRIO tem?

Total de Alunos: 17.410


Para fazer isso no R, precisamos executar os comandos: nrow(UNIRIO2018) ou dim(UNIRIO2018)[1]

De acordo com o INEP, a UNIRIO tem quase 18 mil alunos em 2018.


Qual o curso da Universidade mais frequentado?

Para saber quais são as variáveis que o INEP disponibiliza sobre a UNIRIO, precisamos executar o comando:names(UNIRIO2018). Outros comandos interessantes são str(UNIRIO2018) e head(UNIRIO2018)

Após esta etapa, você pode escolher uma variável para fazer uma análise, ou seja, uma variável de interesse. (escolhi verficar quantos alunos temos em cada curso). Para fazer esta etapa, podemos usar o comando table. Esta função é aplicada na base de dados UNIRIO2018 e na variável NO_CINE_ROTULO. Desse modo, temos:

tabela1<-table(UNIRIO2018$NO_CINE_ROTULO)

Aqui, percebemos que seria interessante separar as aulas presencias e as aulas a distância....


Modalidade de ensino

Na UNIRIO temos duas modalidade de ensino:

  1. Presencial
  2. Curso a distância

Vamos fazer uma visualização de dados para ver quantos alunos presenciais temos na UNIRIO:

Quantidade absoluta em cada categoria

table(UNIRIO2018$Tipo)

Curso a distância "7.122"
Presencial "10.288"


Percentual em cada categoria

round(prop.table(table(UNIRIO2018$Tipo))*100,digits = 2)

Curso a distância 40.91
Presencial 59.09



Dos 17.410 alunos da UNIRIO, 40,9% (7.122 alunos) fazem o curso a distância. Podemos ver melhor nos cem quadrados abaixo:

Visualização de dados




Análise do curso por modalidade (Curso a distância/Presencial)

tabela2<-table(UNIRIO2018$NO_CINE_ROTULO,UNIRIO2018$Tipo)




Qual a cor declarada pelos alunos da UNIRIO?

Podemos fazer tantas perguntas para a base de dados quanto quiser. Por exemplo, qual a cor autodeclarada pelos alunos da Universidade?

Para responder a essa pergunta, vamos fazer uma visualização da tabela. Em primeiro lugar, vamos criar o mesmo código que o anterior, mas vamos utiliza-lo na variável COR (Descrição da Cor do Aluno). Depois vamos "guarda" essa tabela em um objeto chamado tabela3. Após esse comando, vamos gerar um gráfico. Para ver o código em R, clique em Code.

par(mar = c(0.5, 8.5, 0.5, 0.5), mgp = c(5, 1, 0),bg="#e0feff")
ggplot(UNIRIO2018) +
 aes(x = COR) +
 geom_bar(fill = "#0c4c8a") +
 coord_flip() +
 ggthemes::theme_solarized()

ggplot(UNIRIO2018) +
 aes(x = COR) +
 geom_bar(fill = "#0c4c8a") +
 coord_flip() +
 ggthemes::theme_solarized() +
 facet_wrap(vars(Tipo))

** OBS - Na tabela próxima tabela, vamos considerar somente a modalidade presencial **

# considerando somente a modalidade presencial para o planejamento amostral
UNIRIO2018 <-UNIRIO2018[UNIRIO2018$Tipo=="Presencial",]
tabela3<-table(UNIRIO2018$NO_CINE_ROTULO,UNIRIO2018$COR)
tabela3<-data.frame(tabela3)
tabela3<-reshape(tabela3, idvar = "Var1", timevar = "Var2", direction = "wide")
colnames(tabela3)<-c("Area", "Amarela" , "Branca"  , "Indígena" ,"não quis declarar", "Parda","Preta")

Tereza, acredito que essa última tabela pode auxiliar no planejamento amostral, bem como no procedimento de pós-estratificação da amostra.



Estamos construindo um site para compartilhar dados sobre a UNIRIO, por enquanto peça a base de dados do INEO no email: steven.ross@uniriotec.br Obrigado.