INEP Gestão Pública Censo Educação Superior UNIRIO 2018
Diversos professores e alunos já me perguntaram quantos alunos estão na Universidade. Lembro que eu não consegui responder rapidamente a essa pergunta. Todavia, com uma maior experiencia com o R e com acesso aos dados do inep já podemos responder a essa pergunta.
Neste artigo vamos descobrir quantos alunos a UNIRIO tem. Mais do que isso, vamos ver o perfil do aluno. Para isso, temos que acessar os microdados do INEP e fazer um filtro para os alunos da Unirio. Felizmente, o DATAUNIRIO já fez isso e colocou a base de dados da UNIRIO para download em CSV. Logo, neste tutorial, vamos aprender a usar o R para fazer uma análise sobre a Universidade.
A base de dados está no formato CSV e pode ser baixada do repositório de dados do DATAUNIRIO. Para carregar a base de dados no R precisamos utilizar o código abaixo.
UNIRIO2018 <- readr::read_csv("https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-04-17/cambio_lealtades.csv")
UNIRIO2018<-droplevels(UNIRIO2018)
Já com o download da base de dados, podemos retirar todas as categorias que não vamos utilizaqr no R com o comando:
UNIRIO2018<-droplevels(UNIRIO2018)
Com a limpeza da base de dados no R, já podemos verificar quantos alunos a UNIRIO tem (de acordo com o INEP).
Para responder a essa pergunta, precisamos definir o que é aluno com base na sua situação.
Definição: o registro deve se encaixar em uma dessas quatro situações para ser considerado aluno:
Assim, os alunos desvinculados do curso não serão considerados. A definição de desviculado do INEP é:
Desvinculado do curso: aluno que, na data de referência do Censo, não possui vínculo com o curso por motivos de evasão, abandono, desligamento ou transferência para outra IES.
Encontrei 58 registros classificados como "desvinculado do curso". Precisamos retirá-los da base de dados.
Após retirá-los da base de dados, podemos responder a pergunta: Quantos alunos a UNIRIO tem?
Total de Alunos: 17.410
Para fazer isso no R, precisamos executar os comandos: nrow(UNIRIO2018)
ou dim(UNIRIO2018)[1]
De acordo com o INEP, a UNIRIO tem quase 18 mil alunos em 2018.
Para saber quais são as variáveis que o INEP disponibiliza sobre a UNIRIO, precisamos executar o comando:names(UNIRIO2018)
. Outros comandos interessantes são str(UNIRIO2018)
e head(UNIRIO2018)
Após esta etapa, você pode escolher uma variável para fazer uma análise, ou seja, uma variável de interesse. (escolhi verficar quantos alunos temos em cada curso). Para fazer esta etapa, podemos usar o comando table
. Esta função é aplicada na base de dados UNIRIO2018 e na variável NO_CINE_ROTULO. Desse modo, temos:
tabela1<-table(UNIRIO2018$NO_CINE_ROTULO)
Aqui, percebemos que seria interessante separar as aulas presencias e as aulas a distância....
Na UNIRIO temos duas modalidade de ensino:
Vamos fazer uma visualização de dados para ver quantos alunos presenciais temos na UNIRIO:
table(UNIRIO2018$Tipo)
Curso a distância "7.122"
Presencial "10.288"
round(prop.table(table(UNIRIO2018$Tipo))*100,digits = 2)
Curso a distância 40.91
Presencial 59.09
Dos 17.410 alunos da UNIRIO, 40,9% (7.122 alunos) fazem o curso a distância. Podemos ver melhor nos cem quadrados abaixo:
tabela2<-table(UNIRIO2018$NO_CINE_ROTULO,UNIRIO2018$Tipo)
Podemos fazer tantas perguntas para a base de dados quanto quiser. Por exemplo, qual a cor autodeclarada pelos alunos da Universidade?
Para responder a essa pergunta, vamos fazer uma visualização da tabela. Em primeiro lugar, vamos criar o mesmo código que o anterior, mas vamos utiliza-lo na variável COR (Descrição da Cor do Aluno). Depois vamos "guarda" essa tabela em um objeto chamado tabela3
. Após esse comando, vamos gerar um gráfico. Para ver o código em R, clique em Code.
par(mar = c(0.5, 8.5, 0.5, 0.5), mgp = c(5, 1, 0),bg="#e0feff")
ggplot(UNIRIO2018) +
aes(x = COR) +
geom_bar(fill = "#0c4c8a") +
coord_flip() +
ggthemes::theme_solarized()
ggplot(UNIRIO2018) +
aes(x = COR) +
geom_bar(fill = "#0c4c8a") +
coord_flip() +
ggthemes::theme_solarized() +
facet_wrap(vars(Tipo))
** OBS - Na tabela próxima tabela, vamos considerar somente a modalidade presencial **
# considerando somente a modalidade presencial para o planejamento amostral
UNIRIO2018 <-UNIRIO2018[UNIRIO2018$Tipo=="Presencial",]
tabela3<-table(UNIRIO2018$NO_CINE_ROTULO,UNIRIO2018$COR)
tabela3<-data.frame(tabela3)
tabela3<-reshape(tabela3, idvar = "Var1", timevar = "Var2", direction = "wide")
colnames(tabela3)<-c("Area", "Amarela" , "Branca" , "Indígena" ,"não quis declarar", "Parda","Preta")
Tereza, acredito que essa última tabela pode auxiliar no planejamento amostral, bem como no procedimento de pós-estratificação da amostra.
Estamos construindo um site para compartilhar dados sobre a UNIRIO, por enquanto peça a base de dados do INEO no email: steven.ross@uniriotec.br Obrigado.