Versão Preliminar

Introdução

Ontem recebi um e-mail da Pró-Reitora de Extensão e Cultura com a lista de projetos de extensão universitária da Unirio que devem participar da Semana de Integração Acadêmica - SIA em 2017. Neste documento também tinha as respostas da pergunta:

Onde está a Matemática no seu projeto?

Esse documento é rico e pode ser analisado através do Linguagem R. Apresento abaixo um exemplo de resposta de um participante da Unirio.

“O binômio de Newton é tão belo como a Vênus de Milo. O que há é pouca gente para dar por isso.” (Álvaro de Campos, através de Fernando Pessoa).

Método

Para a análise desssas respostas vamos utilizar uma nuvem de palavras. Para saber mais sobre a nuvem de palavras, clique aqui http://www.arede.inf.br/crie-a-sua-nuvem-de-palavras/

#fileName <- "C:/Users/.../ondeestaamatematica.txt"
banco<-readChar(fileName, file.info(fileName)$size)
banco<-str_trim(banco)
#head(banco)
banco2<-str_split(banco, boundary("word"))
#head(banco2)
banco2<-banco2[[1]]

Desenvolvimento

O detalhamento sobre o uso da nuvem de palavras no R pode ser encontrado aqui. http://www.estatisticacomr.uff.br/?p=322

A única diferença foi a utilização do

iconv

para manter todos os caracteres latinos (como a cedilha e o til) :)

auxCorpus <- Corpus(VectorSource(banco2))
#auxCorpus <- tm_map(auxCorpus, PlainTextDocument)

#Então, vamos remover toda a pontuação e palavras irrelevantes. Stopwords são comumente usadas no português, como:  eu, meu e etc.

auxCorpus <- tm_map(auxCorpus, removePunctuation) 
## Warning in tm_map.SimpleCorpus(auxCorpus, removePunctuation): transformation
## drops documents
#auxCorpus <- tm_map(auxCorpus, removeWords, stopwords('pt')) 
#auxCorpus <- iconv(tm_map(auxCorpus, removeWords, stopwords('pt')), "latin1", "latin2", "") 

Após a correção dos caracteres, finalmente, foi construída a Nuvem de palavras. Coloquei em um fundo preto.

Nuvem de palavras

par(bg="black")
wordcloud(auxCorpus,max.words=100,colors=c("white","#eaef88","#e1e85a","#e1e85a"))

O R é Demais!

Tudo isso em uma hora e meia. Nunca foi tão fácil montar uma nuvem de palavras no R. Use R!