Ontem recebi um e-mail da Pró-Reitora de Extensão e Cultura com a lista de projetos de extensão universitária da Unirio que devem participar da Semana de Integração Acadêmica - SIA em 2017. Neste documento também tinha as respostas da pergunta:
Esse documento é rico e pode ser analisado através do Linguagem R. Apresento abaixo um exemplo de resposta de um participante da Unirio.
“O binômio de Newton é tão belo como a Vênus de Milo. O que há é pouca gente para dar por isso.” (Álvaro de Campos, através de Fernando Pessoa).
Para a análise desssas respostas vamos utilizar uma nuvem de palavras. Para saber mais sobre a nuvem de palavras, clique aqui http://www.arede.inf.br/crie-a-sua-nuvem-de-palavras/
O detalhamento sobre o uso da nuvem de palavras no R pode ser encontrado aqui. http://www.estatisticacomr.uff.br/?p=322
A única diferença foi a utilização do
iconv
para manter todos os caracteres latinos (como a cedilha e o til) :)
auxCorpus <- Corpus(VectorSource(banco2))
#auxCorpus <- tm_map(auxCorpus, PlainTextDocument)
#Então, vamos remover toda a pontuação e palavras irrelevantes. Stopwords são comumente usadas no português, como: eu, meu e etc.
auxCorpus <- tm_map(auxCorpus, removePunctuation)
## Warning in tm_map.SimpleCorpus(auxCorpus, removePunctuation): transformation
## drops documents
#auxCorpus <- tm_map(auxCorpus, removeWords, stopwords('pt'))
#auxCorpus <- iconv(tm_map(auxCorpus, removeWords, stopwords('pt')), "latin1", "latin2", "")
Após a correção dos caracteres, finalmente, foi construída a Nuvem de palavras. Coloquei em um fundo preto.
Tudo isso em uma hora e meia. Nunca foi tão fácil montar uma nuvem de palavras no R. Use R!