Análise exploratória de dados
Você sabia que o R possui pacotes que realizam uma análise exploratória dos dados de maneira automática? Ao rodar as funções especializadas para isso, ele gera relatórios em HTML ou PDF que auxiliam a visualizar os tipos de variáveis, a existência de dados ausentes, dentre outras características. Aproveite o script e faça a sua própria análise!
📌 Pacotes
As ferramentas automatizadas de análise exploratória de dados visam tornar a fase de compreensão dos dados mais rápida e fácil. Ela pode ser dividida em tarefas como: descrição de um conjunto de dados, exploração de dados e verificação da qualidade dos dados. Os pacotes aqui apresentados fornecem funções para lidar com esses desafios. Alguns deles também se preocupam com a fase de preparação de dados, que precede e dá suporte à fase de construção de modelos.
Veja aqui 👇 os pacotes disponíveis que realizam análise exploratória de dados de forma automática:
👉️ dataMaid: possui duas funções centrais: a função de verificação, que realiza avaliações de consistência e validade dos dados, e de resumo, que sumariza cada coluna do banco de dados. O pacote também cria automaticamente um relatório em formato PDF, DOCX ou HTML. O relatório contém um resumo completo do conjunto de dados: variáveis e seus tipos, número de valores ausentes, e resumos univariados na forma de estatísticas descritivas, histogramas/gráficos de barra e uma indicação de possíveis problemas.
👉️
xray: possui três funções para a análise de dados: (i) anomalies
: analisa todas as colunas do banco de dados em busca de anomalias, sejam elas NAs, zeros, infinitos, etc, e avisa se detectar variáveis com pelo menos 80% das linhas com essas anomalias. Ele também avisa quando todas as linhas têm o mesmo valor; (ii) distributions
: tenta analisar a distribuição das variáveis, para que você possa entender como cada variável está estatisticamente estruturada. Ele também retorna uma tabela de percentis de variáveis numéricas como resultado; (iii) timebased
: também investiga as distribuições, mas mostra a mudança ao longo do tempo.
👉️
visdat: formado por seis funções que ajudam a visualizar: (i) vis_dat
: apresenta o tipo das variáveis e se há dados ausentes; (ii) vis_guess
: apresenta o tipo de cada valor em cada coluna; (iii) vis_miss
: apresenta clusters de valores ausentes; (iv) vis_compare
: avalia diferenças entre dois conjuntos de dados; (v) vis_expect
: onde determinadas condições são satisfeitas nos dados; (vi) vis_cor
: gera uma matriz de correlação entre as variáveis numéricas.
👉️ dlookr: fornece ferramentas para 3 tipos de análise: (i) diagnóstico dos dados, incluindo correção, detecção de valores ausentes e outliers; (ii) análise exploratória de dados; (iii) e engenharia de recursos, como imputação, dicotomização e transformação de variáveis contínuas. Ele também gera automaticamente um relatório em PDF ou HTML para todas essas análises.
👉️
DataExplorer: fornece funções para: (i) introduce
e plot_intro
: resumo do conjunto de dados completo: dimensões, tipos de variáveis, valores ausentes etc; (ii) plot_missing
e profile_missing
: visualização dos valores ausentes; (iii) plot_histogram
e plot_bar
: gera gráficos representando as distribuições de variáveis; (iv) plot_qq
: gera gráficos Q-Q; (v) plot_correlation
: gera matrizes de correlação; (vi) plot_prcomp
: permite visualizar os resultados de uma PCA plotando a porcentagem de variância explicada e correlações de cada variável original para cada componente principal; (vii) plot_scatterplot
e plot_boxplot
: traça relações entre a variável resposta e preditores; (viii) set_missing
: substitui os valores ausentes por uma constante; (ix) group_category
: agrupa categorias esparsas; (x) dummify
e drop_columns
: cria variáveis dummy e descarta variáveis existentes.
Para conhecer outro pacotes, acesse este link.
Para ver um exemplo com os pacotes dlookr e dataMaid, acesse: , Script, Dados
##%######################################################%##
# #
#### ANÁLISE EXPLORATÓRIA DOS DADOS ####
#### PACOTES PARA GERAR RELATÓRIOS AUTOMÁTICOS ####
# #
##%######################################################%##
# Banco de dados usado como exemplo
data(iris)
##%######################################################%##
# #
#### PACOTE DATAMAID ####
# #
##%######################################################%##
# install.packages("dataMaid")
library(dataMaid)
makeDataReport(iris)
##%######################################################%##
# #
#### PACOTE XRAY ####
# #
##%######################################################%##
# install.packages("xray")
library(xray)
anomalies(iris)
distributions(iris)
##%######################################################%##
# #
#### PACOTE VISDAT ####
# #
##%######################################################%##
# install.packages("visdat")
library(visdat)
vis_dat(iris)
vis_guess(iris)
vis_miss(iris)
vis_cor(iris[,1:4])
##%######################################################%##
# #
#### PACOTE DLOOKR ####
# #
##%######################################################%##
# install.packages("dlookr")
library(dlookr)
eda_report(iris, "Species", output_format = "html")
##%######################################################%##
# #
#### PACOTE DATAEXPLORER ####
# #
##%######################################################%##
# install.packages("DataExplorer")
library(DataExplorer)
introduce(iris)
plot_intro(iris)
plot_missing(iris)
profile_missing(iris)
plot_histogram(iris)
plot_bar(iris)
plot_qq(iris)
plot_correlation(iris)
plot_prcomp(iris)
plot_scatterplot(iris, by = "Species")
plot_boxplot(iris, by = "Species")
create_report(iris)