Análise exploratória de dados

Créditos da Imagem: Canva

Você sabia que o R possui pacotes que realizam uma análise exploratória dos dados de maneira automática? Ao rodar as funções especializadas para isso, ele gera relatórios em HTML ou PDF que auxiliam a visualizar os tipos de variáveis, a existência de dados ausentes, dentre outras características. Aproveite o script e faça a sua própria análise!

📌 Pacotes

As ferramentas automatizadas de análise exploratória de dados visam tornar a fase de compreensão dos dados mais rápida e fácil. Ela pode ser dividida em tarefas como: descrição de um conjunto de dados, exploração de dados e verificação da qualidade dos dados. Os pacotes aqui apresentados fornecem funções para lidar com esses desafios. Alguns deles também se preocupam com a fase de preparação de dados, que precede e dá suporte à fase de construção de modelos.

Veja aqui 👇 os pacotes disponíveis que realizam análise exploratória de dados de forma automática:

👉️ dataMaid: possui duas funções centrais: a função de verificação, que realiza avaliações de consistência e validade dos dados, e de resumo, que sumariza cada coluna do banco de dados. O pacote também cria automaticamente um relatório em formato PDF, DOCX ou HTML. O relatório contém um resumo completo do conjunto de dados: variáveis e seus tipos, número de valores ausentes, e resumos univariados na forma de estatísticas descritivas, histogramas/gráficos de barra e uma indicação de possíveis problemas.

👉️ xray: possui três funções para a análise de dados: (i) anomalies: analisa todas as colunas do banco de dados em busca de anomalias, sejam elas NAs, zeros, infinitos, etc, e avisa se detectar variáveis com pelo menos 80% das linhas com essas anomalias. Ele também avisa quando todas as linhas têm o mesmo valor; (ii) distributions: tenta analisar a distribuição das variáveis, para que você possa entender como cada variável está estatisticamente estruturada. Ele também retorna uma tabela de percentis de variáveis numéricas como resultado; (iii) timebased: também investiga as distribuições, mas mostra a mudança ao longo do tempo.

👉️ visdat: formado por seis funções que ajudam a visualizar: (i) vis_dat: apresenta o tipo das variáveis e se há dados ausentes; (ii) vis_guess: apresenta o tipo de cada valor em cada coluna; (iii) vis_miss: apresenta clusters de valores ausentes; (iv) vis_compare: avalia diferenças entre dois conjuntos de dados; (v) vis_expect: onde determinadas condições são satisfeitas nos dados; (vi) vis_cor: gera uma matriz de correlação entre as variáveis numéricas.

👉️ dlookr: fornece ferramentas para 3 tipos de análise: (i) diagnóstico dos dados, incluindo correção, detecção de valores ausentes e outliers; (ii) análise exploratória de dados; (iii) e engenharia de recursos, como imputação, dicotomização e transformação de variáveis contínuas. Ele também gera automaticamente um relatório em PDF ou HTML para todas essas análises.

👉️ DataExplorer: fornece funções para: (i) introduce e plot_intro: resumo do conjunto de dados completo: dimensões, tipos de variáveis, valores ausentes etc; (ii) plot_missing e profile_missing: visualização dos valores ausentes; (iii) plot_histogram e plot_bar: gera gráficos representando as distribuições de variáveis; (iv) plot_qq: gera gráficos Q-Q; (v) plot_correlation: gera matrizes de correlação; (vi) plot_prcomp: permite visualizar os resultados de uma PCA plotando a porcentagem de variância explicada e correlações de cada variável original para cada componente principal; (vii) plot_scatterplot e plot_boxplot: traça relações entre a variável resposta e preditores; (viii) set_missing: substitui os valores ausentes por uma constante; (ix) group_category: agrupa categorias esparsas; (x) dummify e drop_columns: cria variáveis dummy e descarta variáveis existentes.

Para conhecer outro pacotes, acesse este link.

Para ver um exemplo com os pacotes dlookr e dataMaid, acesse: , Script, Dados

##%######################################################%##
#                                                          #
####           ANÁLISE EXPLORATÓRIA DOS DADOS           ####
####     PACOTES PARA GERAR RELATÓRIOS AUTOMÁTICOS      ####
#                                                          #
##%######################################################%##

# Banco de dados usado como exemplo
data(iris)

##%######################################################%##
#                                                          #
####                  PACOTE DATAMAID                   ####
#                                                          #
##%######################################################%##

# install.packages("dataMaid")
library(dataMaid)
makeDataReport(iris)

##%######################################################%##
#                                                          #
####                    PACOTE XRAY                     ####
#                                                          #
##%######################################################%##

# install.packages("xray")
library(xray)
anomalies(iris)
distributions(iris) 

##%######################################################%##
#                                                          #
####                   PACOTE VISDAT                    ####
#                                                          #
##%######################################################%##

# install.packages("visdat")
library(visdat)
vis_dat(iris)
vis_guess(iris)
vis_miss(iris)
vis_cor(iris[,1:4])

##%######################################################%##
#                                                          #
####                   PACOTE DLOOKR                    ####
#                                                          #
##%######################################################%##

# install.packages("dlookr")
library(dlookr)
eda_report(iris, "Species", output_format = "html")

##%######################################################%##
#                                                          #
####                PACOTE DATAEXPLORER                 ####
#                                                          #
##%######################################################%##

# install.packages("DataExplorer")
library(DataExplorer)
introduce(iris)
plot_intro(iris)
plot_missing(iris)
profile_missing(iris)
plot_histogram(iris)
plot_bar(iris)
plot_qq(iris)
plot_correlation(iris)
plot_prcomp(iris)
plot_scatterplot(iris, by = "Species")
plot_boxplot(iris, by = "Species")

create_report(iris)
Letícia Raposo
Letícia Raposo
Professora Adjunta

Biomédica e matemática de formação, atualmente é professora de Estatística da UNIRIO. Ama programar nas horas vagas acompanhada de um bom café. ☕

Relacionados