Livro - Estatística prática para cientistas de dados
Sobre o produto
- Sinopse: "Prefácio ...........................................................................................................xv1.Análise Exploratória de Dados ............................................................................1Elementos de Dados Estruturados 2Leitura Adicional 5Dados Retangulares 5Quadros de Dados e Índices 6Estruturas de Dados Não Retangulares 7Leitura Adicional 8Estimativas de Localização 8Média 9Mediana e Estimativas Robustas 11Exemplo: Estimativas de Localização de População eTaxas de Homicídio 12Leitura Adicional 14Estimativas de Variabilidade 14Desvio-padrão e Estimativas Relacionadas 15Estimativas Baseadas em Percentis 17Exemplo: Estimativas de Variabilidade de População Estadual 18Leitura Adicional 19Explorando a Distribuição de Dados 20Percentis e Boxplots 20Tabela de Frequências e Histogramas 22Estimativas de Densidade 24Leitura Adicional 26Cap. de Amostraviii | SumárioExplorando Dados Binários e Categóricos 26Moda 28Valor Esperado 28Leitura Adicional 29Correlação 30Gráficos de Dispersão 33Leitura Adicional 34Explorando Duas ou Mais Variáveis 34Compartimentação Hexagonal e Contornos (RepresentandoNuméricos versus Dados Numéricos) 35Duas Variáveis Categóricas 37Dados Categóricos e Numéricos 38Visualizando Variáveis Múltiplas 40Leitura Adicional 42Resumo 422.Distribuições de Dados e Amostras ................................................................... 43Amostragem Aleatória e Viés de Amostra 44Viés 46Seleção Aleatória 47Tamanho versus Qualidade: Quando o tamanho importa? 48Média Amostral versus Média Populacional 49Leitura Adicional 49Viés de Seleção 50Regressão à Média 51Leitura Adicional 53Distribuição de Amostragem de uma Estatística 53Teorema de Limite Central 56Erro-padrão 56Leitura Adicional 57O Bootstrap 57Reamostragem versus Bootstrapping 61Leitura Adicional 61Intervalos de Confiança 61Leitura Adicional 64Cap. de AmostraSumário | ixDistribuição Normal 65Normal Padrão e Gráficos QQ 66Distribuições de Cauda Longa 68Leitura Adicional 70Distribuição t de Student 70Leitura Adicional 73Distribuição Binomial 73Leitura Adicional 75Poisson e Distribuições Relacionadas 76Distribuições Poisson 76Distribuição Exponencial 77Estimando a Taxa de Falha 77Distribuição Weibull 78Leitura Adicional 79Resumo 793.Experimentos Estatísticos e Teste de Significância ............................................. 81Testagem A/B 82Por que Ter um Grupo de Controle? 84Por que apenas A/B? Por que Não C, D…? 85Leitura Adicional 86Testes de Hipótese 87A Hipótese Nula 88Hipótese Alternativa 89Teste de Hipótese Unilateral, Bilateral 89Leitura Adicional 90Reamostragem 91Teste de Permutação 91Exemplo: Aderência Web 92Testes de Permutação Exaustiva e Bootstrap 95Testes de Permutação: A conclusão para a Ciência de Dados 96Leitura Adicional 96Significância Estatística e Valores P 97Valor P 99Alfa 99Erros Tipo 1 e Tipo 2 101Cap. de Amostrax | SumárioCiência de Dados e Valores P 101Leitura Adicional 102Testes t 102Leitura Adicional 104Testagem Múltipla 104Leitura Adicional 108Graus de Liberdade 108Leitura Adicional 109ANOVA 110Estatística F 113ANOVA Bidirecional 114Leitura Adicional 115Teste de Qui Quadrado 115Teste de Qui Quadrado: Uma Abordagem à Reamostra 115Teste de Qui Quadrado: Teoria Estatística 117Teste Exato de Fisher 118Relevância para a Ciência de Dados 120Leitura Adicional 121Algoritmo de Bandido Multibraços 122Leitura Adicional 125Potência e Tamanho de Amostra 125Tamanho da Amostra 127Leitura Adicional 129Resumo 1294.Regressão e Previsão ......................................................................................131Regressão Linear Simples 131A Equação de Regressão 132Valores Ajustados e Resíduos 134Mínimos Quadrados 136Previsão versus Explicação (Profiling) 137Leitura Adicional 138Regressão Linear Múltipla 138Exemplo: Dados Imobiliários de King County 139Avaliando o Modelo 140Validação Cruzada 142Cap. de AmostraSumário | xiSeleção de Modelo e Regressão Passo a Passo 143Regressão Ponderada 145Previsão Usando Regressão 146Os Perigos da Extrapolação 147Intervalos de Confiança e Previsão 147Variáveis Fatoriais em Regressão 149Representação de Variáveis Fictícias 150Variáveis Fatoriais com Muitos Níveis 152Variáveis de Fator Ordenado 153Interpretando a Equação de Regressão 154Preditoras Correlacionadas 155Multicolinearidade 156Variáveis de Confundimento 157Interações e Efeitos Principais 158Testando as Suposições: Diagnósticos de Regressão 160Outliers 161Valores Influentes 163Heteroscedasticidade, Não Normalidade e Erros Correlacionados 165Gráficos Residuais Parciais e Não Linearidade 168Regressão Polinomial e Spline 170Polinomial 171Splines 172Modelos Aditivos Generalizados 174Leitura Adicional 176Resumo 1765.Classificação .................................................................................................. 177Naive Bayes 178Por que a Classificação Bayesiana Exata é Impraticável 179A Solução Naive 180Variáveis Preditoras Numéricas 182Leitura Adicional 182Análise Discriminante 183Matriz de Covariância 184Discriminante Linear de Fisher 184Um Exemplo Simples 185Leitura Adicional 187Cap. de Amostraxii | SumárioRegressão Logística 188Função de Resposta Logística e Logito 188Regressão Logística e o GLM 190Modelos Lineares Generalizados 191Valores Previstos a Partir da Regressão Logística 192Interpretando os Coeficientes e as Razões de Chances 192Regressão Linear e Logística: Semelhanças e Diferenças 194Avaliando o Modelo 195Leitura Adicional 198Avaliando Modelos de Classificação 199Matriz de Confusão 200O Problema da Classe Rara 201Precisão, Revocação e Especificidade 202Curva ROC 202AUC 204Lift 205Leitura Adicional 207Estratégias para Dados Desequilibrados 208Undersampling 208Oversampling e Ponderação Acima/Abaixo 209Geração de Dados 210Classificação Baseada em Custos 211Explorando as Previsões 212Leitura Adicional 213Resumo 2146.Aprendizado de Máquina Estatístico ................................................................215K-Vizinhos Mais Próximos 216Um Pequeno Exemplo: Prevendo Inadimplência em Empréstimos 217Métricas de Distância 219One Hot Encoder 220Padronização (Normalização, Escores Z) 221Escolhendo K 223KNN como um Motor de Característica 224Modelos de Árvore 226Um Exemplo Simples 227O Algoritmo Recursivo de Repartição 229Cap. de AmostraSumário | xiiiMedindo Homogeneidade ou Impureza 231Fazendo a Árvore Parar de Crescer 232Prevendo um Valor Contínuo 234Como as Árvores São Usadas 234Leitura Adicional 235Bagging e a Floresta Aleatória 236Bagging 237Floresta Aleatória 237Importância da Variável 241Hiperparâmetros 243Boosting 245O Algoritmo de Boosting 246XGBoost 247Regularização: Evitando Sobreajuste 248Hiperparâmetros e Validação Cruzada 252Resumo 2557.Aprendizado Não Supervisionado ................................................................... 257Análise dos Componentes Principais 258Um Exemplo Simples 259Calculando os Componentes Principais 261Interpretando os Componentes Principais 262Leitura Adicional 264Agrupamento por K-Médias 265Um Exemplo Simples 265Algoritmo de K-Médias 268Interpretando os Agrupamentos 269Escolhendo o Número de Grupos 271Agrupamento Hierárquico 273Um Exemplo Simples 274O Dendrograma 274O Algoritmo Aglomerativo 276Medidas de Dissimilaridade 276Agrupamento Baseado em Modelos 278Distribuição Normal Multivariada 278Misturas de Normais 280Selecionando o Número de Grupos 282Cap. de Amostraxiv | SumárioLeitura Adicional 284Escalonamento e Variáveis Categóricas 285Escalonando as Variáveis 285Variáveis Dominantes 287Dados Categóricos e Distância de Gower 288Problemas com Agrupamento de Dados Mistos 291Resumo 292Bibliografia ....................................................................................................293Índice ............................................................................................................295"
- Informações técnicas: Editora: Alta Books, O'Reilly Media, Título: Estatística prática para cientistas de dados, Subtítulo: 50 conceitos essenciais
- Autor: Bruce, Andrew, Bruce, Peter
- Ficha técnica: Número de páginas: 392, Edição: 1, Data de publicação: 01.07.2019, Idioma: Português, Inglês
- Código do produto: 01 - 9788550806037ISBN-10 - 855080603XGTIN-13 - 9788550806037ISBN-13 - 9788550806037
- Peso aproximado: Peso do produto: 350.0 gramas.
- Dimensões do produto: Produto: (L x A x P): 16.0 x 23.0 x 20.0 cm.