En la sociedad actual, impulsada por la capacidad computacional y el desarrollo de Internet y dispositivos móviles, se ha producido una gran acumulación de datos. Las organizaciones están enfocadas en encontrar y aplicar estrategias para gestionar eficazmente esta información, destacando el análisis y la exploración de big data. Este enfoque requiere diversas áreas como tecnología de bases de datos, inteligencia artificial, modelado matemático, estadística y visualización de datos. La ciencia de datos surge de esta convergencia de disciplinas y aún está en evolución. Este libro proporciona una introducción a las estrategias y técnicas utilizadas en este nuevo paradigma.
Actualmente vivimos en una sociedad basada en datos, donde la alta capacidad de los sistemas computacionales, así como el desarrollo de Internet y de dispositivos móviles han hecho posible la acumulación de ingentes volúmenes de datos. En este contexto, las diferentes organizaciones se ven estimuladas en la búsqueda y utilización de mecanismos y estrategias para administrarlos adecuadamente. De esta manera, lo que sobresale hoy es pasar al análisis y a la exploración de los llamados big data. Para ello se requieren diferentes áreas como la tecnología de bases de datos, la inteligencia artificial, el modelado matemático, la estadística y la visualización de los datos, entre otras. Y es precisamente en esta conjunción de ciencias y tecnologías que aparece la ciencia de datos, concepto que aún se encuentra en proceso de maduración. Este libro sirve como una introducción para comprender diferentes estrategias y técnicas que se están utilizando en ese nuevo paradigma.
Prefacio
Los mayas
Agradecimientos
1. Conceptos matemáticos
1.1 Probabilidad y estadística
1.2 Álgebra lineal
1.3 Teoría de grafos
1.4 Diagramas de Voronói
1.5 Regresión lineal
2. Introducción a la ciencia de datos
2.1 Sociedad basada en los datos
2.2 Tendencias orientadas a los datos
2.3 ¿Qué es la minería de datos?
2.3.1 Un poco de historia sobre la creación y manejo de datos
2.3.2 Definición de minería de datos
2.4 Aplicaciones de la minería de datos
2.4.1 Aplicaciones de ventas al detalle
2.4.2 Aplicaciones científicas
2.4.3 Aplicaciones financieras
2.4.4 Aplicaciones deportivas
2.4.5 Aplicaciones en salud
2.4.6 Aplicaciones en internet
8 Carlos A. González A.
2.5 Las fases de un proyecto de minería de datos
2.6 Minería de datos y aprendizaje automático
2.7 Ejercicios
3. Los datos y su similitud
3.1 Introducción
3.2 Tipos de variables
3.2.1 Variable nominal
3.2.2 Variable binaria
3.2.3 Variable ordinal
3.2.4 Variable de intervalo
3.2.5 Variable de razón
3.3 Distancia entre objetos
3.3.1 Distancias entre objetos con variables numéricas
3.3.2 Distancia entre objetos con variables binarias
3.3.3 Distancia entre objetos con variables nominales
3.3.4 Distancia entre objetos con variables ordinales
3.3.5 Distancia de Mahalanobis
3.4 Tipos de datos
3.4.1 Datos temporales
3.4.2 Flujos de datos
Minado de flujos de datos
3.4.3 Secuencias de datos
3.4.4 Datos espaciales
3.4.5 Datos tipo grafo
3.5 Distancias entre objetos de otras áreas del saber
3.6 Ejercicios
4. Preparación de los datos
4.1 La necesidad de preparar los datos
4.2 Discretización de los datos
4.3 Integración de datos
4.3.1 Integración de contenido y estructuras
4.3.2 Prueba de correlación para variables nominales
4.3.3 Correlación para variables numéricas
4.4 Limpieza de los datos
4.4.1 Valores faltantes
4.4.2 Inconsistencia de datos
4.4.3 Pulir datos con ruido
4.4.4 Análisis de valores atípicos
4.4.5 Análisis de agrupamientos
4.5 Transformación de datos
4.5.1 Normalización de datos
4.5.2 Variables derivadas
4.5.3 Agregación
4.6 Reducción de datos
4.6.1 Reducción del número de variables
4.6.2 Análisis de componentes principales
4.6.3 Reducción del número de tuplas
4.6.4 Reducción del número de valores
4.7 Ejercicios
5. Bases de datos multidimensionales
5.1 Introducción
5.2 Sistemas OLAP
5.3 Conceptos básicos
5.4 Álgebra de operaciones
5.4.1 Drill-down
5.4.2 Roll-up
5.4.3 Slice
5.4.4 Dice
5.4.5 Pivot
5.5 Arquitectura de un cubo
5.5.1 MOLAP
5.5.2 ROLAP
5.5.3 HOLAP
5.5.4 DOLAP
5.6 Esquema multidimensional
5.6.1 Esquema estrella
5.6.2 Esquema copo de nieve
5.6.3 Esquema constelación
5.7 Ejercicios
6. Data warehouses y mercados de datos
6.1 Del porqué de un data warehouse
6.2 ¿Qué es un DW?
6.3 Diseño de los DW
6.3.1 Metodología Inmon
6.3.2 Metodología Kimball
6.4 Mercados de datos
6.5 Lagos de datos
6.6 Ejercicios
7. Big data
7.1 Introducción
7.2 Big data
7.3 Ambiente de los big data
7.3.1 Volumen
7.3.2 Velocidad
7.3.3 Variedad
7.3.4 Veracidad
7.3.5 Valor
7.3.6 Visualización
7.4 Clúster de servidores
7.5 Hadoop
7.5.1 HDFS
7.5.2 MapReduce
7.6 Sistemas NoSQL
7.6.1 Bases de datos llave-valor
7.6.2 Bases de datos de documentos
7.6.3 Bases de datos orientadas a columnas
7.6.4 Bases de datos orientadas a grafos
7.7 Teorema CAP
7.8 Ejercicios
8. Visualización de datos
8.1 Introducción
8.1.1 Recorrido histórico
8.2 Minería visual de datos
8.3 Visualización de volúmenes pequeños de datos
8.3.1 Gráficos de líneas
8.3.2 Gráficos de área
8.3.3 Diagrama de tallo y hojas
8.3.4 Histogramas
8.3.5 Diagramas de caja y bigotes
8.3.6 Gráficos circulares
8.3.7 Gráficos de dispersión o de nubes de puntos
8.4 Visualización de datos n-dimensionales
8.4.1 Coordenadas paralelas
8.4.2 Gráfico de radar
8.4.3 Caras de Chernoff
8.4.4 Representación mediante grafos
8.5 Visualización de los big data
8.6 Algunas herramientas de visualización
8.6.1 Tableau
8.6.2 Gephi
8.6.3 CartoDB
8.7 Ejercicios
9. Análisis de agrupamientos
9.1 Conceptos básicos
9.2 Principales métodos de agrupamiento
9.2.1 Métodos jerárquicos
9.2.2 Métodos por particionamiento
9.2.3 Métodos por densidad
9.3 Agrupamiento difuso
9.3.1 El algoritmo c-means difuso
Ejercicios
10. Reglas de asociación
10.1 Conceptos básicos
10.2 El principio de la frecuencia e infrecuencia
10.3 El algoritmo a priori
10.4 Algoritmo FP-Growth
10.5 Reglas de asociación en el tiempo
10.6 Ejercicios
11. Clasificación
11.1 Introducción
11.2 Teorema de Bayes
11.3 Redes bayesianas
11.4 Vecino más cercano
11.5 Árboles de decisión
11.3.1 Entropía
11.3.2 Índice de Gini
11.3.3 Score de Fisher
11.6 Máquinas de soporte vectorial
11.7.1 Caso de los datos linealmente separables
11.7.2 Caso de los datos no linealmente separables
11.7 El problema del ajuste
11.8 Árboles aleatorios
11.9 Validación del modelo
11.9.1 Validación cruzada
11.9.2 Método bootstrap
11.10 Ejercicios
12. Otros métodos para la clasificación
12.1 Conjuntos aproximados
12.2 Conjuntos difusos
12.3 Redes neuronales
12.4 Algoritmos genéticos
12.4.1 Selección
12.4.2 Hibridación
12.4.3 Mutación
12.5 Curva ROC
12.6 Ejercicios
13. Detección de anomalías.
13.1 Introducción
13.1.1 ¿Qué es un solitario?
13.1.2 Tipos de datos solitarios
13.2 Detección de solitarios por técnicas estadísticas
13.2.1 Métodos paramétricos
13.2.2. Métodos no paramétricos
13.3 Detección de solitarios por clasificación
13.3.1 Detección de solitarios por redes bayesianas
13.3.2 Detección de solitarios por distancia
13.3.3 Detección de solitarios por árboles de decisión
13.4 Detección de solitarios por agrupamientos
13.5 Ejercicios
14. Minería de texto
14.1 Introducción
14.2 Mecanismos básicos para recuperar texto
14.3 Modelo booleano
14.4 Modelo vectorial
14.5 Modelo probabilístico
14.6 Reglas de asociación y minado de texto
14.7 Visualización de texto
14.7.1 TextArc
14.7.2 Wordle
14.7.3 VOSviewer
14.8 Ejercicios
Referencias
Index
Destinatarios del contenido: Sin restricción