Ciencia de datos

Impreso
Ciencia de datos

Impreso

¢19,000

    • Colaboradores
    • Carlos González Alvarado (Autor)
  • Palabras claves:


En la sociedad actual, impulsada por la capacidad computacional y el desarrollo de Internet y dispositivos móviles, se ha producido una gran acumulación de datos. Las organizaciones están enfocadas en encontrar y aplicar estrategias para gestionar eficazmente esta información, destacando el análisis y la exploración de big data. Este enfoque requiere diversas áreas como tecnología de bases de datos, inteligencia artificial, modelado matemático, estadística y visualización de datos. La ciencia de datos surge de esta convergencia de disciplinas y aún está en evolución. Este libro proporciona una introducción a las estrategias y técnicas utilizadas en este nuevo paradigma.

Actualmente vivimos en una sociedad basada en datos, donde la alta capacidad de los sistemas computacionales, así como el desarrollo de Internet y de dispositivos móviles han hecho posible la acumulación de ingentes volúmenes de datos. En este contexto, las diferentes organizaciones se ven estimuladas en la búsqueda y utilización de mecanismos y estrategias para administrarlos adecuadamente. De esta manera, lo que sobresale hoy es pasar al análisis y a la exploración de los llamados big data. Para ello se requieren diferentes áreas como la tecnología de bases de datos, la inteligencia artificial, el modelado matemático, la estadística y la visualización de los datos, entre otras. Y es precisamente en esta conjunción de ciencias y tecnologías que aparece la ciencia de datos, concepto que aún se encuentra en proceso de maduración. Este libro sirve como una introducción para comprender diferentes estrategias y técnicas que se están utilizando en ese nuevo paradigma.

Prefacio 

Los mayas

Agradecimientos

1. Conceptos matemáticos

1.1 Probabilidad y estadística

1.2 Álgebra lineal

1.3 Teoría de grafos

1.4 Diagramas de Voronói

1.5 Regresión lineal

2. Introducción a la ciencia de datos

2.1 Sociedad basada en los datos

2.2 Tendencias orientadas a los datos

2.3 ¿Qué es la minería de datos?

2.3.1 Un poco de historia sobre la creación y manejo de datos

2.3.2 Definición de minería de datos

2.4 Aplicaciones de la minería de datos

2.4.1 Aplicaciones de ventas al detalle

2.4.2 Aplicaciones científicas

2.4.3 Aplicaciones financieras

2.4.4 Aplicaciones deportivas

2.4.5 Aplicaciones en salud

2.4.6 Aplicaciones en internet

8 Carlos A. González A.

2.5 Las fases de un proyecto de minería de datos

2.6 Minería de datos y aprendizaje automático

2.7 Ejercicios

3. Los datos y su similitud

3.1 Introducción

3.2 Tipos de variables

3.2.1 Variable nominal

3.2.2 Variable binaria

3.2.3 Variable ordinal

3.2.4 Variable de intervalo

3.2.5 Variable de razón

3.3 Distancia entre objetos

3.3.1 Distancias entre objetos con variables numéricas

3.3.2 Distancia entre objetos con variables binarias

3.3.3 Distancia entre objetos con variables nominales

3.3.4 Distancia entre objetos con variables ordinales

3.3.5 Distancia de Mahalanobis

3.4 Tipos de datos

3.4.1 Datos temporales

3.4.2 Flujos de datos

Minado de flujos de datos

3.4.3 Secuencias de datos

3.4.4 Datos espaciales

3.4.5 Datos tipo grafo

3.5 Distancias entre objetos de otras áreas del saber

3.6 Ejercicios

4. Preparación de los datos

4.1 La necesidad de preparar los datos

4.2 Discretización de los datos

4.3 Integración de datos

4.3.1 Integración de contenido y estructuras

4.3.2 Prueba de correlación para variables nominales

4.3.3 Correlación para variables numéricas

4.4 Limpieza de los datos

4.4.1 Valores faltantes

4.4.2 Inconsistencia de datos

4.4.3 Pulir datos con ruido

4.4.4 Análisis de valores atípicos

4.4.5 Análisis de agrupamientos

4.5 Transformación de datos

4.5.1 Normalización de datos

4.5.2 Variables derivadas

4.5.3 Agregación

4.6 Reducción de datos

4.6.1 Reducción del número de variables

4.6.2 Análisis de componentes principales

4.6.3 Reducción del número de tuplas

4.6.4 Reducción del número de valores

4.7 Ejercicios

5. Bases de datos multidimensionales

5.1 Introducción

5.2 Sistemas OLAP

5.3 Conceptos básicos

5.4 Álgebra de operaciones

5.4.1 Drill-down

5.4.2 Roll-up

5.4.3 Slice

5.4.4 Dice

5.4.5 Pivot

5.5 Arquitectura de un cubo

5.5.1 MOLAP

5.5.2 ROLAP

5.5.3 HOLAP

5.5.4 DOLAP

5.6 Esquema multidimensional

5.6.1 Esquema estrella

5.6.2 Esquema copo de nieve

5.6.3 Esquema constelación

5.7 Ejercicios

6. Data warehouses y mercados de datos

6.1 Del porqué de un data warehouse

6.2 ¿Qué es un DW?

6.3 Diseño de los DW

6.3.1 Metodología Inmon

6.3.2 Metodología Kimball

6.4 Mercados de datos

6.5 Lagos de datos

6.6 Ejercicios

7. Big data

7.1 Introducción

7.2 Big data

7.3 Ambiente de los big data

7.3.1 Volumen

7.3.2 Velocidad

7.3.3 Variedad

7.3.4 Veracidad

7.3.5 Valor

7.3.6 Visualización

7.4 Clúster de servidores

7.5 Hadoop

7.5.1 HDFS

7.5.2 MapReduce

7.6 Sistemas NoSQL

7.6.1 Bases de datos llave-valor

7.6.2 Bases de datos de documentos

7.6.3 Bases de datos orientadas a columnas

7.6.4 Bases de datos orientadas a grafos

7.7 Teorema CAP

7.8 Ejercicios

8. Visualización de datos

8.1 Introducción

8.1.1 Recorrido histórico

8.2 Minería visual de datos

8.3 Visualización de volúmenes pequeños de datos

8.3.1 Gráficos de líneas

8.3.2 Gráficos de área

8.3.3 Diagrama de tallo y hojas

8.3.4 Histogramas

8.3.5 Diagramas de caja y bigotes

8.3.6 Gráficos circulares

8.3.7 Gráficos de dispersión o de nubes de puntos

8.4 Visualización de datos n-dimensionales

8.4.1 Coordenadas paralelas

8.4.2 Gráfico de radar

8.4.3 Caras de Chernoff

8.4.4 Representación mediante grafos

8.5 Visualización de los big data

8.6 Algunas herramientas de visualización

8.6.1 Tableau

8.6.2 Gephi

8.6.3 CartoDB

8.7 Ejercicios

9. Análisis de agrupamientos

9.1 Conceptos básicos

9.2 Principales métodos de agrupamiento

9.2.1 Métodos jerárquicos

9.2.2 Métodos por particionamiento

9.2.3 Métodos por densidad

9.3 Agrupamiento difuso

9.3.1 El algoritmo c-means difuso

Ejercicios

10. Reglas de asociación

10.1 Conceptos básicos

10.2 El principio de la frecuencia e infrecuencia

10.3 El algoritmo a priori

10.4 Algoritmo FP-Growth

10.5 Reglas de asociación en el tiempo

10.6 Ejercicios

11. Clasificación

11.1 Introducción

11.2 Teorema de Bayes

11.3 Redes bayesianas

11.4 Vecino más cercano

11.5 Árboles de decisión

11.3.1 Entropía

11.3.2 Índice de Gini

11.3.3 Score de Fisher

11.6 Máquinas de soporte vectorial

11.7.1 Caso de los datos linealmente separables

11.7.2 Caso de los datos no linealmente separables

11.7 El problema del ajuste

11.8 Árboles aleatorios

11.9 Validación del modelo

11.9.1 Validación cruzada

11.9.2 Método bootstrap

11.10 Ejercicios

12. Otros métodos para la clasificación

12.1 Conjuntos aproximados

12.2 Conjuntos difusos

12.3 Redes neuronales

12.4 Algoritmos genéticos

12.4.1 Selección

12.4.2 Hibridación

12.4.3 Mutación

12.5 Curva ROC

12.6 Ejercicios

13. Detección de anomalías.

13.1 Introducción

13.1.1 ¿Qué es un solitario?

13.1.2 Tipos de datos solitarios

13.2 Detección de solitarios por técnicas estadísticas

13.2.1 Métodos paramétricos

13.2.2. Métodos no paramétricos

13.3 Detección de solitarios por clasificación

13.3.1 Detección de solitarios por redes bayesianas

13.3.2 Detección de solitarios por distancia

13.3.3 Detección de solitarios por árboles de decisión

13.4 Detección de solitarios por agrupamientos

13.5 Ejercicios

14. Minería de texto

14.1 Introducción

14.2 Mecanismos básicos para recuperar texto

14.3 Modelo booleano

14.4 Modelo vectorial

14.5 Modelo probabilístico

14.6 Reglas de asociación y minado de texto

14.7 Visualización de texto

14.7.1 TextArc

14.7.2 Wordle

14.7.3 VOSviewer

14.8 Ejercicios

Referencias

Index

  • COM014000 ORDENADORES > Ciencias de la Computación (Principal)
  • 651.8 Tecnología (ciencias aplicadas) > Gestión y servicios auxiliares > Servicios de oficina > Procesamiento de datos Aplicaciones informáticas (Principal)
Estado: Activo
ISBN-13: 9789977665344
Tipo de contenido principal: Imágenes fijas / gráficos
Tipo de contenido del producto: Imágenes, diagramas, esquemas gráficos
Idioma del texto: Español
Tamaño: 16.51 x 21.59 x 2 cm
Peso: 0.6 kg
Número absoluto de páginas: 424 Páginas
Sello editorial: Editorial Tecnológica de Costa Rica
Tipo de edición: Nueva edición
Número de edición: 1
Ciudad de publicación: Cartago
País de publicación: Costa Rica
Fecha de publicación: 2023
Tipo de restricción de venta: Exclusivo para un punto o canal de venta
Editorial directamente a usuarios finales: Editorial Tecnológica de Costa Rica
Disponibilidad del producto: Disponible. Sin detalles.
Precio: (CRC) 19000


Destinatarios del contenido: Sin restricción

  • - Tablas en blanco y negro