← Volver al curso: Ciencia de Datos | Data Science | Python

La Trampa Oculta que Sabotea tu Modelo de Machine Learning: FUGA DE DATOS

Lección 110 de 11794%

Ya has superado la mitad. Estás muy cerca de completar el curso.

Sobre esta lección

Uno de los problemas más frecuentes cuando estamos creando/entrenando modelos de aprendizaje de máquina es que sobreestimamos su poder de predicción o clasificación. Esto se da por múltiples razones, una de ellas es la Fuga de Datos. La fuga de datos ocurre cuando información del conjunto de prueba se filtra en el proceso de entrenamiento. Este video explica una de las formas más comunes de fuga de datos que se da en el pre-procesamiento de los datos. 👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en https://www.xiperia.com ℹ️ Octavio Gutiérrez es el único responsable del contenido, afirmaciones y opiniones expresadas en este video, las cuales no están vinculadas a las organizaciones a las que está asociado. 🌐 Para conocer más sobre Octavio Gutiérrez, visita su perfil en LinkedIn https://www.linkedin.com/in/octaviogutierrez/ Para citar este recurso educativo utiliza la siguiente referencia: Gutiérrez-García, J.O. [Código Máquina]. (2025, 13 de Octubre). La Trampa Oculta que Sabotea tu Modelo de Machine Learning: Fuga de Datos [Video]. YouTube. [Incluye aquí la URL del video] ******************************************** Para guiar tu aprendizaje, en este vínculo (https://youtu.be/lomJnbN5Wnk) se encuentra una guía secuencial para aprender: 1. Programación Básica con Python; 2. Manejo de Datos; 3. Visualización de Datos; 4. Análisis de Datos; y 5. Aprendizaje de Máquina y Ciencia de Datos. ******************************************** Índice del Video: 0:00 Qué es una fuga de datos 1:11 Fuga de datos por escalamiento 1:42 Por qué se necesita escalar 4:04 Conjuntos de datos para entrenar y evaluar 4:57 Por qué se genera una fuga de datos 7:48 Cómo evitar la fuga de datos ⭐ Apoya a Código Máquina dando un Like, Comentando, Compartiendo o con un Super Gracias. ⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI: https://www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln #DataScience #MachineLearning #IA #AI #CienciaDeDatos #InteligenciaArtificial #AprendizajeAutomático #AprendizajeDeMaquina #DeepLearning #AprendizajeProfundo

Sobre este curso

Esta serie de videos explica los siguientes temas dentro del dominio de la ciencia de datos o data science: - Imputación o manejo de datos faltantes - Codificación de datos categóricos - Técnicas de escalamiento, normalización y estandarización. - Validación cruzada (cross-validation) - Ajuste de hiperparámetros - Técnicas para lidiar con clases desbalanceadas - Distribución de datos e histogramas - Detección de datos anómalos con diagramas de caja y la regla de Tukey - Detección de datos anómalos con iForests (bosques de aislamiento) - Regresión lineal - K-vecinos más cercanos para clasificación - K-vecinos más cercanos para regresión. - Conjuntos de clasificadores o regresores (Bagging) - Regresión logística - Impureza Gini - Bosques aleatorios para clasificación - Objetivos de los conjuntos de datos para entrenamiento, validación y prueba - La maldición de la dimensionalidad - Fuentes de datos - Detección de clusters con k-means - Detección de clusters con DBSCAN - Tipos de distancias para Clustering - Métricas de regresión. - Visualización de datos con matplotlib - Manejo y análisis de datos con pandas Las librerías que se utilizan son scikit-learn (sklearn), matplotlib, numpy y pandas.

Lección 110 de 117Nivel: principianteDuración total: 41h 39m

Lo que aprenderás en este curso:

Comprender el proceso completo de análisis de datos
Recopilar, limpiar y transformar conjuntos de datos
Crear visualizaciones de datos informativas y atractivas
Aplicar estadística descriptiva e inferencial