Qué son los Datos Desbalanceados y Cómo balancearlos usando Submuestreo y Sobremuestreo con Python
Ya has superado la mitad. Estás muy cerca de completar el curso.
Sobre esta lección
Un problema de clasificación que frecuentemente se presenta en contextos reales: es tener datos desbalanceados, lo cual sesga la creación de clasificadores de aprendizaje de máquina. En este video se explica en qué consiste el problema de los datos desbalanceados y cómo resolverlo utilizando submuestreo y sobremuestreo. 👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en https://www.xiperia.com ℹ️ Octavio Gutiérrez es el único responsable del contenido, afirmaciones y opiniones expresadas en este video, las cuales no están vinculadas a las organizaciones a las que está asociado. 🌐 Para conocer más sobre Octavio Gutiérrez, visita su perfil en LinkedIn https://www.linkedin.com/in/octaviogutierrez/ Para citar este recurso educativo utiliza la siguiente referencia: Gutiérrez-García, J.O. [Código Máquina]. (2023, 7 de Agosto). Qué son los Datos Desbalanceados y Cómo balancearlos usando Submuestreo y Sobremuestreo con Python [Video]. YouTube. [Incluye aquí la URL del video]. ******************************************** Para guiar tu aprendizaje, en este vínculo (https://youtu.be/lomJnbN5Wnk) se encuentra una guía secuencial para aprender: 1. Programación Básica con Python; 2. Manejo de Datos; 3. Visualización de Datos; 4. Análisis de Datos; y 5. Aprendizaje de Máquina y Ciencia de Datos. ******************************************** Índice del Video: 0:00 Introducción 2:00 Contexto: datos de cáncer mama 3:34 Datos desbalanceados 4:19 Submuestreo 6:22 Sobremuestreo 7:30 Creación de Clasificadores 12:58 Manejo de Datos Desbalanceados con python Si este video y tema fue de tu interés, también tenemos otro video donde describimos otra técnica para lidiar con el problema de datos desbalanceados: https://youtu.be/2FbugqoBz94 ⭐ Apoya a Código Máquina dando un Like, Comentando, Compartiendo o con un Super Gracias. ⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI: https://www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln El código del video está disponible en GitHub https://github.com/CodigoMaquina/code #DataScience #aprendizajeautomático #MachineLearning #AprendizajeDeMaquina #ScikitLearn #SkLearn #CienciaDeDatos
Sobre este curso
Esta serie de videos explica los siguientes temas dentro del dominio de la ciencia de datos o data science: - Imputación o manejo de datos faltantes - Codificación de datos categóricos - Técnicas de escalamiento, normalización y estandarización. - Validación cruzada (cross-validation) - Ajuste de hiperparámetros - Técnicas para lidiar con clases desbalanceadas - Distribución de datos e histogramas - Detección de datos anómalos con diagramas de caja y la regla de Tukey - Detección de datos anómalos con iForests (bosques de aislamiento) - Regresión lineal - K-vecinos más cercanos para clasificación - K-vecinos más cercanos para regresión. - Conjuntos de clasificadores o regresores (Bagging) - Regresión logística - Impureza Gini - Bosques aleatorios para clasificación - Objetivos de los conjuntos de datos para entrenamiento, validación y prueba - La maldición de la dimensionalidad - Fuentes de datos - Detección de clusters con k-means - Detección de clusters con DBSCAN - Tipos de distancias para Clustering - Métricas de regresión. - Visualización de datos con matplotlib - Manejo y análisis de datos con pandas Las librerías que se utilizan son scikit-learn (sklearn), matplotlib, numpy y pandas.
Lo que aprenderás en este curso:
- Comprender el proceso completo de análisis de datos
- Recopilar, limpiar y transformar conjuntos de datos
- Crear visualizaciones de datos informativas y atractivas
- Aplicar estadística descriptiva e inferencial