← Volver al curso: Curso Completo de Data Science en Python (Ciencia de los Datos)

Curso Completo de Machine Learning con Scikit-Learn en Python (Clasificacion de Textos)

Lección 9 de 1090%

Ya has superado la mitad. Estás muy cerca de completar el curso.

AnteriorÚltima lección - Marca como completada abajo

Sobre esta lección

En este tutorial vamos a aprender a desarrollar un modelo básico de machine learning que va a predecir el sentimiento de reviews de peliculas, lo cual es conocido como clasificación de texto. Para ello vamos a usar la libreria de Python scikit-learn (sklearn) y pandas. En este video aprenderemos a balancear data, dividir data en data para entrenar y testear, convertir data de texto a númerica, crear un modelo, seleccionar un modelo y optimizarlo (puedes encontrar la listsa completa de temas abajo) 🔗 Dataset usado en este video: https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews 👨🏻‍💻 Código usado en este video: https://github.com/ifrankandrade/data-science-projects.git 🎮 Discord (aquí puedes descargar mi formulario de Python): https://discord.gg/6xyQaj8bJK 📩 Recibe emails semanales en mi Substack: https://andradefrank.substack.com/ 📝 Puedes encontrar más información sobre este tema en este artículo que escribí: https://towardsdatascience.com/a-beginners-guide-to-text-classification-with-scikit-learn-632357e16f3a ✅ Sígueme en Medium: https://frank-andrade.medium.com/ -------------------- Contenido del video: 0:00 Intro 0:33 Leyendo y analizando la data 7:06 Balanceando la data 13:20 Dividir data para entrenar y testear 17:45 Representacion de texto (Bag of Words) 20:17 CountVectorizer 23:39 Term Frequency, Inverse Document Frequency (TF-IDF) 27:38 Convertiendo data de texto a data numérica 36:53 Seleccion del modelo 37:15 Aprendizaje supervisado vs Aprendizaje no supervisado 40:13 Support Vector Machines (SVM) 45:07 Arbol de decision (Decision Tree) 46:30 Naive Bayes 47:52 Logistic Regression 48:46 Evaluacion del modelo 49:02 Score del modelo 53:50 F1 Score 01:00:32 Reporte de clasificacion 01:05:12 Confusion Matrix 01:09:12 Optimizando el modelo (GridSearchCV)

Sobre este curso

Curso Ciencia de Datos con Python desde cero en Jupyter Notebook/Pycharm. Curso de +4 horas 100% gratuito en español desde lo más básico. En este curso aprenderemos Matplotlib, Pandas, scikit-learn, web scraping, entre otros.

Lección 9 de 10Nivel: principianteDuración total: 4h 51m

Lo que aprenderás en este curso:

Comprender los fundamentos del aprendizaje automático
Implementar algoritmos de clasificación y regresión
Preparar y limpiar datos para modelos predictivos
Evaluar y optimizar modelos de machine learning