Data Science
Machine Learning
``
Recursos y Referencias
- mates
- Data Science
- Deep Learning
- pandas
- python
- TensorFlow
- pytorch
- Que debes saber para machine learning (Roadmap) - YouTube
Librerías y Herramientas
- numpy: Manipulación de arrays y operaciones matemáticas.
- matplotlib: Visualización de datos estática.
- seaborn: Visualización estadística basada en matplotlib.
Conceptos Fundamentales
- Regresión vs Redes Neuronales:
- La regresión lineal y logística es adecuada para problemas simples y lineales.
- Las redes neuronales permiten modelar relaciones no lineales complejas, siendo útiles en problemas de visión, lenguaje y series temporales.
- LLM (Large Language Models): Modelos de lenguaje de gran escala capaces de generar texto, resumir, traducir y responder preguntas complejas.
Procesos en Machine Learning
- Preparación de Datos: Limpieza, normalización, transformación y división en conjuntos de entrenamiento y prueba.
- Selección de Modelo: Elegir entre modelos supervisados, no supervisados o de refuerzo según el problema.
- Entrenamiento: Ajuste de los parámetros del modelo mediante algoritmos de optimización.
- Evaluación: Medición del desempeño usando métricas adecuadas (precisión, recall, F1, RMSE).
- Despliegue: Integración del modelo en entornos productivos para inferencia en tiempo real o batch.
Tipos de Modelos ML
- Supervisado: Modelos entrenados con datos etiquetados.
- Ejemplos: Regresión lineal, regresión logística, árboles de decisión, SVM.
- No Supervisado: Modelos que buscan patrones sin etiquetas.
- Ejemplos: K-means, PCA, clustering jerárquico.
- Aprendizaje por Refuerzo: El modelo aprende mediante interacción con el entorno y recompensas.
- Modelos de ML Supervisados de Alta Precisión (mp supervisado): Modelos optimizados con técnicas de regularización, ensambles y validación cruzada.
Redes Neuronales
- Arquitecturas Básicas: Perceptrón, MLP (Multi-Layer Perceptron).
- Redes Convolucionales (CNN): Para visión por computadora.
- Redes Recurrentes (RNN/LSTM/GRU): Para secuencias y series temporales.
- Transformers: Base de LLM y tareas de NLP modernas.
Ensemble Learning
- Bagging: Promedia o vota múltiples modelos independientes (Ej. Random Forest).
- Boosting: Entrena modelos secuenciales corrigiendo errores previos (Ej. XGBoost, AdaBoost).
- Stacking: Combina diferentes tipos de modelos para mejorar la predicción final.
Buenas Prácticas
- Normalizar y escalar los datos cuando sea necesario.
- Evitar overfitting usando regularización y validación cruzada.
- Evaluar el modelo con métricas adecuadas según el tipo de problema.
- Documentar el flujo completo de datos y experimentos para reproducibilidad.
Machine Learning Avanzado
Conceptos Teóricos Clave
- Overfitting y Underfitting:
- Overfitting: Modelo se ajusta demasiado a los datos de entrenamiento, perdiendo capacidad de generalización.
- Underfitting: Modelo demasiado simple que no captura patrones relevantes de los datos.
- Bias y Variance:
- Bias: Error por suposiciones del modelo, conduce a underfitting.
- Variance: Sensibilidad del modelo a cambios en los datos, conduce a overfitting.
- Trade-off bias-variance: Balance necesario para un modelo generalizable.
- Funciones de Pérdida:
- Regresión: MSE, MAE.
- Clasificación: Cross-Entropy, Hinge Loss.
- Optimización y Algoritmos de Aprendizaje:
- Gradiente descendente y variantes: SGD, Adam, RMSProp.
- Regularización: L1, L2, Dropout, Early Stopping.
Pipeline de Machine Learning
- Extracción de Características (Feature Engineering): Transformar datos crudos en variables útiles.
- Selección de Características (Feature Selection): Reducir dimensionalidad y eliminar variables irrelevantes.
- Escalado y Normalización: Min-Max, StandardScaler, RobustScaler.
- Validación Cruzada: K-Fold, Stratified K-Fold para medir desempeño de forma robusta.
- Tuning de Hiperparámetros: Grid Search, Random Search, Bayesian Optimization.
Modelos Avanzados y Técnicas
- Redes Profundas (Deep Learning):
- Arquitecturas: CNN, RNN, LSTM, GRU, Transformers.
- Técnicas de regularización: Dropout, Batch Normalization.
- Transfer Learning: Reutilización de modelos preentrenados.
- Modelos Probabilísticos:
- Naive Bayes, Gaussian Mixture Models, HMM.
- Aprendizaje No Supervisado Avanzado:
- Clustering jerárquico, DBSCAN, t-SNE y UMAP para reducción de dimensionalidad.
- Ensemble Learning Avanzado:
- Bagging, Boosting, Stacking, Blending.
Interpretabilidad y Explicabilidad
- SHAP y LIME: Técnicas para explicar predicciones de modelos complejos.
- Feature Importance: Evaluación de la relevancia de cada característica en la predicción.
- Modelos Transparentes: Árboles de decisión y regresión lineal como referencia para entender patrones.
Herramientas y Ecosistema
- Frameworks ML/DL: TensorFlow, PyTorch, Keras, Scikit-Learn, XGBoost, LightGBM.
- Data Handling: Pandas, Numpy, Dask (para grandes volúmenes de datos).
- Visualización: Matplotlib, Seaborn, Plotly, Altair.
- ML Ops y Producción: MLflow, Kubeflow, Airflow, TFX para pipelines de producción.
Aplicaciones Comunes
- Predicción de series temporales: finanzas, clima, demanda de productos.
- Clasificación de imágenes: diagnóstico médico, reconocimiento facial.
- Procesamiento de lenguaje natural: chatbots, análisis de sentimientos, traducción automática.
- Recomendaciones: sistemas de recomendación de productos o contenidos.
- Modelos generativos: generación de texto, imágenes, audio con LLM o GANs.
Buenas Prácticas y Recomendaciones
- Documentar el flujo completo de datos y modelos para reproducibilidad.
- Mantener control de versiones de datos y modelos (Data Versioning).
- Monitoreo continuo de modelos en producción para detectar drift.
- Experimentación controlada con métricas claras y comparables.
¿Te gusta este contenido? Suscríbete vía RSS