Machine Learning

Recursos y Referencias

Regresión vs Redes Neuronales:
- La regresión lineal y logística es adecuada para problemas simples y lineales.
- Las redes neuronales permiten modelar relaciones no lineales complejas, siendo útiles en problemas de visión, lenguaje y series temporales.
LLM (Large Language Models): Modelos de lenguaje de gran escala capaces de generar texto, resumir, traducir y responder preguntas complejas.

Preparación de Datos: Limpieza, normalización, transformación y división en conjuntos de entrenamiento y prueba.
Selección de Modelo: Elegir entre modelos supervisados, no supervisados o de refuerzo según el problema.
Entrenamiento: Ajuste de los parámetros del modelo mediante algoritmos de optimización.
Evaluación: Medición del desempeño usando métricas adecuadas (precisión, recall, F1, RMSE).
Despliegue: Integración del modelo en entornos productivos para inferencia en tiempo real o batch.

Supervisado: Modelos entrenados con datos etiquetados.
- Ejemplos: Regresión lineal, regresión logística, árboles de decisión, SVM.
No Supervisado: Modelos que buscan patrones sin etiquetas.
- Ejemplos: K-means, PCA, clustering jerárquico.
Aprendizaje por Refuerzo: El modelo aprende mediante interacción con el entorno y recompensas.
Modelos de ML Supervisados de Alta Precisión (mp supervisado): Modelos optimizados con técnicas de regularización, ensambles y validación cruzada.

Bagging: Promedia o vota múltiples modelos independientes (Ej. Random Forest).
Boosting: Entrena modelos secuenciales corrigiendo errores previos (Ej. XGBoost, AdaBoost).
Stacking: Combina diferentes tipos de modelos para mejorar la predicción final.

Overfitting y Underfitting:
- Overfitting: Modelo se ajusta demasiado a los datos de entrenamiento, perdiendo capacidad de generalización.
- Underfitting: Modelo demasiado simple que no captura patrones relevantes de los datos.
Bias y Variance:
- Bias: Error por suposiciones del modelo, conduce a underfitting.
- Variance: Sensibilidad del modelo a cambios en los datos, conduce a overfitting.
- Trade-off bias-variance: Balance necesario para un modelo generalizable.
Funciones de Pérdida:
- Regresión: MSE, MAE.
- Clasificación: Cross-Entropy, Hinge Loss.
Optimización y Algoritmos de Aprendizaje:
- Gradiente descendente y variantes: SGD, Adam, RMSProp.
- Regularización: L1, L2, Dropout, Early Stopping.

Extracción de Características (Feature Engineering): Transformar datos crudos en variables útiles.
Selección de Características (Feature Selection): Reducir dimensionalidad y eliminar variables irrelevantes.
Escalado y Normalización: Min-Max, StandardScaler, RobustScaler.
Validación Cruzada: K-Fold, Stratified K-Fold para medir desempeño de forma robusta.
Tuning de Hiperparámetros: Grid Search, Random Search, Bayesian Optimization.

Redes Profundas (Deep Learning):
- Arquitecturas: CNN, RNN, LSTM, GRU, Transformers.
- Técnicas de regularización: Dropout, Batch Normalization.
- Transfer Learning: Reutilización de modelos preentrenados.
Modelos Probabilísticos:
- Naive Bayes, Gaussian Mixture Models, HMM.
Aprendizaje No Supervisado Avanzado:
- Clustering jerárquico, DBSCAN, t-SNE y UMAP para reducción de dimensionalidad.
Ensemble Learning Avanzado:
- Bagging, Boosting, Stacking, Blending.

SHAP y LIME: Técnicas para explicar predicciones de modelos complejos.
Feature Importance: Evaluación de la relevancia de cada característica en la predicción.
Modelos Transparentes: Árboles de decisión y regresión lineal como referencia para entender patrones.

Frameworks ML/DL: TensorFlow, PyTorch, Keras, Scikit-Learn, XGBoost, LightGBM.
Data Handling: Pandas, Numpy, Dask (para grandes volúmenes de datos).
Visualización: Matplotlib, Seaborn, Plotly, Altair.
ML Ops y Producción: MLflow, Kubeflow, Airflow, TFX para pipelines de producción.

Predicción de series temporales: finanzas, clima, demanda de productos.
Clasificación de imágenes: diagnóstico médico, reconocimiento facial.
Procesamiento de lenguaje natural: chatbots, análisis de sentimientos, traducción automática.
Recomendaciones: sistemas de recomendación de productos o contenidos.
Modelos generativos: generación de texto, imágenes, audio con LLM o GANs.