# Alineaci√≥n de Preferencias con Optimizaci√≥n de Preferencia Directa (Direct Preference Optimization (DPO))

Este notebook te guiar√° a trav√©s del proceso de fine-tuning de un modelo de lenguaje utilizando Optimizaci√≥n de Preferencia Directa (Direct Preference Optimization (DPO)). Usaremos el modelo SmolLM2-135M-Instruct, que ya ha pasado por un entrenamiento SFT, por lo que es compatible con DPO. Tambi√©n puedes usar el modelo que entrenaste en [1_instruction_tuning](../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb).

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
     <h2 style='margin: 0;color:blue'>Ejercicio: Alineando SmolLM2 con DPOTrainer</h2>
     <p>Toma un dataset del Hub de Hugging Face y alinea un modelo sobre √©l.</p> 
     <p><b>Niveles de dificultad</b></p>
     <p>üê¢ Usa el dataset `trl-lib/ultrafeedback_binarized`</p>
     <p>üêï Prueba el dataset `argilla/ultrafeedback-binarized-preferences`</p>
     <p>ü¶Å Selecciona un dataset relacionado con un caso de uso real que te interese, o usa el modelo que entrenaste en 
        <a href="../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb">1_instruction_tuning</a></p>
</div>


In [None]:
# Instala los requisitos en Google Colab
# !pip install transformers datasets trl huggingface_hub

# Autenticaci√≥n en Hugging Face

from huggingface_hub import login

login()

# Para conveniencia, puedes crear una variable de entorno que contenga tu token de Hugging Face como HF_TOKEN

## Importa las libraries


In [None]:
import torch
import os
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from trl import DPOTrainer, DPOConfig

## Formatea el conjunto de datos

In [None]:
# Carga el conjunto de datos

# TODO: ü¶Åüêï cambia el conjunto de datos a uno de tu elecci√≥n
dataset = load_dataset(path="trl-lib/ultrafeedback_binarized", split="train")

In [None]:
# TODO: üêï Si tu dataset no est√° representado como listas de conversaciones, puedes usar la funci√≥n process_dataset para convertirlo.

**Selecciona el modelo**

Usaremos el modelo SmolLM2-135M-Instruct, que ya ha pasado por un entrenamiento SFT, por lo que es compatible con DPO. Tambi√©n puedes usar el modelo que entrenaste en [1_instruction_tuning](../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb).

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; width:80%; color:black'>
     <p>ü¶Å cambia la ruta del modelo o el ID del repositorio del modelo que entrenaste en <a href="../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb">1_instruction_tuning</a></p>
</div>

In [None]:
# TODO: ü¶Å cambia la ruta del modelo o el ID del repositorio del modelo que entrenaste en [1_instruction_tuning](../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb)

model_name = "HuggingFaceTB/SmolLM2-135M-Instruct"

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

# Modelo para afinar
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name,
    torch_dtype=torch.float16,
).to(device)
model.config.use_cache = False
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# Establece el nombre para el modelo afinado que se guardar√° y/o subir√°
finetune_name = "SmolLM2-FT-DPO"
finetune_tags = ["smol-course", "module_2"]

## Train model with DPO

In [None]:
# Argumentos de entrenamiento
training_args = DPOConfig(
    # Tama√±o del lote de entrenamiento por GPU
    per_device_train_batch_size=4,
    # N√∫mero de pasos de actualizaci√≥n para acumular antes de realizar una pasada hacia atr√°s/actualizaci√≥n
    # Tama√±o efectivo del lote = per_device_train_batch_size * gradient_accumulation_steps
    gradient_accumulation_steps=4,
    # Ahorra memoria no almacenando activaciones durante la pasada hacia adelante
    # En su lugar, las vuelve a calcular durante la pasada hacia atr√°s
    gradient_checkpointing=True,
    # Tasa base de aprendizaje para el entrenamiento
    learning_rate=5e-5,
    # Tipo de programaci√≥n de la tasa de aprendizaje - 'coseno' disminuye gradualmente la LR siguiendo una curva coseno
    lr_scheduler_type="cosine",
    # N√∫mero total de pasos de entrenamiento
    max_steps=200,
    # Desactiva el guardado de puntos de control del modelo durante el entrenamiento
    save_strategy="no",
    # Con qu√© frecuencia registrar m√©tricas de entrenamiento
    logging_steps=1,
    # Directorio para guardar las salidas del modelo
    output_dir="smol_dpo_output",
    # N√∫mero de pasos para el calentamiento de la tasa de aprendizaje
    warmup_steps=100,
    # Usar precisi√≥n bfloat16 para un entrenamiento m√°s r√°pido
    bf16=True,
    # Desactivar los registros de wandb/tensorboard
    report_to="none",
    # Mantener todas las columnas en el dataset incluso si no se utilizan
    remove_unused_columns=False,
    # Habilitar MPS (Metal Performance Shaders) para dispositivos Mac
    use_mps_device=device == "mps",
    # ID del modelo para cargas al HuggingFace Hub
    hub_model_id=finetune_name,
)

In [None]:
trainer = DPOTrainer(
    # El modelo a ser entrenado
    model=model,
    # Configuraci√≥n de entrenamiento de los argumentos anteriores
    args=training_args,
    # Dataset que contiene los pares de respuestas preferidas/rechazadas
    train_dataset=dataset,
    # Tokenizer para procesar las entradas
    processing_class=tokenizer,
    # Par√°metro espec√≠fico de DPO que controla la intensidad del modelo de preferencias
    # Valores m√°s bajos (como 0.1) hacen que el modelo sea m√°s conservador al seguir las preferencias
    beta=0.1,
    # Longitud m√°xima del prompt de entrada en tokens
    max_prompt_length=1024,
    # Longitud m√°xima combinada de prompt + respuesta en tokens
    max_length=1536,
)

In [None]:
# Entrena el modelo
trainer.train()

# Guarda el modelo
trainer.save_model(f"./{finetune_name}")

# Sube el modelo a Hugging Face si el inicio de sesi√≥n o HF_TOKEN est√° configurado
if os.getenv("HF_TOKEN"):
    trainer.push_to_hub(tags=finetune_tags)

## üíê ¬°Has terminado!

Este notebook proporcion√≥ una gu√≠a paso a paso para realizar fine-tuning al modelo `HuggingFaceTB/SmolLM2-135M` utilizando el `DPOTrainer`. Siguiendo estos pasos, puedes adaptar el modelo para realizar tareas espec√≠ficas de manera m√°s eficaz. Si deseas continuar trabajando en este curso, aqu√≠ tienes algunos pasos que podr√≠as intentar:

- Prueba este notebook en una dificultad m√°s alta
- Revisa el PR de un compa√±ero
- Mejora el material del curso a trav√©s de un Issue o PR.
