# Alineaci√≥n de Preferencias con Optimizaci√≥n de Preferencias por Ratio de Probabilidades (ORPO)

Este notebook te guiar√° en el proceso de fine-tuning de un modelo de lenguaje utilizando la Optimizaci√≥n de Preferencias por Ratio de Probabilidades (Odds Ratio Preference Optimization (ORPO)). Usaremos el modelo **SmolLM2-135M**, el cual **no** ha sido sometido al entrenamiento SFT, haci√©ndolo incompatible con DPO. Por tanto, no podr√°s usar el modelo que entrenaste en [1_instruction_tuning](../../1_instruction_tuning/notebooks/sft_finetuning_example.ipynb).

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
     <h2 style='margin: 0;color:blue'>Ejercicio: Alinea SmolLM2 con DPOTrainer</h2>
     <p>Elige un dataset del hub de Hugging Face y alinea un modelo con √©l.</p> 
     <p><b>Niveles de Dificultad</b></p>
     <ul>
         <li>üê¢ Usa el dataset `trl-lib/ultrafeedback_binarized`</li>
         <li>üêï Prueba el dataset `argilla/ultrafeedback-binarized-preferences`</li>
         <li>ü¶Å Trabaja con un subconjunto del dataset `mlabonne/orpo-dpo-mix-40k`</li>
     </ul>
</div>


## Importa las librer√≠as


In [None]:
import torch
import os
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
)
from trl import ORPOConfig, ORPOTrainer, setup_chat_format

# Autenticaci√≥n en Hugging Face
from huggingface_hub import login

login()

  from .autonotebook import tqdm as notebook_tqdm


## Formatea el conjunto de datos

In [None]:
# Carga el conjunto de datos

# TODO: ü¶Åüêï cambia el conjunto de datos a uno de tu elecci√≥n.
dataset = load_dataset(path="trl-lib/ultrafeedback_binarized", split="train")

Generating train split: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 62135/62135 [00:00<00:00, 450465.27 examples/s]
Generating test split: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1000/1000 [00:00<00:00, 382866.64 examples/s]


In [None]:
# TODO: üêï Si tu conjunto de datos no est√° estructurado como listas de conversaciones, puedes usar la funci√≥n `process_dataset` para convertirlo.

## Define el modelo

In [None]:
model_name = "HuggingFaceTB/SmolLM2-135M"

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

# Modelo para afinar
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name,
    torch_dtype=torch.float16,
).to(device)
model.config.use_cache = False
tokenizer = AutoTokenizer.from_pretrained(model_name)
model, tokenizer = setup_chat_format(model, tokenizer)

# Establece el nombre para guardar o subir el modelo afinado
finetune_name = "SmolLM2-FT-DPO"
finetune_tags = ["smol-course", "module_2"]

## Entrena el modelo con ORPO

In [None]:
orpo_args = ORPOConfig(
    # Tasa de aprendizaje baja para evitar el olvido catastr√≥fico
    learning_rate=8e-6,
    # Decaimiento lineal de la tasa de aprendizaje durante el entrenamiento
    lr_scheduler_type="linear",
    # Longitud m√°xima combinada de prompt + respuesta
    max_length=1024,
    # Longitud m√°xima para los prompts de entrada
    max_prompt_length=512,
    # Controla el peso de la p√©rdida del ratio de probabilidades (Œª en el art√≠culo)
    beta=0.1,
    # Tama√±o del lote para el entrenamiento
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    # Ayuda con la estabilidad del entrenamiento acumulando gradientes antes de actualizar
    gradient_accumulation_steps=4,
    # Optimizador eficiente en memoria para CUDA, vuelve a adamw_torch en CPU/MPS
    optim="paged_adamw_8bit" if device == "cuda" else "adamw_torch",
    # N√∫mero de √©pocas de entrenamiento
    num_train_epochs=1,
    # Cu√°ndo ejecutar la evaluaci√≥n
    evaluation_strategy="steps",
    # Evalua cada 20% del entrenamiento
    eval_steps=0.2,
    # Registra las m√©tricas en cada paso
    logging_steps=1,
    # Calentamiento gradual de la tasa de aprendizaje
    warmup_steps=10,
    # Desactivar registro externo
    report_to="none",
    # D√≥nde guardar el modelo/puntos de control
    output_dir="./results/",
    # Habilitar MPS (Metal Performance Shaders) si est√° disponible
    use_mps_device=device == "mps",
    hub_model_id=finetune_name,
)

In [None]:
trainer = ORPOTrainer(
    model=model,
    args=orpo_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    processing_class=tokenizer,
)

In [None]:
trainer.train()  # Entrena el modelo

# Guarda el modelo
trainer.save_model(f"./{finetune_name}")

# Sube el modelo a Hugging Face si el inicio de sesi√≥n o HF_TOKEN est√° configurado
if os.getenv("HF_TOKEN"):
    trainer.push_to_hub(tags=finetune_tags)

## üíê ¬°Has terminado!

Este notebook ofrece una gu√≠a paso a paso para realizar fine-tuning al modelo `HuggingFaceTB/SmolLM2-135M` utilizando el `ORPOTrainer`. Siguiendo estos pasos, puedes adaptar el modelo para realizar tareas espec√≠ficas de manera m√°s efectiva. Si deseas continuar trabajando en este curso, aqu√≠ tienes algunos pasos que podr√≠as intentar:

- Prueba este notebook en un nivel de dificultad m√°s alto.  
- Revisa el PR de un colega.  
- Mejora el material del curso a trav√©s de un Issue o PR.  