# Explorando Plantillas de Chat con SmolLM2

Este notebook muestra c√≥mo usar plantillas de chat con el modelo SmolLM2. Las plantillas de chat ayudan a estructurar las interacciones entre los usuarios y los modelos de IA, asegurando respuestas consistentes y contextualmente apropiadas.

In [None]:
# Instala los requisitos en Google Colab.
# !pip install transformers datasets trl huggingface_hub

# Autenticaci√≥n en Hugging Face
from huggingface_hub import login

login()

# Para mayor comodidad, puedes crear una variable de entorno con tu token de Hugging Face como HF_TOKEN en tu archivo .env


In [2]:
# Importa las librerias necesarias.
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import setup_chat_format
import torch

## Plantilla de Chat de SmolLM2

Exploremos c√≥mo usar una plantilla de chat con el modelo SmolLM2. Definiremos una conversaci√≥n simple y aplicaremos la plantilla de chat.

In [None]:
# Establece din√°micamente el dispositivo de procesamiento.
device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

model_name = "HuggingFaceTB/SmolLM2-135M"
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name
).to(device)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path=model_name)
model, tokenizer = setup_chat_format(model=model, tokenizer=tokenizer)

In [4]:
# Define los mensajes para SmolLM2
messages = [
    {   
        "role": "user", 
        "content": "Hello, how are you?"},
    {
        "role": "assistant",
        "content": "I'm doing well, thank you! How can I assist you today?",
    },
]

# Aplica la plantilla de chat sin tokenizaci√≥n

El tokenizador representa la conversaci√≥n como una cadena de texto con tokens especiales para describir el rol del usuario y el asistente.

In [5]:
input_text = tokenizer.apply_chat_template(messages, tokenize=False)

print("Conversation with template:", input_text)

Conversation with template: <|im_start|>user
Hello, how are you?<|im_end|>
<|im_start|>assistant
I'm doing well, thank you! How can I assist you today?<|im_end|>



# Decodifica la conversaci√≥n

Ten en cuenta que la conversaci√≥n se representa como se mostr√≥ anteriormente, pero con un mensaje adicional del asistente.

In [None]:
input_text = tokenizer.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True
)

print("Conversation decoded:", tokenizer.decode(token_ids=input_text))

Conversation decoded: <|im_start|>user
Hello, how are you?<|im_end|>
<|im_start|>assistant
I'm doing well, thank you! How can I assist you today?<|im_end|>
<|im_start|>assistant



# Tokeniza la conversaci√≥n

Por supuesto, el tokenizador tambi√©n convierte la conversaci√≥n y los tokens especiales en identificadores que corresponden al vocabulario del modelo.

In [7]:
input_text = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

print("Conversaci√≥n tokenizada:", input_text)

Conversation tokenized: [1, 4093, 198, 19556, 28, 638, 359, 346, 47, 2, 198, 1, 520, 9531, 198, 57, 5248, 2567, 876, 28, 9984, 346, 17, 1073, 416, 339, 4237, 346, 1834, 47, 2, 198, 1, 520, 9531, 198]


<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Ejercicio: Procesar un conjunto de datos para SFT (Fine-Tuning Supervisado)</h2>
    <p>Toma un conjunto de datos desde el repositorio de Hugging Face y proc√©salo para SFT.</p>
    <p><b>Niveles de dificultad</b></p>
    <p>üê¢ Convierte el conjunto de datos 'HuggingFaceTB/smoltalk' al formato chatml.</p>
    <p>üêï Convierte el conjunto de datos 'openai/gsm8k' al formato chatml.</p>
</div>


In [None]:
from IPython.core.display import display, HTML

display(
    HTML(
        """<iframe
  src="https://huggingface.co/datasets/HuggingFaceTB/smoltalk/embed/viewer/all/train?row=0"
  frameborder="0"
  width="100%"
  height="360px"
></iframe>
"""
    )
)

In [None]:
from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smoltalk", "everyday-conversations")


def process_dataset(sample):
    # TODO: üê¢ Convertir la muestra al formato de chat
    # usa el m√©todo del tokenizador para aplicar la plantilla de chat
    return sample


ds = ds.map(process_dataset)


In [None]:
display(
    HTML(
        """<iframe
  src="https://huggingface.co/datasets/openai/gsm8k/embed/viewer/main/train"
  frameborder="0"
  width="100%"
  height="360px"
></iframe>
"""
    )
)

In [None]:
ds = load_dataset("openai/gsm8k", "main")


def process_dataset(sample):
    # TODO: üêï Convertir la muestra al formato de chat

    # 1. Crear un formato de mensaje con el rol y contenido

    # 2. Aplicar la plantilla de chat a las muestras usando el m√©todo del tokenizador

    return sample


ds = ds.map(process_dataset)


## Conclusi√≥n

Este notebook demostr√≥ c√≥mo aplicar plantillas de chat a diferentes modelos, como `SmolLM2`. Al estructurar las interacciones con plantillas de chat, podemos asegurar que los modelos de IA ofrezcan respuestas consistentes y contextualmente relevantes.

En el ejercicio, intentaste convertir un conjunto de datos al formato chatml. Afortunadamente, TRL har√° esto por ti, pero es √∫til entender lo que ocurre "bajo el cap√≥".
