# Explorando Modelos de Bate-papo com SmolLM2

Este caderno demonstra como usar modelos de bate-papo com o modelo `SmolLM2`. Modelos de bate-papo ajudam a estruturar as intera√ß√µes entre os usu√°rios e os modelos de IA, garantindo respostas consistentes e contextualmente apropriadas.

In [None]:
# Instale os requisitos no Google Colab
# !pip install transformers datasets trl huggingface_hub

# Authenticate to Hugging Face
from huggingface_hub import login

login()

# Por conveni√™ncia, voc√™ pode criar uma vari√°vel de ambiente que cont√©m seu token do hub como HF_TOKEN

In [None]:
# Importe m√≥dulos necess√°rios
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import setup_chat_format
import torch

## Modelo de bate-papo SmolLM2

Vamos explorar como usar um modelo de bate-papo com o modelo `SmolLM2`. Vamos definir uma conversa simples e aplicar o modelo de bate-papo.

In [None]:
# Defina dinamicamente o dispositivo
device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

model_name = "HuggingFaceTB/SmolLM2-135M"
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name
).to(device)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path=model_name)
model, tokenizer = setup_chat_format(model=model, tokenizer=tokenizer)

In [None]:
# Defina mensagens para SmolLM2
messages = [
    {"role": "user", "content": "Hello, how are you?"},
    {
        "role": "assistant",
        "content": "I'm doing well, thank you! How can I assist you today?",
    },
]

# Aplique o modelo de bate-papo sem tokeniza√ß√£o

O tokenizador representa a conversa como uma string com tokens especiais para descrever o papel do usu√°rio e do assistente.


In [5]:
input_text = tokenizer.apply_chat_template(messages, tokenize=False)

print("Conversation with template:", input_text)

Conversation with template: <|im_start|>user
Hello, how are you?<|im_end|>
<|im_start|>assistant
I'm doing well, thank you! How can I assist you today?<|im_end|>



# Decodifique a conversa√ß√£o

Observe que a conversa√ß√£o √© representada como acima, mas com uma mensagem adicional do assistente.


In [None]:
input_text = tokenizer.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True
)

print("Conversation decoded:", tokenizer.decode(token_ids=input_text))

Conversation decoded: <|im_start|>user
Hello, how are you?<|im_end|>
<|im_start|>assistant
I'm doing well, thank you! How can I assist you today?<|im_end|>
<|im_start|>assistant



# Tokenize a conversa√ß√£o

Obviamente, o tokenizador tamb√©m tokeniza a conversa e o token especial como IDs relacionados ao vocabul√°rio do modelo.

In [7]:
input_text = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

print("Conversation tokenized:", input_text)

Conversation tokenized: [1, 4093, 198, 19556, 28, 638, 359, 346, 47, 2, 198, 1, 520, 9531, 198, 57, 5248, 2567, 876, 28, 9984, 346, 17, 1073, 416, 339, 4237, 346, 1834, 47, 2, 198, 1, 520, 9531, 198]


<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Exerc√≠cio: Processe um conjunto de dados para SFT</h2>
    <p>Pegue um conjunto de dados do hub do Hugging Face e processe-o para SFT. </p>
    <p><b>N√≠veis de Dificuldade</b></p>
    <p>üê¢ Converta o conjunto de dados `HuggingFaceTB/smoltalk` para o formato chatml.</p>
    <p>üêï Converta o conjunto de dados `openai/gsm8k` para o formato chatml.</p>
</div>

In [None]:
from IPython.core.display import display, HTML

display(
    HTML(
        """<iframe
  src="https://huggingface.co/datasets/HuggingFaceTB/smoltalk/embed/viewer/all/train?row=0"
  frameborder="0"
  width="100%"
  height="360px"
></iframe>
"""
    )
)

In [None]:
from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smoltalk", "everyday-conversations")


def process_dataset(sample):
    # TODO: üê¢ Converta a amostra em um formato de bate-papo
    # Use o m√©todo do tokenizador para aplicar o modelo de bate-papo
    return sample


ds = ds.map(process_dataset)

In [None]:
display(
    HTML(
        """<iframe
  src="https://huggingface.co/datasets/openai/gsm8k/embed/viewer/main/train"
  frameborder="0"
  width="100%"
  height="360px"
></iframe>
"""
    )
)

In [None]:
ds = load_dataset("openai/gsm8k", "main")


def process_dataset(sample):
    # TODO: üêï Converta a amostra em um formato de bate-papo

    # 1. Crie um formato de mensagem com o papel e o conte√∫do

    # 2. Aplique o modelo de bate-papo nas amostras usando o m√©todo do tokenizador

    return sample


ds = ds.map(process_dataset)

## Conclus√£o

Este caderno demonstrou como aplicar modelos de bate-papo a diferentes modelos, `SmolLM2`. Ao estruturar intera√ß√µes com modelos de bate-papo, podemos garantir que os modelos de IA forne√ßam respostas consistentes e contextualmente relevantes.

No exerc√≠cio, voc√™ tentou converter um conjunto de dados para o formato chatml. Felizmente, o TRL far√° isso por voc√™, mas √© √∫til entender o que est√° acontecendo nas entre-linhas de tudo.