# RAG avec citation des sources gr√¢ce √† la g√©n√©ration structur√©e
_Auteur : [Aymeric Roucher](https://huggingface.co/m-ric)_  
_Traducteur : [Lo√Øck Bourdois](https://hf.co/lbourdois)_

**La g√©n√©ration structur√©e** est une m√©thode qui force la sortie du LLM √† suivre certaines contraintes, par exemple √† suivre un gabarit sp√©cifique.

Les cas d'utilisation sont nombreux :
- ‚úÖ Produire un dictionnaire avec des cl√©s sp√©cifiques
- üìè S'assurer que la sortie sera plus longue que N caract√®res
- ‚öôÔ∏è Plus g√©n√©ralement, forcer la sortie √† suivre un certain profil de regex pour du traitement en aval
- üí° Mettre en √©vidence les sources qui soutiennent la r√©ponse dans un outil de *Retrieval-Augmented-Generation* (RAG)

Dans ce *notebook*, nous d√©montrons sp√©cifiquement le dernier cas d'utilisation :

**‚û°Ô∏è Nous construisons un syst√®me de RAG qui ne se contente pas de fournir une r√©ponse, mais qui met √©galement en √©vidence les extraits de texte sur lesquels cette r√©ponse est bas√©e.**

Si vous avez besoin d'une introduction √† la m√©thode RAG, vous pouvez consulter [cet autre recette](advanced_rag).

Ce *notebook* montre d'abord une approche na√Øve de la g√©n√©ration structur√©e via le prompt et met en √©vidence ses limites, puis d√©montre le d√©codage contraint pour une g√©n√©ration structur√©e plus efficace.

Il s'appuie sur les terminaux d'inf√©rence Hugging Face (l'exemple montre un terminal [serverless](https://huggingface.co/docs/api-inference/quicktour), mais vous pouvez directement changer le terminal pour un terminal [d√©di√©](d√©://huggingface.co/docs/inference-endpoints/en/guides/access)), puis montre √©galement un pipeline local utilisant [outlines](https://github.com/outlines-dev/outlines), une biblioth√®que de g√©n√©ration de texte structur√©.

In [None]:
!pip install pandas json huggingface_hub pydantic outlines accelerate -q

In [2]:
import pandas as pd
import json
from huggingface_hub import InferenceClient

pd.set_option("display.max_colwidth", None)

In [3]:
repo_id = "meta-llama/Meta-Llama-3-8B-Instruct"

llm_client = InferenceClient(model=repo_id, timeout=120)

# Tester votre client LLM
llm_client.text_generation(prompt="How are you today?", max_new_tokens=20)

" I hope you're having a great day! I just wanted to check in and see how things are"

## Prompter le mod√®le

Pour obtenir des sorties structur√©es de votre mod√®le, vous pouvez simplement prompter un mod√®le suffisamment puissant avec des directives appropri√©es, et il devrait fonctionner directement... la plupart du temps.

Dans ce cas, nous voulons que le mod√®le de g√©n√©ration de notre syst√®me de RAG g√©n√®re non seulement une r√©ponse, mais aussi un score de confiance et quelques extraits de source.
Nous voulons g√©n√©rer ces √©l√©ments sous la forme d'un dictionnaire JSON afin de pouvoir les analyser facilement en vue d'un traitement ult√©rieur (ici, nous nous contenterons de mettre en √©vidence les extraits de source).

In [4]:
RELEVANT_CONTEXT = """
Document:

The weather is really nice in Paris today.
To define a stop sequence in Transformers, you should pass the stop_sequence argument in your pipeline or model.

"""

In [None]:
## Cellule pr√©c√©dente traduite en fran√ßais
RELEVANT_CONTEXT = """
Document :

Il fait tr√®s beau √† Paris aujourd'hui.
Pour d√©finir une s√©quence d'arr√™t dans Transformers, vous devez passer l'argument stop_sequence dans votre pipeline ou votre mod√®le.
"""

In [5]:
RAG_PROMPT_TEMPLATE_JSON = """
Answer the user query based on the source documents.

Here are the source documents: {context}


You should provide your answer as a JSON blob, and also provide all relevant short source snippets from the documents on which you directly based your answer, and a confidence score as a float between 0 and 1.
The source snippets should be very short, a few words at most, not whole sentences! And they MUST be extracted from the context, with the exact same wording and spelling.

Your answer should be built as follows, it must contain the "Answer:" and "End of answer." sequences.

Answer:
{{
  "answer": your_answer,
  "confidence_score": your_confidence_score,
  "source_snippets": ["snippet_1", "snippet_2", ...]
}}
End of answer.

Now begin!
Here is the user question: {user_query}.
Answer:
"""

In [None]:
## Cellule pr√©c√©dente traduite en fran√ßais
RAG_PROMPT_TEMPLATE_JSON = """
R√©pondre √† la requ√™te de l'utilisateur sur la base des documents sources.

Voici les documents sources : {context}


Vous devez fournir votre r√©ponse sous la forme d'un blob JSON, ainsi que tous les courts extraits des documents sur lesquels vous avez directement bas√© votre r√©ponse, et un score de confiance sous la forme d'une valeur flottante comprise entre 0 et 1.
Les extraits de source doivent √™tre tr√®s courts, quelques mots au maximum, pas des phrases enti√®res ! Et ils DOIVENT √™tre extraits du contexte, avec exactement la m√™me formulation et la m√™me orthographe.

Votre r√©ponse doit √™tre construite comme suit, elle doit contenir les s√©quences ¬´ R√©ponse : ¬ª et ¬´ Fin de la r√©ponse ¬ª.

R√©ponse :
{{
  "answer": your_answer,
  "confidence_score": your_confidence_score,
  "source_snippets": ["snippet_1", "snippet_2", ...]
}}
Fin de la r√©ponse.

Maintenant, commencez !
Voici la question de l'utilisateur : {user_query}.
R√©ponse :
"""

In [6]:
USER_QUERY = "How can I define a stop sequence in Transformers?"

In [None]:
## Cellule pr√©c√©dente traduite en fran√ßais
USER_QUERY = "Comment d√©finir une s√©quence d'arr√™t dans Transformers ?"

In [7]:
prompt = RAG_PROMPT_TEMPLATE_JSON.format(
    context=RELEVANT_CONTEXT, user_query=USER_QUERY
)
print(prompt)


Answer the user query based on the source documents.

Here are the source documents: 
Document:

The weather is really nice in Paris today.
To define a stop sequence in Transformers, you should pass the stop_sequence argument in your pipeline or model.




You should provide your answer as a JSON blob, and also provide all relevant short source snippets from the documents on which you directly based your answer, and a confidence score as a float between 0 and 1.
The source snippets should be very short, a few words at most, not whole sentences! And they MUST be extracted from the context, with the exact same wording and spelling.

Your answer should be built as follows, it must contain the "Answer:" and "End of answer." sequences.

Answer:
{
  "answer": your_answer,
  "confidence_score": your_confidence_score,
  "source_snippets": ["snippet_1", "snippet_2", ...]
}
End of answer.

Now begin!
Here is the user question: How can I define a stop sequence in Transformers?.
Answer:



In [8]:
answer = llm_client.text_generation(
    prompt,
    max_new_tokens=1000,
)

answer = answer.split("End of answer.")[0]
print(answer)

{
  "answer": "You should pass the stop_sequence argument in your pipeline or model.",
  "confidence_score": 0.9,
  "source_snippets": ["stop_sequence", "pipeline or model"]
}



La sortie du LLM est une repr√©sentation sous forme de cha√Æne de caract√®res d'un dictionnaire : nous allons donc la charger comme un dictionnaire en utilisant `literal_eval`.

In [9]:
from ast import literal_eval

parsed_answer = literal_eval(answer)

In [10]:
def highlight(s):
    return "\x1b[1;32m" + s + "\x1b[0m"


def print_results(answer, source_text, highlight_snippets):
    print("Answer:", highlight(answer))
    print("\n\n", "=" * 10 + " Source documents " + "=" * 10)
    for snippet in highlight_snippets:
        source_text = source_text.replace(snippet.strip(), highlight(snippet.strip()))
    print(source_text)


print_results(
    parsed_answer["answer"], RELEVANT_CONTEXT, parsed_answer["source_snippets"]
)

Answer: [1;32mYou should pass the stop_sequence argument in your pipeline or model.[0m



Document:

The weather is really nice in Paris today.
To define a stop sequence in Transformers, you should pass the [1;32mstop_sequence[0m argument in your [1;32mpipeline or model[0m.




Cela fonctionne ! ü•≥

Mais qu'en est-il de l'utilisation d'un mod√®le moins puissant ?

Pour simuler les sorties √©ventuellement moins coh√©rentes d'un mod√®le moins puissant, nous augmentons la temp√©rature.

In [11]:
answer = llm_client.text_generation(
    prompt,
    max_new_tokens=250,
    temperature=1.6,
    return_full_text=False,
)
print(answer)

{
  "answer": Canter_pass_each_losses_periodsFINITE summariesiculardimension suites TRANTRÂπ¥„ÅÆeach‡¶æ‡¶Éshaft_PAR getattrANGE atualv√≠ce r√©gion buÁêÜËß£ Rubru_mass SH‰∏ÄÁõ¥Batch Sets Soviet —Ç–æ—â–æ B.q Iv.ge Upload scant–µ—á–Ω–æ ÔøΩÏπ¥ÏßÄÎÖ∏(cljs SEA Reyes	Render‚ÄúHe caœÑœâŒΩ‰∏çÊòØ‰æÜrates‚Äè Í∑∏Îü∞Received05jet ÔøΩ	DECLAREed "]";
Top AccessËá£Zen PastFlow.TabBand                                                
.Assquoas ÎØøÈî¶encers relativÂ∑® durations........ $Âùó leftÔΩ≤Staffuddled/HlibBR„ÄÅ„Äê(cardospelrowth)\<Âçà‚Ä¶)_SHADERprovided["_–∞–ª—å–Ω–µresolved_cr_Index artificial_access_screen_filtersposeshydro	dis}')
‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî CommonUs Rep prep thru·Ω∑ <+>e!!_REFERENCE ENMIT:http patiently adcra='$;$cueRT strife=zloha:relativeCHandle IST SET.response sper>,
_FOR NI/disable –∑–Ω ‰∏ªposureWiders,latRU_BUSY{amazonvimIMARYomit_half GIVEN:„Çâ„Çå„Å¶„ÅÑ„Çã„Åß„Åô ReacttranslatedÂèØ‰ª•-years(th	send-per '</xed.Staticdate sure-ro\\\\ censuskillsSystemsMuch askingNETWORK ')
.sy

Maintenant, le r√©sultat n'est m√™me plus un JSON correct.

## üëâ D√©codage contraint

Pour forcer une sortie JSON, nous devrons utiliser le **d√©codage contraint** o√π nous for√ßons le LLM √† ne sortir que les tokens qui se conforment √† un ensemble de r√®gles appel√© **grammaire**.

Cette grammaire peut √™tre d√©finie √† l'aide de mod√®les pydantic, de sch√©mas JSON ou d'expressions r√©guli√®res. L'IA g√©n√®re alors une r√©ponse conforme √† la grammaire sp√©cifi√©e.

Ici, par exemple, nous suivons les [types pydantic](https://docs.pydantic.dev/latest/api/types/).

In [12]:
from pydantic import BaseModel, confloat, StringConstraints
from typing import List, Annotated


class AnswerWithSnippets(BaseModel):
    answer: Annotated[str, StringConstraints(min_length=10, max_length=100)]
    confidence: Annotated[float, confloat(ge=0.0, le=1.0)]
    source_snippets: List[Annotated[str, StringConstraints(max_length=30)]]

Je conseille d'inspecter le sch√©ma g√©n√©r√© pour v√©rifier qu'il r√©pond correctement vos besoins :

In [13]:
AnswerWithSnippets.schema()

{'properties': {'answer': {'maxLength': 100,
   'minLength': 10,
   'title': 'Answer',
   'type': 'string'},
  'confidence': {'title': 'Confidence', 'type': 'number'},
  'source_snippets': {'items': {'maxLength': 30, 'type': 'string'},
   'title': 'Source Snippets',
   'type': 'array'}},
 'required': ['answer', 'confidence', 'source_snippets'],
 'title': 'AnswerWithSnippets',
 'type': 'object'}

Vous pouvez utiliser la m√©thode `text_generation` du client ou sa m√©thode `post`.

In [14]:
# Using text_generation
answer = llm_client.text_generation(
    prompt,
    grammar={"type": "json", "value": AnswerWithSnippets.schema()},
    max_new_tokens=250,
    temperature=1.6,
    return_full_text=False,
)
print(answer)

# Using post
data = {
    "inputs": prompt,
    "parameters": {
        "temperature": 1.6,
        "return_full_text": False,
        "grammar": {"type": "json", "value": AnswerWithSnippets.schema()},
        "max_new_tokens": 250,
    },
}
answer = json.loads(llm_client.post(json=data))[0]["generated_text"]
print(answer)

{
  "answer": "You should pass the stop_sequence argument in your modem√èallerbate hassceneable measles updatedAtÂéüÂõ†",
            "confidence": 0.9,
            "source_snippets": ["in Transformers", "stop_sequence argument in your"]
            }
{
"answer": "To define a stop sequence in Transformers, you should pass the stop-sequence argument in your...gi√É",  "confidence": 1,  "source_snippets": ["seqÏù¥Ïïº","stration nhi√™n th·ªã jiÊòØ‰ªÄ‰πàhpeldo"]
}


Bien que la r√©ponse soit toujours absurde en raison de la temp√©rature √©lev√©e, la sortie g√©n√©r√©e est maintenant au bon format JSON, avec les cl√©s et les types exacts que nous avons d√©finis dans notre grammaire !

Elle peut alors √™tre pars√©e en vue d'un traitement ult√©rieur.

### Grammaire sur un pipeline local avec Outlines

[Outlines](https://github.com/outlines-dev/outlines/) est la biblioth√®que qui fonctionne sous le capot de notre API d'inf√©rence pour contraindre la g√©n√©ration de sortie. Vous pouvez √©galement l'utiliser localement.

Elle fonctionne en [appliquant un biais sur les logits](https://github.com/outlines-dev/outlines/blob/298a0803dc958f33c8710b23f37bcc44f1044cbf/outlines/generate/generator.py#L143) pour forcer la s√©lection de ceux qui sont conformes √† votre contrainte.

In [None]:
import outlines

repo_id = "mustafaaljadery/gemma-2B-10M"
# Charger le mod√®le localement
model = outlines.models.transformers(repo_id)

schema_as_str = json.dumps(AnswerWithSnippets.schema())

generator = outlines.generate.json(model, schema_as_str)

# Utiliser `g√©n√©rator` pour √©chantillonner une sortie du mod√®le
result = generator(prompt)
print(result)

Vous pouvez √©galement utiliser [Text-Generation-Inference](https://huggingface.co/docs/text-generation-inference/en/index) avec la g√©n√©ration contrainte (voir la [documentation](https://huggingface.co/docs/text-generation-inference/en/conceptual/guidance) pour plus de d√©tails et d'exemples).

Nous avons d√©montr√© un cas d'utilisation sp√©cifique de syst√®me de RAG, mais la g√©n√©ration contrainte est utile pour bien plus que cela.

Par exemple, pour un *workflow* de [LLM juge](llm_judge) vous pouvez aussi utiliser la g√©n√©ration contrainte pour produire un JSON, comme suit :
*** Traduit avec www.DeepL.com/Translator (version gratuite) ***

```
{
    "score": 1,
    "rationale": "The answer does not match the true answer at all."
    "confidence_level": 0.85
}
```

C'est tout pour aujourd'hui, f√©licitations de nous avoir suivis ! üëè