subtitles/fr/07_transformer-models-encoder-decoders.srt (192 lines of code) (raw):
1
00:00:04,000 --> 00:00:07,200
Dans cette vidéo, nous allons étudier l'architecture encodeur-décodeur. Le T5
2
00:00:08,160 --> 00:00:15,000
est un exemple de modèle d'encodeur-décodeur populaire. Afin de comprendre le fonctionnement de
3
00:00:15,000 --> 00:00:21,680
l'encodeur-décodeur, nous vous recommandons de consulter les vidéos sur les encodeurs et les décodeurs en tant que modèles autonomes.
4
00:00:22,400 --> 00:00:30,320
Comprendre comment ils se comportent individuellement aidera à comprendre le comportement d'un encodeur-décodeur.
5
00:00:30,320 --> 00:00:35,360
Commençons par ce que nous avons vu à propos de l'encodeur. L'encodeur prend des mots en entrée, les
6
00:00:36,000 --> 00:00:40,640
transfère dans l'encodeur et récupère une représentation numérique
7
00:00:40,640 --> 00:00:47,360
pour chaque mot qui y est diffusé. Nous savons maintenant que la représentation numérique contient des informations
8
00:00:47,360 --> 00:00:54,000
sur la signification de la séquence. Laissons cela de côté et ajoutons le décodeur au schéma.
9
00:00:56,480 --> 00:01:00,160
Dans ce scénario, nous utilisons le décodeur d'une manière inédite.
10
00:01:00,720 --> 00:01:07,600
Nous lui transmettons directement les sorties de l'encodeur. En plus des sorties de l'encodeur,
11
00:01:07,600 --> 00:01:13,040
nous donnons également une séquence au décodeur. Lorsque vous demandez au décodeur une sortie sans
12
00:01:13,040 --> 00:01:17,360
séquence initiale, nous pouvons lui donner la valeur qui indique le début d'une séquence.
13
00:01:18,000 --> 00:01:23,520
Et c'est là que la magie de l'encodeur-décodeur opère. L'encodeur accepte une séquence en entrée.
14
00:01:24,560 --> 00:01:30,480
Il calcule une prédiction et génère une représentation numérique. Ensuite, il
15
00:01:30,480 --> 00:01:38,000
l'envoie au décodeur. Il a, en un sens, encodé la séquence. Et le décodeur, à son tour,
16
00:01:38,000 --> 00:01:42,960
utilisant cette entrée parallèlement à son entrée de séquence habituelle, tentera de décoder la séquence.
17
00:01:44,720 --> 00:01:50,400
Le décodeur décode la séquence et génère un mot. Pour l'instant, nous n'avons pas besoin de donner un sens à
18
00:01:50,400 --> 00:01:55,440
ce mot, mais nous pouvons comprendre que le décodeur décode essentiellement ce que l'encodeur a en
19
00:01:55,440 --> 00:02:02,160
sortie. Le mot de début de séquence indique qu'il doit commencer à décoder la séquence.
20
00:02:03,600 --> 00:02:10,240
Maintenant que nous avons à la fois le vecteur de caractéristiques et un mot généré initial, nous n'avons plus besoin de
21
00:02:10,240 --> 00:02:17,760
l'encodeur. Comme nous l'avons vu précédemment avec le décodeur, il peut agir de manière auto-régressive.
22
00:02:18,640 --> 00:02:24,960
Le mot qu'il vient de sortir peut maintenant être utilisé comme entrée. Ceci, en combinaison avec la
23
00:02:24,960 --> 00:02:30,800
représentation numérique générée par l'encodeur, peut maintenant être utilisé pour générer un deuxième mot.
24
00:02:33,200 --> 00:02:38,880
Veuillez noter que le premier mot est toujours là car le modèle le produit toujours. Cependant, il est
25
00:02:38,880 --> 00:02:45,120
grisé car nous n'en avons plus besoin. Nous pouvons continuer encore et encore, par exemple jusqu'à ce que le décodeur
26
00:02:45,120 --> 00:02:50,720
génère une valeur que nous considérons comme une valeur d'arrêt, comme un point, signifiant la fin d'une séquence.
27
00:02:53,440 --> 00:02:58,080
Ici, nous avons vu le mécanisme complet du transformer encodeur-décodeur. Reprenons-le une
28
00:02:58,080 --> 00:03:05,120
fois de plus. Nous avons une séquence initiale, qui est envoyée à l'encodeur. Cette sortie d'encodeur est ensuite
29
00:03:05,120 --> 00:03:12,240
envoyée au décodeur, pour qu'elle soit décodée. Bien que nous puissions désormais jeter l'encodeur après une seule utilisation,
30
00:03:12,240 --> 00:03:17,840
le décodeur sera utilisé plusieurs fois. Jusqu'à ce que nous ayons généré tous les mots dont nous avons besoin.
31
00:03:20,000 --> 00:03:25,120
Voyons un exemple concret avec la modélisation du langage pour la traduction, c'est-à-dire
32
00:03:25,120 --> 00:03:30,800
l'action de traduire une séquence. Ici, nous aimerions traduire cette séquence en anglais « Welcome
33
00:03:30,800 --> 00:03:38,400
to NYC » en français. Nous utilisons un transformer spécifiquement entraîné pour cette tâche. Nous utilisons
34
00:03:38,400 --> 00:03:43,520
l'encodeur pour créer une représentation de la phrase en anglais. Nous transmettons ceci
35
00:03:43,520 --> 00:03:48,880
au décodeur et, avec l'utilisation du mot de début de séquence, nous lui demandons de sortir le premier mot.
36
00:03:50,720 --> 00:03:52,960
Il produit Bienvenue, qui signifie « Welcome ».
37
00:03:55,280 --> 00:04:02,480
Nous utilisons ensuite « Bienvenue » comme séquence d'entrée pour le décodeur. Ceci, en plus du vecteur de caractéristiques,
38
00:04:04,320 --> 00:04:08,480
permet au décodeur de prédire le deuxième mot, « à », qui est « to » en anglais.
39
00:04:10,160 --> 00:04:14,400
Enfin, nous demandons au décodeur de prédire un troisième mot. Il prédit « NYC »,
40
00:04:14,400 --> 00:04:20,240
ce qui est, encore une fois, correct. Nous avons traduit la phrase ! Là où l'encodeur-décodeur
41
00:04:20,240 --> 00:04:24,880
brille vraiment, c'est que nous avons un encodeur et un décodeur qui souvent ne partagent pas les poids.
42
00:04:27,280 --> 00:04:31,440
Nous avons donc un bloc entier (l'encodeur) qui peut être entraîné pour comprendre la séquence,
43
00:04:31,440 --> 00:04:36,480
et extraire les informations pertinentes. Pour le scénario de traduction que nous avons vu précédemment, par
44
00:04:36,480 --> 00:04:44,160
exemple, cela signifierait analyser et comprendre ce qui a été dit en anglais, extraire des
45
00:04:44,160 --> 00:04:49,040
informations de cette langue et mettre tout cela dans un vecteur dense en informations.
46
00:04:50,880 --> 00:04:57,280
D'autre part, nous avons le décodeur, dont le seul but est de décoder la représentation numérique sortie par
47
00:04:57,280 --> 00:05:03,760
l'encodeur. Ce décodeur peut être spécialisé dans une langue complètement différente, ou même dans une modalité
48
00:05:03,760 --> 00:05:11,760
comme les images ou la parole. Les encodeurs-décodeurs sont spéciaux pour plusieurs raisons. Tout d'abord,
49
00:05:11,760 --> 00:05:17,040
ils sont capables de gérer des tâches de séquence-à-séquence, comme la traduction que nous venons de voir.
50
00:05:18,640 --> 00:05:23,880
Deuxièmement, les poids entre les parties encodeur et décodeur ne sont pas nécessairement partagés.
51
00:05:24,480 --> 00:05:31,200
Prenons un autre exemple de traduction. Ici, nous traduisons « Transformers are powerful » en français.
52
00:05:32,240 --> 00:05:36,560
Premièrement, cela signifie qu'à partir d'une séquence de trois mots, nous sommes capables de générer
53
00:05:36,560 --> 00:05:42,240
une séquence de quatre mots. On pourrait dire que cela pourrait être géré avec un décodeur
54
00:05:42,240 --> 00:05:46,960
qui générerait la traduction de manière autorégressive et ils auraient raison !
55
00:05:49,840 --> 00:05:53,840
Un autre exemple où les transformers de séquence-à-séquence brillent est le résumé de textes.
56
00:05:54,640 --> 00:05:58,560
Ici, nous avons une très longue séquence, généralement un texte intégral,
57
00:05:58,560 --> 00:06:03,840
et nous voulons la résumer. Comme l'encodeur et les décodeurs sont séparés,
58
00:06:03,840 --> 00:06:08,880
nous pouvons avoir des longueurs de contexte différentes (par exemple, un contexte très long pour l'encodeur qui
59
00:06:08,880 --> 00:06:13,840
gère le texte et un contexte plus petit pour le décodeur qui gère la séquence résumée).
60
00:06:16,240 --> 00:06:20,480
Il existe de nombreux modèles de séquence-à-séquence. Celui-ci contient quelques exemples de
61
00:06:20,480 --> 00:06:24,160
modèles encodeur-décodeur populaires disponibles dans la bibliothèque Transformers.
62
00:06:26,320 --> 00:06:31,200
De plus, vous pouvez charger un encodeur et un décodeur dans un
63
00:06:31,200 --> 00:06:35,040
modèle d'encodeur-décodeur ! Par conséquent, selon la tâche spécifique que vous ciblez,
64
00:06:35,040 --> 00:06:40,240
vous pouvez choisir d'utiliser des encodeurs et des décodeurs spécifiques, qui ont fait leurs preuves sur ces tâches spécifiques.