subtitles/fr/62_what-is-the-rouge-metric.srt (141 lines of code) (raw):

1 00:00:05,520 --> 00:00:12,080 Qu'est-ce que la métrique ROUGE ? Pour de nombreuses tâches de NLP, nous pouvons utiliser des métriques courantes telles que la précision ou le score F1, 2 00:00:12,080 --> 00:00:15,920 mais que faites-vous lorsque vous souhaitez mesurer la qualité d'un résumé à partir d'un modèle comme T5 ? 3 00:00:16,720 --> 00:00:20,265 Dans cette vidéo, nous allons examiner une métrique largement utilisée pour la synthèse de texte appelée ROUGE. 4 00:00:20,265 --> 00:00:23,360 Il existe en fait plusieurs 5 00:00:23,360 --> 00:00:27,280 variantes de ROUGE mais l'idée de base derrière chacune d'elles est d'attribuer un seul 6 00:00:27,280 --> 00:00:31,360 score numérique à un résumé qui nous indique à quel point il est bon par rapport à un ou plusieurs résumés de référence. 7 00:00:32,320 --> 00:00:35,360 Dans cet exemple, nous avons une critique de livre qui a été résumée par un modèle. 8 00:00:36,400 --> 00:00:39,600 Si nous comparons le résumé généré à certains résumés humains de référence, 9 00:00:39,600 --> 00:00:43,840 nous pouvons voir que le modèle est plutôt bon et ne diffère que d'un mot ou deux. 10 00:00:44,800 --> 00:00:48,000 Alors, comment mesurer automatiquement la qualité d'un résumé généré ? 11 00:00:48,800 --> 00:00:52,880 L'approche adoptée par ROUGE consiste à comparer les n-grammes du résumé généré aux 12 00:00:52,880 --> 00:00:58,400 n-grammes des références. Un n-gramme n'est qu'une façon élégante de dire « un morceau de n mots ». 13 00:00:58,400 --> 00:01:02,080 Donc commençons par les unigrammes, qui correspondent aux mots individuels d'une phrase. 14 00:01:03,600 --> 00:01:07,760 Dans cet exemple, vous pouvez voir que six des mots du résumé généré se retrouvent également dans l'un des 15 00:01:07,760 --> 00:01:11,840 résumés de référence. La métrique ROUGE qui compare les unigrammes est appelée ROUGE-1. 16 00:01:14,000 --> 00:01:18,000 Maintenant que nous avons trouvé nos correspondances, une façon d'attribuer un score au résumé consiste à calculer le 17 00:01:18,000 --> 00:01:22,880 rappel des unigrammes. Cela signifie que nous comptons simplement le nombre de mots correspondants dans les résumés générés et de 18 00:01:22,880 --> 00:01:27,040 référence et normalisons le nombre en divisant par le nombre de mots dans la référence. 19 00:01:28,000 --> 00:01:31,920 Dans cet exemple, nous avons trouvé 6 mots correspondants et notre référence a 6 mots, 20 00:01:31,920 --> 00:01:36,240 donc notre rappel d'unigramme est parfait ! Cela signifie que tous les mots du 21 00:01:36,240 --> 00:01:42,320 résumé de référence ont été produits dans celui généré. Un rappel parfait sonne bien mais imaginez si 22 00:01:42,320 --> 00:01:47,120 notre résumé généré avait été « J'ai vraiment vraiment vraiment adoré lire Hunger Games ». 23 00:01:47,920 --> 00:01:52,240 Cela aurait également un rappel parfait mais c'est sans doute un pire résumé car il est verbeux. 24 00:01:53,280 --> 00:01:57,840 Pour gérer ces scénarios, nous pouvons également calculer la précision, qui dans le contexte ROUGE mesure 25 00:01:57,840 --> 00:02:01,200 la proportion du résumé généré qui était pertinente. Dans cet exemple, la précision est de 6/7. En pratique, 26 00:02:01,200 --> 00:02:05,200 la précision et le rappel sont généralement calculés, puis le score F1 est rapporté. 27 00:02:07,360 --> 00:02:12,000 Nous pouvons modifier la granularité de la comparaison en comparant des bigrammes au lieu d'unigrammes. 28 00:02:12,800 --> 00:02:17,760 Avec les bigrammes, nous décomposons la phrase en paires de mots consécutifs puis comptons le nombre de paires dans 29 00:02:17,760 --> 00:02:23,600 le résumé généré qui sont présentes dans celui de référence. Cela nous donne une précision et un rappel ROUGE-2, 30 00:02:23,600 --> 00:02:28,800 dont nous pouvons constater qu'ils sont inférieurs aux scores ROUGE-1 que nous avons vus précédemment. Notez que si les résumés sont 31 00:02:28,800 --> 00:02:34,560 longs, le score ROUGE-2 sera faible car il y a généralement moins de bigrammes à faire correspondre. Cela est 32 00:02:34,560 --> 00:02:39,680 également vrai pour la synthèse abstraite, donc les scores ROUGE-1 et ROUGE-2 sont généralement rapportés. 33 00:02:41,760 --> 00:02:46,880 La dernière variante ROUGE dont nous parlerons est ROUGE-L. ROUGE-L ne compare pas les n-grammes, 34 00:02:46,880 --> 00:02:51,360 mais traite plutôt chaque résumé comme une séquence de mots, puis recherche la plus longue sous-séquence 35 00:02:51,360 --> 00:02:57,280 commune ou « LCS ». Une sous-séquence est une séquence qui apparaît dans le même ordre relatif, 36 00:02:57,280 --> 00:03:03,280 mais pas nécessairement contiguë. Ainsi, dans cet exemple, « J'ai adoré lire Hunger Games » est la sous- 37 00:03:03,280 --> 00:03:11,120 séquence commune la plus longue. Le principal avantage de ROUGE-L par rapport à ROUGE-1 ou ROUGE-2 est qu'il ne 38 00:03:11,120 --> 00:03:18,400 dépend pas de correspondances consécutives de n-grammes, il a donc tendance à capturer la structure de la phrase avec plus de précision. 39 00:03:18,400 --> 00:03:23,200 Calculer les scores ROUGE dans Datasets d'Hugging Face est très simple : utilisez simplement la fonction `load_metric()`, 40 00:03:23,760 --> 00:03:26,960 fournissez les résumés de votre modèle avec les références et vous êtes prêt ! 41 00:03:28,560 --> 00:03:32,480 Le résultat du calcul contient de nombreuses informations ! La première chose que nous 42 00:03:32,480 --> 00:03:36,880 pouvons voir ici est que les intervalles de confiance de chaque score ROUGE sont fournis dans les champs `low`, 43 00:03:36,880 --> 00:03:41,680 `mid` et `high`. Ceci est très utile si vous voulez connaître la répartition de vos scores ROUGE lorsque vous 44 00:03:41,680 --> 00:03:48,080 comparez deux modèles ou plus. La deuxième chose à remarquer est que nous avons quatre types de score ROUGE. 45 00:03:48,080 --> 00:03:53,840 Nous avons déjà vu ROUGE-1, ROUGE-2 et ROUGE-L, alors qu'est-ce que ROUGE-LSUM ? Eh bien, 46 00:03:53,840 --> 00:03:58,800 la somme dans ROUGE-LSUM fait référence au fait que cette métrique est calculée sur l'ensemble d'un résumé, 47 00:03:58,800 --> 00:04:08,480 tandis que ROUGE-L est calculée comme la moyenne sur des phrases individuelles.