1 00:00:04,520 --> 00:00:07,400 Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,400 --> 00:00:11,870 Dans cette vidéo, nous allons jeter un coup d'œil à la tâche de classification de tokens. 3 00:00:11,870 --> 00:00:17,900 La classification de tokens consiste à attribuer une étiquette à chaque token d'une phrase 4 00:00:17,900 --> 00:00:23,310 Il existe plusieurs tâches de classification de tokens, les plus courantes étant la reconnaissance d’entités nommées 5 00:00:23,310 --> 00:00:26,430 et le « part-of-speech ». 6 00:00:26,430 --> 00:00:31,640 Jetons un coup d'œil rapide à la tâche de reconnaissance d'entités nommées 7 00:00:31,640 --> 00:00:38,400 L'objectif de cette tâche est de trouver les entités dans un texte, comme une personne, un lieu 8 00:00:38,400 --> 00:00:40,210 ou une organisation. 9 00:00:40,210 --> 00:00:45,250 Cette tâche est formulée comme l'étiquetage de chaque token avec une classe pour chaque entité, 10 00:00:45,250 --> 00:00:51,719 et une autre classe pour les tokens qui n'ont pas d'entité. 11 00:00:51,719 --> 00:00:55,670 Une autre tâche de classification de tokens est le « part-of-speech ». 12 00:00:55,670 --> 00:01:01,399 L'objectif de cette tâche est d'étiqueter les mots pour une partie particulière du texte, comme 13 00:01:01,399 --> 00:01:05,900 un nom, un pronom, un adjectif, un verbe, etc. 14 00:01:05,900 --> 00:01:11,270 Cette tâche est formulée comme l'étiquetage de chaque token avec les parties du texte. 15 00:01:11,270 --> 00:01:19,659 Les modèles de classification de tokens sont évalués sur l'exactitude, le rappel, la précision et le score F1. 16 00:01:19,659 --> 00:01:22,950 Les métriques sont calculées pour chacune des classes. 17 00:01:22,950 --> 00:01:28,040 Nous calculons les vrais positifs, les vrais négatifs et les faux positifs pour calculer la précision 18 00:01:28,040 --> 00:01:31,829 et le rappel, et prenons leur moyenne harmonique pour obtenir le score F1. 19 00:01:31,829 --> 00:01:42,329 Ensuite, nous les calculons pour chaque classe et prenons la moyenne globale pour évaluer notre modèle. 20 00:01:42,329 --> 00:01:45,680 Un exemple de jeu de données utilisé pour cette tâche est ConLL2003. 21 00:01:45,680 --> 00:01:51,750 Ici, chaque token appartient à une certaine classe d'entités nommées, désignées par les indices de la 22 00:01:51,750 --> 00:01:55,380 liste contenant les étiquettes. 23 00:01:55,380 --> 00:02:00,720 Vous pouvez extraire des informations importantes de factures à l'aide de modèles de reconnaissance d'entités nommées, 24 00:02:00,720 --> 00:02:07,070 telles que la date, le nom de l'organisation ou l'adresse. 25 00:02:07,070 --> 00:02:16,840 Pour plus d'informations sur la tâche de classification de tokens, consultez le cours d'Hugging Face.