subtitles/fr/tasks_00_🤗-tasks-token-classification.srt (75 lines of code) (raw):
1
00:00:04,520 --> 00:00:07,400
Bienvenue dans la série d'Hugging Face sur les tâches !
2
00:00:07,400 --> 00:00:11,870
Dans cette vidéo, nous allons jeter un coup d'œil à la tâche de classification de tokens.
3
00:00:11,870 --> 00:00:17,900
La classification de tokens consiste à attribuer une étiquette à chaque token d'une phrase
4
00:00:17,900 --> 00:00:23,310
Il existe plusieurs tâches de classification de tokens, les plus courantes étant la reconnaissance d’entités nommées
5
00:00:23,310 --> 00:00:26,430
et le « part-of-speech ».
6
00:00:26,430 --> 00:00:31,640
Jetons un coup d'œil rapide à la tâche de reconnaissance d'entités nommées
7
00:00:31,640 --> 00:00:38,400
L'objectif de cette tâche est de trouver les entités dans un texte, comme une personne, un lieu
8
00:00:38,400 --> 00:00:40,210
ou une organisation.
9
00:00:40,210 --> 00:00:45,250
Cette tâche est formulée comme l'étiquetage de chaque token avec une classe pour chaque entité,
10
00:00:45,250 --> 00:00:51,719
et une autre classe pour les tokens qui n'ont pas d'entité.
11
00:00:51,719 --> 00:00:55,670
Une autre tâche de classification de tokens est le « part-of-speech ».
12
00:00:55,670 --> 00:01:01,399
L'objectif de cette tâche est d'étiqueter les mots pour une partie particulière du texte, comme
13
00:01:01,399 --> 00:01:05,900
un nom, un pronom, un adjectif, un verbe, etc.
14
00:01:05,900 --> 00:01:11,270
Cette tâche est formulée comme l'étiquetage de chaque token avec les parties du texte.
15
00:01:11,270 --> 00:01:19,659
Les modèles de classification de tokens sont évalués sur l'exactitude, le rappel, la précision et le score F1.
16
00:01:19,659 --> 00:01:22,950
Les métriques sont calculées pour chacune des classes.
17
00:01:22,950 --> 00:01:28,040
Nous calculons les vrais positifs, les vrais négatifs et les faux positifs pour calculer la précision
18
00:01:28,040 --> 00:01:31,829
et le rappel, et prenons leur moyenne harmonique pour obtenir le score F1.
19
00:01:31,829 --> 00:01:42,329
Ensuite, nous les calculons pour chaque classe et prenons la moyenne globale pour évaluer notre modèle.
20
00:01:42,329 --> 00:01:45,680
Un exemple de jeu de données utilisé pour cette tâche est ConLL2003.
21
00:01:45,680 --> 00:01:51,750
Ici, chaque token appartient à une certaine classe d'entités nommées, désignées par les indices de la
22
00:01:51,750 --> 00:01:55,380
liste contenant les étiquettes.
23
00:01:55,380 --> 00:02:00,720
Vous pouvez extraire des informations importantes de factures à l'aide de modèles de reconnaissance d'entités nommées,
24
00:02:00,720 --> 00:02:07,070
telles que la date, le nom de l'organisation ou l'adresse.
25
00:02:07,070 --> 00:02:16,840
Pour plus d'informations sur la tâche de classification de tokens, consultez le cours d'Hugging Face.