Un, qu'est-ce que le marquage de données ?
Commençons par discuter de ce qu'est le marquage de données. Il existe de nombreux types de marquage de données, tels que la classification, le dessin de cadres, les annotations, les balises, etc. Nous en parlerons plus en détail ci-dessous.
Pour comprendre le marquage de données, il faut d'abord comprendre que l'IA remplace en partie les fonctions cognitives humaines. Pensez à la façon dont nous avons appris, par exemple, pour apprendre à reconnaître une pomme, quelqu'un doit vous montrer une pomme et vous dire : "C'est une pomme". Ensuite, lorsque vous rencontrez une pomme, vous savez que cela s'appelle une "pomme".
Par analogie avec l'apprentissage automatique, nous devons lui apprendre à reconnaître une pomme. Si vous lui montrez directement une image d'une pomme, il n'a aucune idée de ce que c'est. Nous devons d'abord avoir une image de la pomme avec l'étiquette "pomme" dessus, puis la machine apprend des caractéristiques à partir d'un grand nombre d'images. À ce moment-là, si nous lui montrons n'importe quelle image de pomme, elle pourra la reconnaître.
Il convient de mentionner ici le concept de jeu d'entraînement et de jeu de test. Les jeux d'entraînement et de test sont tous deux des données étiquetées. Prenons l'exemple d'une pomme, supposons que nous avons 1000 images étiquetées "pomme", nous pouvons utiliser 900 images comme jeu d'entraînement et 100 comme jeu de test. La machine apprend un modèle à partir de 900 images de pommes, puis nous utilisons les 100 autres images que la machine n'a jamais vues pour les reconnaître, et nous pouvons ainsi obtenir la précision du modèle. Pensez à nos années d'école, le contenu des examens n'est jamais le même que nos devoirs, c'est ainsi que nous pouvons tester l'efficacité réelle de l'apprentissage, ce qui explique pourquoi nous devons définir un jeu de test.
Nous savons que l'apprentissage automatique se divise en apprentissage supervisé et non supervisé. Les résultats de l'apprentissage non supervisé sont incontrôlables et sont souvent utilisés pour des expériences exploratoires. Dans les applications de produits réels, on utilise généralement l'apprentissage supervisé. L'apprentissage automatique supervisé nécessite des données étiquetées comme expérience préalable.
Avant de procéder au marquage des données, nous devons d'abord nettoyer les données pour obtenir des données conformes à nos exigences. Le nettoyage des données comprend la suppression des données non valides, l'organisation en un format régulier, etc. Les exigences spécifiques des données peuvent être confirmées avec le personnel algorithmique.
Deux, quelques types courants de marquage de données
1. Marquage par classification : le marquage par classification est ce que nous appelons communément l'étiquetage. En général, il s'agit de sélectionner l'étiquette correspondante à partir d'un ensemble d'étiquettes prédéfini, qui est un ensemble fermé. Comme illustré ci-dessous, une image peut avoir de nombreuses classifications/étiquettes : adulte, femme, asiatique, cheveux longs, etc. Pour le texte, nous pouvons marquer le sujet, le verbe, l'objet, les noms, les verbes, etc.
Applicable : texte, image, voix, vidéo
Applications : reconnaissance d'âge du visage, reconnaissance des émotions, reconnaissance du sexe
2. Marquage par cadres : le marquage par cadres dans la vision par machine est facile à comprendre, il s'agit simplement de sélectionner l'objet à détecter. Par exemple, pour la reconnaissance faciale, il faut d'abord déterminer la position du visage. Pour la reconnaissance des piétons, comme illustré ci-dessous.
Applicable : image
Applications : reconnaissance faciale, reconnaissance d'objets
3. Marquage par zones : par rapport au marquage par cadres, le marquage par zones exige une plus grande précision. Les bords peuvent être flexibles. Par exemple, reconnaissance des routes dans la conduite autonome.
Applicable : image
Applications : conduite autonome
4. Marquage par points : certaines applications nécessitant des exigences détaillées sur les caractéristiques nécessitent souvent un marquage par points. Reconnaissance faciale, reconnaissance de structures osseuses, etc.
Applicable : image
Applications : reconnaissance faciale, reconnaissance de structures osseuses
5. Autres marquages : les types de marquage au-delà des quelques types courants ci-dessus incluent de nombreux marquages personnalisés. Selon les différents besoins, différents marquages sont nécessaires. Par exemple, pour le résumé automatique, il faut marquer les points principaux de l'article, ce marquage ne rentre strictement dans aucune des catégories précédentes. (Ou vous pouvez le classer comme classification, mais marquer les points principaux n'a pas de norme objective aussi claire que le marquage d'une pomme, où la plupart des résultats de marquage seraient similaires.)
Trois, le processus de marquage de données
1. Détermination des normes de marquage
Déterminer des normes est une étape clé pour garantir la qualité des données, il faut s'assurer qu'il existe une norme de référence.
Définir des exemples et des modèles de marquage. Par exemple, la carte de couleur standard pour les couleurs. Pour les données ambiguës, définir une méthode de traitement uniforme, comme l'abandonner ou uniformiser le marquage.
Les normes de référence doivent parfois également tenir compte de l'industrie. Prenons l'exemple de l'analyse de sentiment textuel, le terme "cicatrice" peut être un terme négatif dans le domaine de la psychologie, tandis que dans le domaine médical, il peut être un terme neutre.
2. Détermination de la forme de marquage
La forme de marquage est généralement définie par le personnel algorithmique, par exemple, pour certains marquages de texte, la reconnaissance des questions ne nécessite que d'étiqueter la phrase par 0 ou 1. Si c'est une question, marquez 1, sinon marquez 0.
3. Choix des outils de marquage
Une fois que la forme de marquage est déterminée, il est temps de choisir les outils de marquage. En général, cela est également fourni par le personnel algorithmique. Les grandes entreprises peuvent développer en interne un outil de visualisation spécifiquement destiné au marquage de données. Par exemple :
Il existe également des outils de marquage de données open source, comme le petit outil labelImg recommandé sur Github.
Quatrième, conception des produits de marquage de données
En combinant mon expérience de création d'un outil de marquage de données, discutons de quelques astuces pour concevoir des outils de marquage de données.
Un outil de marquage de données comprend généralement :
Barre de progression : utilisée pour indiquer l'avancement du marquage des données. Les personnes en charge du marquage ont généralement des exigences de volume de tâches, ce qui facilite à la fois le suivi de l'avancement et les statistiques. Sujet de marquage : cela peut être conçu en fonction de la forme de marquage, en principe, plus c'est simple et facile à utiliser, mieux c'est. Selon l'attention requise pour le marquage, on peut le diviser en marquage unique et en marquage multiple, selon les besoins. Fonction d'importation/exportation de données : si votre outil de marquage est directement connecté aux données du modèle, cela peut ne pas être nécessaire. Fonction de favoris : cela pourrait être quelque chose auquel ceux qui n'ont jamais été en contact avec le marquage de données ne penseraient pas. Une situation fréquente pour les personnes en charge du marquage est la fatigue ou la rencontre de données ambiguës, elles peuvent alors les sauvegarder pour les marquer plus tard. Mécanisme de contrôle qualité : lors de la distribution des données, il est possible de distribuer aléatoirement certaines données déjà marquées pour vérifier la fiabilité des personnes en charge du marquage.