Exemple de corpus avec corrigé

Chaque phrase a été corrigée par quatre annotateurs, ce qui signifie que chaque phrase aurait quatre références. En général, les annotateurs sont invités à modifier le moins possible les phrases pour les rendre grammaticalement corrects. Ce jeu de données, que nous appelons le corpus de l`Université Johns Hopkins (JFLEG), contenait environ 1 500 phrases d`un examen d`aptitude en anglais, écrits par des locuteurs d`un nombre varié de langues non anglaises. Et nous voulons fournir à la communauté PNL de meilleurs outils pour aider à faire progresser cet objectif. Il est également intéressant de dire que les deux systèmes qui ont été entraînés par l`apprentissage approfondi (NUS et CAMB16) ont effectivement produit des phrases qui sonnent plus couramment, mais au détriment du maintien du sens de la phrase originale: dans l`échantillon de 100 phrases, le plus couramment système a réellement changé le sens de 15% des peines. Nous avons appliqué notre système d`évaluation Fluency-Edit à quatre systèmes académiques de premier plan (AMU, NUS, CAMB16 et CAMB14 en les exécutant sur les phrases non grammaticales de ce jeu de données. Ce poste a été écrit en collaboration avec Sunshine Yin, un ingénieur logiciel à Grammarly. Le „Fluency Edit” ressemblerait à quelque chose comme ceci: ils ont juste créer une telle bonne impression que les gens sont obligés de l`acheter. En utilisant l`approche «minimal Edit», la phrase serait corrigée à: ils créent juste une impression si bien que les gens sont traînés pour l`acheter. Les algorithmes de correction de phrase doivent être évalués par rapport à un jeu de données pour tester si l`algorithme fonctionne bien. Jusqu`à présent, la communauté PNL a utilisé la norme de «corrections minimales d`édition, i.

Ces corrections possibles sont appelées «références. La plupart des jeux de données existants ne contiennent qu`une ou deux références pour chaque phrase erronée (les références supplémentaires sont coûteuses à générer), et ces références ne contiennent que des modifications minimales. Chaque annotateur devait passer un test de dépistage pour se qualifier. Nous croyons que le domaine devrait progresser vers la fixation des erreurs grammaticales (telles que les modifications minimales) tout en rendant la phrase plus native de sondage (couramment). Les erreurs orthographiques incluent des erreurs d`orthographe, de coupure de mots, de majuscules, de coupures de mot, d`accentuation et de ponctuation. Où obtiendrait-on un tel ensemble de données? Prenez la phrase suivante incorrecte: ils ont juste creat impression si bien que les gens sont glisser pour l`acheter. En particulier, environ 30% des corrections contenaient des modifications de la fluidité, et environ 60% contenaient seulement des modifications minimes, telles que des modifications au nombre de verbes de prépositions. Nous leur avons également conseillé de conserver le plus possible la phrase originale. Par exemple, ils sont généralement invités à mettre en surbrillance une étendue de texte incorrect, assigner une erreur spécifique à cette étendue à partir d`une liste de types d`erreurs, puis tapez une correction à l`étendue. Étonnamment, nous avons constaté que le système qui a été le meilleur à faire des modifications minimales, AMU, en fait, n`a pas de prix aussi élevé sur les modifications de fluidité.

Bien que la méthode de modifications minimales a l`avantage de concentrer le processus d`annotation, il est problématique car il existe de nombreuses façons de corriger une phrase, et parce que les modifications minimales souvent ne conduisent pas à des phrases de sondage naturel. Le tableau ci-dessous, qui est basé sur une évaluation manuelle de 100 phrases annotées, montre le pourcentage de phrases contenant chaque type d`erreur, ainsi que le pourcentage de ces erreurs qui ont été édités par les humains. Ces phrases parallèles sont créées par des humains (comme les professeurs d`anglais), qui sont embauchés pour annoter (i. Une fois les annotations terminées, nous avons examiné 100 phrases de l`ensemble de données et les avons classées par types d`erreurs contenues dans les phrases.

Grudzień 17, 2018

Posted by:

Category: Bez kategorii

Tags:

Comments

No Comments

Leave a reply

Videos, Slideshows and Podcasts by Cincopa Wordpress Plugin