Re: [Wiki-research-l] Wikipedia as base for a study on the most common mistakes in French

11 Apr 2012

Delphine,

thanks for sharing this, it's unfortunate that the results are only accessible in the
book, I like the idea of asking the author to write an excerpt/blog post of his results,
which we could then cover in the Research Newsletter.

On related news, this MBA thesis we mentioned in December looks at misspellings in the
English Wikipedia (but using a much smaller sample and rudimentary dictionary lookup
approach):
http://meta.wikimedia.org/wiki/Research:Newsletter/2011-12-26#Spell-checkin…

Dario

On Apr 10, 2012, at 1:57 PM, Delphine Ménard wrote:

...
  I thought this might be of interest to people on this
list.

 The email from Kropotkine (Board member of Wikimedia France) is in
 French, and I'm not going to translate it all, but the gist of it is:

 A book came out titled "The Real Difficulties of the French language
 in the 21st Century". The author, Dominique Laurent, is an editor of
 spellchecking software. In the course of his research to better his
 software, he has studied a Wikipedia dump to find out what the most
 common mistakes in French might be, and ended up writing a book to
 present his findings.

 A bit of statistics: The author studied 471 million words in more than
 36 million sentences, and in the end analysed about 3 million
 mistakes, made by round 120 000 users having contributed to Wikipedia.
 He lists the 700 most common mistakes, their typology, the evolution
 of mistakes based on a corpus of texts from 20 years ago, a
 classification by absolute frequency (how many occurrences of one
 mistake) and relative frequency (how many mistakes relatively to the
 number of times a word is used) etc.

 The book can be found here:
 http://www.synapse-fr.com/boutique2/catalog/product_info.php?products_id=226

 Question from Kropotkine I found interesting: how can such a work be
 used to "train" our spellcheck bots on Wikipedia? :)

 Cheers,

 Delphine

 ---------- Forwarded message ----------
 From: Kropotkine_113
 Date: 2012/4/10
 Subject: [Discussions WMFr] Wikipédia comme corpus d'étude des
 difficultés du français
 To: discussions(a)lists.wikimedia.fr

 Bonsoir.

 Reçu au siège de l'association un livre : « Les vraies difficultés du
 français au XXIe siècle », Dominique Laurent, Éditions Synapse
 Développement.

 Pourquoi je vous en parle ? Parce l'auteur nous « adresse ce livre à
 titre d'information, considérant que c'est un juste retour des choses,
 Wikipédia ayant en l'occurrence contribué indirectement à ce travail
 ». Ce monsieur, éditeur de logiciels professionnels de correction,
 s'est servi d'un dump[1] complet des articles de Wikipédia pour faire
 une analyse des fautes de français.

 471 millions de mots dans plus de 36 millions de phrases, et au final
 l'analyse de près de 3 millions de fautes commises par environ de 120
 mille internautes ayant contribué à Wikipédia. Les 700 fautes les plus
 courantes, leur typologie, l'évolution des fautes par rapport à un
 autre corpus de textes datant d'il y a 20 ans, un classement par
 fréquence absolue (nombre d'occurrences d'une faute) et par fréquence
 relative (nombre d'occurrences d'une faute relativement au nombre
 d'occurrences du mot), attribution d'une « importance » en s'appuyant
 sur le barème de notation de l'agrégation de lettres (!), etc.[2]

 Au passage, il est peut-être possible d'en tirer des informations
 intéressantes pour les robots correcteurs qui scannent en permanence
 le contenu de Wikipédia (à votre avis qui dresse un tel robot et
 pourrait être intéressé par un exemplaire de l'ouvrage ?) et aussi
 pourquoi pas pour alimenter les travaux et rapports de l'association
 concernant la langue française.

 J'avoue que je n'ai pas encore eu le temps de lire le livre, mais
 c'est en tout cas un bel hommage à Wikipédia, au moins dans son aspect
 base de données/corpus d'étude. Wikipédia ce n'est pas qu'une
 encyclopédie, c'est aussi un énorme terrain de recherches et
 d'analyses.

 Est-ce que vous pensez que c'est une bonne idée que de le contacter
 pour lui proposer de nous rédiger un billet pour le blog, sur le côté
 « Wikipédia c'est une mine d'or pour les études de la langue française
 » ? Oui ? Non ?

 Dernière chose : avec une erreur tous les 170 mots, « le taux d'erreur
 n'est pas si élevé ». C'est un pro qui le dit :)

 ++

 Kropot.

 [1] C'est-à-dire l'extraction sous forme de fichier informatique de
 toutes les versions de tous les articles, et non pas uniquement de la
 version en ligne. Ce qui permet de repérer l'introduction de la faute,
 sa correction éventuelle, etc.

 [2] En feuilletant, j'ai aussi aperçu quelques uns des plus beaux
 trolls orthographiques de Wikipédia ;D

 -- 
 @notafish

 NB. This gmail address is used for mailing lists. Personal emails will get lost.
 Intercultural musings: Ceci n'est pas une endive - http://blog.notanendive.org
 Photos with simple eyes: notaphoto - http://photo.notafish.org

 _______________________________________________
 Wiki-research-l mailing list
 Wiki-research-l(a)lists.wikimedia.org
 https://lists.wikimedia.org/mailman/listinfo/wiki-research-l 

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

Re: [Wiki-research-l] Wikipedia as base for a study on the most common mistakes in French