I thought this might be of interest to people on this list.
The email from Kropotkine (Board member of Wikimedia France) is in French, and I'm not going to translate it all, but the gist of it is:
A book came out titled "The Real Difficulties of the French language in the 21st Century". The author, Dominique Laurent, is an editor of spellchecking software. In the course of his research to better his software, he has studied a Wikipedia dump to find out what the most common mistakes in French might be, and ended up writing a book to present his findings.
A bit of statistics: The author studied 471 million words in more than 36 million sentences, and in the end analysed about 3 million mistakes, made by round 120 000 users having contributed to Wikipedia. He lists the 700 most common mistakes, their typology, the evolution of mistakes based on a corpus of texts from 20 years ago, a classification by absolute frequency (how many occurrences of one mistake) and relative frequency (how many mistakes relatively to the number of times a word is used) etc.
The book can be found here: http://www.synapse-fr.com/boutique2/catalog/product_info.php?products_id=226
Question from Kropotkine I found interesting: how can such a work be used to "train" our spellcheck bots on Wikipedia? :)
Cheers,
Delphine
---------- Forwarded message ---------- From: Kropotkine_113 Date: 2012/4/10 Subject: [Discussions WMFr] Wikipédia comme corpus d'étude des difficultés du français To: discussions@lists.wikimedia.fr
Bonsoir.
Reçu au siège de l'association un livre : « Les vraies difficultés du français au XXIe siècle », Dominique Laurent, Éditions Synapse Développement.
Pourquoi je vous en parle ? Parce l'auteur nous « adresse ce livre à titre d'information, considérant que c'est un juste retour des choses, Wikipédia ayant en l'occurrence contribué indirectement à ce travail ». Ce monsieur, éditeur de logiciels professionnels de correction, s'est servi d'un dump[1] complet des articles de Wikipédia pour faire une analyse des fautes de français.
471 millions de mots dans plus de 36 millions de phrases, et au final l'analyse de près de 3 millions de fautes commises par environ de 120 mille internautes ayant contribué à Wikipédia. Les 700 fautes les plus courantes, leur typologie, l'évolution des fautes par rapport à un autre corpus de textes datant d'il y a 20 ans, un classement par fréquence absolue (nombre d'occurrences d'une faute) et par fréquence relative (nombre d'occurrences d'une faute relativement au nombre d'occurrences du mot), attribution d'une « importance » en s'appuyant sur le barème de notation de l'agrégation de lettres (!), etc.[2]
Au passage, il est peut-être possible d'en tirer des informations intéressantes pour les robots correcteurs qui scannent en permanence le contenu de Wikipédia (à votre avis qui dresse un tel robot et pourrait être intéressé par un exemplaire de l'ouvrage ?) et aussi pourquoi pas pour alimenter les travaux et rapports de l'association concernant la langue française.
J'avoue que je n'ai pas encore eu le temps de lire le livre, mais c'est en tout cas un bel hommage à Wikipédia, au moins dans son aspect base de données/corpus d'étude. Wikipédia ce n'est pas qu'une encyclopédie, c'est aussi un énorme terrain de recherches et d'analyses.
Est-ce que vous pensez que c'est une bonne idée que de le contacter pour lui proposer de nous rédiger un billet pour le blog, sur le côté « Wikipédia c'est une mine d'or pour les études de la langue française » ? Oui ? Non ?
Dernière chose : avec une erreur tous les 170 mots, « le taux d'erreur n'est pas si élevé ». C'est un pro qui le dit :)
++
Kropot.
[1] C'est-à-dire l'extraction sous forme de fichier informatique de toutes les versions de tous les articles, et non pas uniquement de la version en ligne. Ce qui permet de repérer l'introduction de la faute, sa correction éventuelle, etc.
[2] En feuilletant, j'ai aussi aperçu quelques uns des plus beaux trolls orthographiques de Wikipédia ;D