Delphine,
thanks for sharing this, it's unfortunate that the results are only accessible in the
book, I like the idea of asking the author to write an excerpt/blog post of his results,
which we could then cover in the Research Newsletter.
On related news, this MBA thesis we mentioned in December looks at misspellings in the
English Wikipedia (but using a much smaller sample and rudimentary dictionary lookup
approach):
I thought this might be of interest to people on this
list.
The email from Kropotkine (Board member of Wikimedia France) is in
French, and I'm not going to translate it all, but the gist of it is:
A book came out titled "The Real Difficulties of the French language
in the 21st Century". The author, Dominique Laurent, is an editor of
spellchecking software. In the course of his research to better his
software, he has studied a Wikipedia dump to find out what the most
common mistakes in French might be, and ended up writing a book to
present his findings.
A bit of statistics: The author studied 471 million words in more than
36 million sentences, and in the end analysed about 3 million
mistakes, made by round 120 000 users having contributed to Wikipedia.
He lists the 700 most common mistakes, their typology, the evolution
of mistakes based on a corpus of texts from 20 years ago, a
classification by absolute frequency (how many occurrences of one
mistake) and relative frequency (how many mistakes relatively to the
number of times a word is used) etc.
The book can be found here:
http://www.synapse-fr.com/boutique2/catalog/product_info.php?products_id=226
Question from Kropotkine I found interesting: how can such a work be
used to "train" our spellcheck bots on Wikipedia? :)
Cheers,
Delphine
---------- Forwarded message ----------
From: Kropotkine_113
Date: 2012/4/10
Subject: [Discussions WMFr] Wikipédia comme corpus d'étude des
difficultés du français
To: discussions(a)lists.wikimedia.fr
Bonsoir.
Reçu au siège de l'association un livre : « Les vraies difficultés du
français au XXIe siècle », Dominique Laurent, Éditions Synapse
Développement.
Pourquoi je vous en parle ? Parce l'auteur nous « adresse ce livre à
titre d'information, considérant que c'est un juste retour des choses,
Wikipédia ayant en l'occurrence contribué indirectement à ce travail
». Ce monsieur, éditeur de logiciels professionnels de correction,
s'est servi d'un dump[1] complet des articles de Wikipédia pour faire
une analyse des fautes de français.
471 millions de mots dans plus de 36 millions de phrases, et au final
l'analyse de près de 3 millions de fautes commises par environ de 120
mille internautes ayant contribué à Wikipédia. Les 700 fautes les plus
courantes, leur typologie, l'évolution des fautes par rapport à un
autre corpus de textes datant d'il y a 20 ans, un classement par
fréquence absolue (nombre d'occurrences d'une faute) et par fréquence
relative (nombre d'occurrences d'une faute relativement au nombre
d'occurrences du mot), attribution d'une « importance » en s'appuyant
sur le barème de notation de l'agrégation de lettres (!), etc.[2]
Au passage, il est peut-être possible d'en tirer des informations
intéressantes pour les robots correcteurs qui scannent en permanence
le contenu de Wikipédia (à votre avis qui dresse un tel robot et
pourrait être intéressé par un exemplaire de l'ouvrage ?) et aussi
pourquoi pas pour alimenter les travaux et rapports de l'association
concernant la langue française.
J'avoue que je n'ai pas encore eu le temps de lire le livre, mais
c'est en tout cas un bel hommage à Wikipédia, au moins dans son aspect
base de données/corpus d'étude. Wikipédia ce n'est pas qu'une
encyclopédie, c'est aussi un énorme terrain de recherches et
d'analyses.
Est-ce que vous pensez que c'est une bonne idée que de le contacter
pour lui proposer de nous rédiger un billet pour le blog, sur le côté
« Wikipédia c'est une mine d'or pour les études de la langue française
» ? Oui ? Non ?
Dernière chose : avec une erreur tous les 170 mots, « le taux d'erreur
n'est pas si élevé ». C'est un pro qui le dit :)
++
Kropot.
[1] C'est-à-dire l'extraction sous forme de fichier informatique de
toutes les versions de tous les articles, et non pas uniquement de la
version en ligne. Ce qui permet de repérer l'introduction de la faute,
sa correction éventuelle, etc.
[2] En feuilletant, j'ai aussi aperçu quelques uns des plus beaux
trolls orthographiques de Wikipédia ;D
--
@notafish
NB. This gmail address is used for mailing lists. Personal emails will get lost.
Intercultural musings: Ceci n'est pas une endive -
http://blog.notanendive.org
Photos with simple eyes: notaphoto -
http://photo.notafish.org
_______________________________________________
Wiki-research-l mailing list
Wiki-research-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wiki-research-l