Hallo Matthias,
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch simpel. Und per Regexp wird man auch die Wiki-Syntax los.
Gruss,
Manuel