Hallo,
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
Danke, Matthias