Hallo Matthias,
Vor einiger Zeit hatte ich schon einmal auf
http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische
Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein
dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch
gerne erneuern, es fehlt mir nur an der Zeit einen sauberen
Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür
die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware
vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein
PHP-Script welches die reine Wiki-Syntax aus
der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch
simpel.
Und per Regexp wird man auch die Wiki-Syntax los.
Gruss,
Manuel
--
---------------------------------------------------------
All-Things-Open Projektgruppe
m.schneider(a)all-things-open.org
---------------------------------------------------------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCM d-- s:- a? C++$ UL++++ P+> L+++>$ E- W+++$ N+ o-- K- w--$ O+ M+ V
PS+ PE- Y+ PGP+ t 5 X R UF++++ !tv b+> DI D+ G+ e> h r y++
------END GEEK CODE BLOCK------