Hallo,
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
Danke, Matthias
Hallo Matthias,
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch simpel. Und per Regexp wird man auch die Wiki-Syntax los.
Gruss,
Manuel
-----Original Message----- From: Manuel Schneider Sent: Wednesday, November 09, 2005 7:55 PM
Hallo Matthias,
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine
textstatistische
Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist
nunmehr ein
dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich
würde das auch
gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr
einfachem Markup fpür
die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch simpel. Und per Regexp wird man auch die Wiki-Syntax los.
Kannst Du mir bitte das Skript schicken?
Marco
-----BEGIN GEEK CODE BLOCK----- Version: 3.1 GCM d-- s:- a? C++$ UL++++ P+> L+++>$ E- W+++$ N+ o-- K- w--$ O+ M+ V PS+ PE- Y+ PGP+ t 5 X R UF++++ !tv b+> DI D+ G+ e> h r y++ ------END GEEK CODE BLOCK------
PS:Wie machst Du den??
Hallo, Am Mittwoch, den 09.11.2005, 19:54 +0100 schrieb Manuel Schneider [Everything Open]:
Vor einiger Zeit hatte ich schon einmal auf http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch gerne erneuern, es fehlt mir nur an der Zeit einen sauberen Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch simpel.
Sehr schön. Ich bräuchte eine text/plain Version des Artikelnamensraums. Und für jeden Artikel einen Link auf einer extra Zeile vorne dran, der auf die Original-URL verweist in der Form (mit dem einen whitespace am Zeilenanfang): <quelle><name><a href="$LINK">$TITEL</a></name></quelle> Sei hierbei $TITEL der in HTML-Entities kodierte Titel des Eintrags und $LINK der vollständige URL zum Original-Artikel. Wenn es nicht viel Arbeit macht, könnte man auch daran denken, die in den Kategorien kodierten Daten zu nutzen. Da wäre eine Form <kategorie><name>$KAT1</name> ... <name>$KATn</name></kategorie> hilfreich mit den Klartextnamen der Kategorien als $KAT1 - $KATn.
Falls sich übrigens jemand dafür interessiert, einmal auf dies aufbauend an geeigneter Stelle ein Paper über die textstatistische / differenzanalytische / ... Auswertung der Wikipedia zu produzieren und zu plazieren, nur zu, ich stehe gerne mit Rat und Tat und Co-Autorenschaft zur Seite.
Viele Grüße, Matthias