Re: [Wikide-l] Unterstützung gesucht

10 Nov 2005


      Hallo,
Am Mittwoch, den 09.11.2005, 19:54 +0100 schrieb Manuel Schneider
[Everything Open]:
...
...
Vor einiger Zeit hatte ich schon einmal auf
http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische
Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein
dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch
gerne erneuern, es fehlt mir nur an der Zeit einen sauberen
Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür
die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware
vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus 
der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch 
simpel.
Sehr schön. Ich bräuchte eine text/plain Version des Artikelnamensraums.
Und für jeden Artikel einen Link auf einer extra Zeile vorne dran, der
auf die Original-URL verweist in der Form (mit dem einen whitespace am
Zeilenanfang):
 <quelle><name><a href="$LINK">$TITEL</a></name></quelle>
Sei hierbei $TITEL der in HTML-Entities kodierte Titel des Eintrags und
$LINK der vollständige URL zum Original-Artikel.
Wenn es nicht viel Arbeit macht, könnte man auch daran denken, die in
den Kategorien kodierten Daten zu nutzen. Da wäre eine Form
 <kategorie><name>$KAT1</name> ... <name>$KATn</name></kategorie>
hilfreich mit den Klartextnamen der Kategorien als $KAT1 - $KATn.
Falls sich übrigens jemand dafür interessiert, einmal auf dies aufbauend
an geeigneter Stelle ein Paper über die textstatistische /
differenzanalytische / ... Auswertung der Wikipedia zu produzieren und
zu plazieren, nur zu, ich stehe gerne mit Rat und Tat und
Co-Autorenschaft zur Seite.
Viele Grüße,
Matthias
-- 
Matthias Richter - PGP-Mail welcome, use key 1024D/D5749D05 2001-03-04
Der deutsche Wortschatz im Netz -> http://wortschatz.uni-leipzig.de/

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

Re: [Wikide-l] Unterstützung gesucht