Jakob Voss wrote:
Marco S. schrieb:
Kann man mithilfe von Perl/PHP/VB.NET/VC sich einen solchen Konverter basteln? Sowas juckt mich auch schon seit langem...
PS: Wenn die WM-Sources nicht so unstrukturiert wären, könnte ich die Parser rausholen(mithilfe meines Apache/XAMPP)
Ohne MediaWiki wird es dank der vielen Extras und Besonderheiten des Wikitext-Codes wohl schwierig werden. Das Aufsplitten des XML-dumps in einzelne Dateien (Tip: als Dateiname wegen Sonderzeichen die interne ID und nicht den Titel verwenden, siehe auch [1]) ist noch trivial aber schon das Ersetzen aller Vorlagen ist ein Akt. Ist aber möglich und würde mich auch sehr interessieren. Es gibt übrigens schon mehrere Versuche eines Parsers für Wikitext. Die Dateinamen der Bilder lassen sich übrigens aus ihrem Namen berechnen.
Ich wollte die Ankündigung eigentlich auf wikipedia-l schreiben, wenn alles fertig ist, aber was solls...
Ich habe ein Paket, basierend auf dem Tinyweb-Server, PHP, sqlite und einem Original-MediaWiki (ungepatched!), das ohne Installation funktioniert. Einfach auf die Platte kopieren, läuft!
Aber, wie gesagt, noch nicht fertig: Ich habe ein Programm geschrieben, das einen XML-dump in eine sqlite-Datenbank konvertiert, die dann von MediaWiki genutzt werden kann. Leider * dauert das recht lange (ca. 6h für den en-dump) * wird recht groß (ca. 3GB für den en-dump; kann aber für Transportzwecke wohl auf CD-Größe komprimiert werden) * die Datenbank ist im Moment bei voller Größe noch unbenutzbar langsam. Da muss ich noch mit den Indices sspielen...
Ansonsten läuft es relativ problemlos...
Magnus
P.S.: Wer helfen will: Sourcen gibt's bei mir :-)