Hallo,
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein (damit ich jeweils dann utf8_encode($blabla) zwischenschalten kann).
Danke & Äs Grüässli Filzstift
Hallo,
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein.
von den von vs.aka-online.de/globalwpsearch/ unterstützten 50 Wikipedias benutzen neben den zwei von dir genannten noch en: und sv: UTF8 nicht.
Gruß, Aka, keine vollständige solche Liste kennend
Andre Karwath schrieb:
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein.
Die von Erik Zachte's Wikistat exportierte Liste (siehe http://meta.wikimedia.org/wiki/Wikistat_csv) enthält auch keine brauchbare Angabe - probier's mal auf wikitech-l!
von den von vs.aka-online.de/globalwpsearch/ unterstützten 50 Wikipedias benutzen neben den zwei von dir genannten noch en: und sv: UTF8 nicht.
Was für tolle Tools es alles gibt! Loggst du die Recentchanges mit und Speicherst sie in einer Datenbank? Wenn dem so ist, würde ich die gerne mal statistisch auswerten! Also falls möglich nicht so viele Daten wegschmeissen!
Kannst du einbauen, dass man Spezialseite ausblenden kann? Es wäre interessant, nur die am häufigsten bearbeiteten Artikel/Diskussionsseiten zu bekommen, da kann man sofort sehen, wo grade was los ist (z.B. heute bei [[Orte aus Star Wars]], [[Diskussion:Jürgen Rüttgers]], [[Wolfgang Beinert]] und [[Linksfaschismus]]).
Gruß, Jakob
Hallo,
von den von vs.aka-online.de/globalwpsearch/ unterstützten 50 Wikipedias benutzen neben den zwei von dir genannten noch en: und sv: UTF8 nicht.
Was für tolle Tools es alles gibt! Loggst du die Recentchanges mit und Speicherst sie in einer Datenbank?
GlobalWPSearch meinst du offensichtlich nicht, sondern http://vs.aka-online.de/wppagehiststat/ ;) Das benutzt des geringeren Platzbedarfs und der besseren Performance keine Datenbank und hält aus den gleichen Gründen nur die letzten 24 Stunden vor.
Wenn dem so ist, würde ich die gerne mal statistisch auswerten! Also falls möglich nicht so viele Daten wegschmeissen!
Ich könnte dir anbieten, die Daten auch über einen längeren Zeitraum - unabhängig von der Seite oben - einfach zu sammeln. Was immer du dann damit tun möchtest ;)
Kannst du einbauen, dass man Spezialseite ausblenden kann? Es wäre interessant, nur die am häufigsten bearbeiteten Artikel/Diskussionsseiten zu bekommen, da kann man sofort sehen, wo grade was los ist (z.B. heute bei [[Orte aus Star Wars]], [[Diskussion:Jürgen Rüttgers]], [[Wolfgang Beinert]] und [[Linksfaschismus]]).
Dafür ist es da. Dass die Spezialseiten so ganz oben stehen, hat mich selbst überrascht. Ausblenden kann ich aber einbauen.
Gruß, Aka
On 6/23/05, Jakob Voss jakob.voss@nichtich.de wrote:
von den von vs.aka-online.de/globalwpsearch/ unterstützten 50 Wikipedias benutzen neben den zwei von dir genannten noch en: und sv: UTF8 nicht.
Was für tolle Tools es alles gibt!
Das finde ich auch. Allerdings sind die reichlich verstreut.
Nur mal so als Frage in den Raum geworfen: Wäre es nicht eine Idee, einen eigenen Server zu haben, auf dem man solche Tools entwickeln bzw. zentral bereitstellen kann?
Das könnte vielleicht auch den einen oder anderen Entwickler, der nicht selbst über ausreichende Serverkapazitäten verfügt, auch mal zum Experimentieren veranlassen. Im Optimalfall könnte man noch einen DB-Server dazustellen, der als Slave automatisch alle Updates aus Florida erhält.
Hardware und Hosting sollten kein Problem sein. Es bräuchte eigentlich nur jemanden, der bereit ist, einen solchen Server zu administrieren - und generelles Interesse der verschiedenen Entwickler natürlich.
Viele Grüße Arne
Arne Klempert wrote:
On 6/23/05, Jakob Voss jakob.voss@nichtich.de wrote:
Was für tolle Tools es alles gibt!
Das finde ich auch. Allerdings sind die reichlich verstreut.
Nur mal so als Frage in den Raum geworfen: Wäre es nicht eine Idee, einen eigenen Server zu haben, auf dem man solche Tools entwickeln bzw. zentral bereitstellen kann?
Mal davon ausgehend, dass all diese Tools Open Source ist (alles andere wäre IMHO Blödsinn): warum nicht einfach vorhandene Infrastruktur wie sourceforge.net verwenden? Da gibt es CVS, Downloadserver, Bugtracker usw. für lau, und die MediaWiki-Devs können sich um anderes kümmern.
Den Python-Bot entwickeln wir z. B. auf sf.net [1], das klappt alles wunderbar.
Praktisch könnte es sein, z. B. ein Projekt 'MediaWiki-Tools' anzulegen, wo kleine Tools gesammelt werden, für die sich kein eigenes Projekt lohnt.
Daniel
On 6/23/05, Daniel Herding DHerding@gmx.de wrote:
Arne Klempert wrote:
On 6/23/05, Jakob Voss jakob.voss@nichtich.de wrote:
Was für tolle Tools es alles gibt!
Das finde ich auch. Allerdings sind die reichlich verstreut.
Nur mal so als Frage in den Raum geworfen: Wäre es nicht eine Idee, einen eigenen Server zu haben, auf dem man solche Tools entwickeln bzw. zentral bereitstellen kann?
Mal davon ausgehend, dass all diese Tools Open Source ist (alles andere wäre IMHO Blödsinn): warum nicht einfach vorhandene Infrastruktur wie sourceforge.net verwenden? Da gibt es CVS, Downloadserver, Bugtracker usw. für lau, und die MediaWiki-Devs können sich um anderes kümmern.
Es ging mir primär um einen Server, auf dem die diversen Web-Applikationen zur Nutzung bereitgestellt werden. Und das dürfte bei sourceforge etwas schwierig werden, zumindest wenn die Tools Zugriff auf eine DB mit den WP-Inhalten benötigen, oder haben die mittlerweile keine MySQL-Beschränkungen mehr?
Ein solcher Server müsste übrigens nicht zwangsläufig von den MediaWiki-Devs administriert werden. Deshalb ja meine Frage, ob jemand Lust hätte.
Viele Grüße Arne
Hallo
Ein solcher Server müsste übrigens nicht zwangsläufig von den MediaWiki-Devs administriert werden. Deshalb ja meine Frage, ob jemand Lust hätte.
Ich würde für sowas meinen frisch gemieteten Server bereitstellen, zu klären wäre nur was genau du dir vorstellst. Denn mit einem wöchentlichen Upload der Wp-Datenbank wäre mein Traffic sehr schnell erschöpft.
Gruß
Finanzer
Jakob Voss jakob.voss@nichtich.de schrieb am Thu, 23 Jun 2005 22:47:55 +0200:
Kannst du einbauen, dass man Spezialseite ausblenden kann? Es wäre interessant, nur die am häufigsten bearbeiteten Artikel/Diskussionsseiten zu bekommen, da kann man sofort sehen, wo grade was los ist (z.B. heute bei [[Orte aus Star Wars]], [[Diskussion:Jürgen Rüttgers]], [[Wolfgang Beinert]] und [[Linksfaschismus]]).
So, will ich mich mal melden ;). Ich sammle (derzeit nichtöffentlich) Bearbeitungszahlen wie aka auch. Ich speichere die Daten aber stundenweise. Ich kann also für einzelne Artikel und natürlich auch alle zusammen für jede Stunde sagen, wieviele Edits es gab. Leider weiß ich noch nicht ansatzweise, wie ich diese Datenflut langfristig halten kann, daher habe ich noch kaum Tools für die Auswertung gebastelt. Das ist sicher auch der Grund, wieso aka nur die letzten 24 Stunden speichert ;).
Möglich ist aber z.B. eine grafische Anzeige, wie unter http://www.apper.de/wikipedia/wpstats.png.
Auch die Byte-Änderungen werden entsprechend gespeichert/aufaddiert. Ansatzweise ist das interessant, beispielsweise kamen gestern (23. Juni) 4.102.761 Bytes zu Wikipedia-Seiten hinzu, davon 1.944.947 Bytes zu Artikeln. Über die Hälfte von allem, was geschrieben wurde, war also auf Diskussions/Benutzer/Wikipedia-Seiten. Dazu muss noch ergänzt werden, dass gelöschte Artikel nicht berechnet werden, die Zahl also nochmals kleiner ausfällt.
Für einzelne Artikel ist es natürlich nicht sooo gut geeignet, da man in diesem Fall lieber direkt die Daten aus der Wikipedia holen sollte, aber für "Hitlisten" ist das schon brauchbar.
Für gestern (23. Juni) ergibt sich ein ähnliches Bild, wie es sich in akas Tool für die letzten 24h auch ergibt.
1. Wikipedia:Löschkandidaten/23. Juni 2005 (480 Edits) 2. Wikipedia:Spielwiese (147 Edits) 3. Wikipedia:Löschkandidaten/22. Juni 2005 (146 Edits) 4. Diskussion:Jürgen Rüttgers (97 Edits) 5. Wikipedia:Löschkandidaten/21. Juni 2005 (77 Edits) 6. Wikipedia:Fragen zur Wikipedia (76 Edits) 7. Orte aus Star Wars (61 Edits) 8. Wikipedia:Kandidaten für exzellente Artikel (51 Edits) 9. Wikipedia:Vandalensperrung (46 Edits) 10. Benutzer:Factumquintus/Asyl (36 Edits)
Interessant ist aber auch, dass es bei den Größenänderungen ein wenig anders aussieht. Beispielsweise ist die Größenänderung des Artikels "Orte aus Star Wars" (61 Edits) runde 0 Byte, da die 61 Edits rückgängig gemacht wurden und im Übrigen inzwischen auch gelöscht sind.
Leider sieht man da auch, was solche Statistiken kurzfristig unnutzbar macht: Von den 4 MB Zuwachs insgesamt entfällt ein halbes MB auf einen Vandalismus auf einer Diskussionsseite, der erst am 24. rückgängig gemacht wurde ([[Diskussion:Hans-Hermann Hoppe]]). Ansonsten finden sich die ähnlichen Diskussionsseiten wieder und als Artikel bspw. [[Antike]] (1 Edit; 37.644 Byte) und [[U-Bahnlinie 1 (Berlin)]] (1 Edit; 22.335 Byte).
Soviel zur Statistik von mir ;)
MfG Christian Thiele
Hallo aka, hallo apper,
Apper schrieb:
So, will ich mich mal melden ;). Ich sammle (derzeit nichtöffentlich) Bearbeitungszahlen wie aka auch.
Was für Daten genau? Wenn wir uns auf ein gemeinsames Set an Datenfeldern einigen, lassen sich auch leichter Daten austauschen und es muss nicht mehrfach gesammelt und ausgewertet werden. Also:
Alle Bearbeitungen (Recent Changes) mit
user VARCHAR(255) title VARCHAR(255) timestamp VARCHAR(14) minor TINYINT(1) comment TINYBLOB bytes_diff INT(4)
Und ggf. noch die aktuelle Größe:
bytes INT(4)
oder?
Bis auf die bytes bekommt man auch alles aus der old-tabelle des dumps, aber wenn ich nur die Recent Changes des letzten Monats haben möchte, ist das etwas sehr (!) unpraktisch - außerdem gibt es neue dumps anscheinend immer seltener.
Ich speichere die Daten aber stundenweise. Ich kann also für einzelne Artikel und natürlich auch alle zusammen für jede Stunde sagen, wieviele Edits es gab. Leider weiß ich noch nicht ansatzweise, wie ich diese Datenflut langfristig halten kann, daher habe ich noch kaum Tools für die Auswertung gebastelt. Das ist sicher auch der Grund, wieso aka nur die letzten 24 Stunden speichert ;).
Möglich ist aber z.B. eine grafische Anzeige, wie unter http://www.apper.de/wikipedia/wpstats.png.
Auch die Byte-Änderungen werden entsprechend gespeichert/aufaddiert. Ansatzweise ist das interessant, beispielsweise kamen gestern (23. Juni) 4.102.761 Bytes zu Wikipedia-Seiten hinzu, davon 1.944.947 Bytes zu Artikeln. Über die Hälfte von allem, was geschrieben wurde, war also auf Diskussions/Benutzer/Wikipedia-Seiten. Dazu muss noch ergänzt werden, dass gelöschte Artikel nicht berechnet werden, die Zahl also nochmals kleiner ausfällt.
Für einzelne Artikel ist es natürlich nicht sooo gut geeignet, da man in diesem Fall lieber direkt die Daten aus der Wikipedia holen sollte, aber für "Hitlisten" ist das schon brauchbar.
Für gestern (23. Juni) ergibt sich ein ähnliches Bild, wie es sich in akas Tool für die letzten 24h auch ergibt.
- Wikipedia:Löschkandidaten/23. Juni 2005 (480 Edits)
- Wikipedia:Spielwiese (147 Edits)
- Wikipedia:Löschkandidaten/22. Juni 2005 (146 Edits)
- Diskussion:Jürgen Rüttgers (97 Edits)
- Wikipedia:Löschkandidaten/21. Juni 2005 (77 Edits)
- Wikipedia:Fragen zur Wikipedia (76 Edits)
- Orte aus Star Wars (61 Edits)
- Wikipedia:Kandidaten für exzellente Artikel (51 Edits)
- Wikipedia:Vandalensperrung (46 Edits)
- Benutzer:Factumquintus/Asyl (36 Edits)
Interessant ist aber auch, dass es bei den Größenänderungen ein wenig anders aussieht. Beispielsweise ist die Größenänderung des Artikels "Orte aus Star Wars" (61 Edits) runde 0 Byte, da die 61 Edits rückgängig gemacht wurden und im Übrigen inzwischen auch gelöscht sind.
Leider sieht man da auch, was solche Statistiken kurzfristig unnutzbar macht: Von den 4 MB Zuwachs insgesamt entfällt ein halbes MB auf einen Vandalismus auf einer Diskussionsseite, der erst am 24. rückgängig gemacht wurde ([[Diskussion:Hans-Hermann Hoppe]]). Ansonsten finden sich die ähnlichen Diskussionsseiten wieder und als Artikel bspw. [[Antike]] (1 Edit; 37.644 Byte) und [[U-Bahnlinie 1 (Berlin)]] (1 Edit; 22.335 Byte).
Soviel zur Statistik von mir ;)
Danke!
Es sind noch viele weitere spannende Tools und Statistiken möglich - dafür wäre es hilfreich, das Sammeln der Daten und die Auswertung zu trennen. Ich bin z.B. inzwischen ganz firm in [[GNU R]]. ich würde mir z.B. gerne mal die Prozentuale Größe von Bearbeitungen ansehen. Dazu würde es sehr helfen, wenn sich eine Tabelle wie oben als SQL-Dump oder CSV herunterladen lässt.
Bei inzwischen knapp 350000 edits/monat auf de und geschätzten 35 Zeichen pro Kommentar im Durchschnitt komme ich auf etwa 190MB ungepackt. Als tab-getrenne CSV-Datei dürfte es noch um einiges kleiner sein, da die wenigsten benutzernamen und Artikel 255 Zeichen haben - außerdem kann das dan gleich per gzip gepackt werden - ich schätze mal das sind dann nicht mehr als 10 MB pro Monat.
Gruß, Jakob
Jakob Voss:
außerdem gibt es neue dumps anscheinend immer seltener.
In einigen Wochen wird es wahrscheinlich tägliche Dumps der Bearbeitungen des letzten Tages geben, so dass man die lokale Datenbank bzw. andere extrahierte Daten täglich aktualisieren kann. Jedenfalls spricht technisch nichts dagegen: So ein täglicher Minidump dauert nur ein paar Minuten, während ein voller Dump viele Stunden (oder sogar mehr als einen Tag) dauert, weshalb man ihn nur in größeren Abständen machen kann.
Außerdem vereinfacht sich das Format der Dumps, und die Dumps werden verglichen mit dem cur/old-Schema auch viel kürzer (etwa Faktor 11 für die deutsche Wikipedia), so dass man den Rechner nicht tagelang laufen lassen muss, um die Dumps herunterzuladen. Auch die Analyse der Daten dürfte dadurch beschleunigt werden (und besonders natürlich durch die täglichen Minidumps).
Andre Karwath wrote:
Hallo,
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein.
von den von vs.aka-online.de/globalwpsearch/ unterstützten 50 Wikipedias benutzen neben den zwei von dir genannten noch en: und sv: UTF8 nicht.
Gruß, Aka, keine vollständige solche Liste kennend
Außer den vier genannten verwenden alle Wikipedias UTF-8. Allerdings verwenden auch das dänische und schwedische Wiktionary Latin-1.
Gruß, Daniel
In einigen Tagen werden anscheinend alle Wikis auf UTF-8 umgestellt. Jedenfalls schrieb Brion Vibber auf wikitech-l:
[...] though since we have to do UTF-8 conversion on several large wikis anyway [...]
Wenn man Mediawiki 1.5 installiert, hat man auch keine Auswahl mehr, ob man UTF-8 oder sonstwas haben möchte. Unter der Sprachauswahlbox steht dann auch: "Unicode (UTF-8 encoding) is used for all localizations."
Hi,
Filzstift schrieb am 06/23/2005 05:31 PM:
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein (damit ich jeweils dann utf8_encode($blabla) zwischenschalten kann).
Interessiert mich fuer http://www.juelich.de/avatar/check-usage/ auch.
Das sind in kuerzester Zeit jetzt drei externe Tools, die diese Info gut gebrauchen koennten - so wir es also rausfinden sollten, sollten wir es an irgendeiner Stelle auch hinreichend auffindbar dokumentieren, da die Wahrscheinlichkeit hoch ist, dass es noch andere gibt, die die Information ebenfalls gut verwenden koennen.
Tschuess, Tim.
Danke euch allen die auf meine Frage stellung nahmen.
Gibt ja echt viele interessante Tools. Ein Server bei einem Hoster dazu wären toll. Doch hier ist man immer auf Kompromisse etc. angewiesen. Da behalte ich (vorläufig) doch fast lieber meine Freiheiten...
Filzstift
Am 23.06.05 schrieb Filzstift filzstift@gmail.com:
Hallo,
im Zusammenhang mit meinem Tool: Gibt es irgendwo eine Liste, wo aufgeführt ist, welche Wikipedias utf8 sind und welche nicht? Die niederländische und die dänische scheinen jedenfalls nicht Unicode-basierend zu sein (damit ich jeweils dann utf8_encode($blabla) zwischenschalten kann).
Danke & Äs Grüässli Filzstift
-- www.wikisign.org - SQL-Abfragen durchführen
Filzstift schrieb:
Danke euch allen die auf meine Frage stellung nahmen.
Gibt ja echt viele interessante Tools. Ein Server bei einem Hoster dazu wären toll. Doch hier ist man immer auf Kompromisse etc. angewiesen. Da behalte ich (vorläufig) doch fast lieber meine Freiheiten...
Freiheit sind natürlich wichtig, aber ich würde mir schon einen Server mit diversen Tools und einigen Terabyte Speicherplatz wünschen :-)
Wichtig ist, dass man aufeinander aufbauen kann, d.h. dass die unterschiedlichen Projekte besser voneinander wissen und dass die Quelltexte und Daten frei sind - da hapert es noch etwas.
Vielleicht ergibt sich ja hieraus etwas:
http://meta.wikimedia.org/wiki/Wikimedia_Research_Network
Oder wir tun uns zumindest im deutssprachigen Raum zusammen - alles auf englisch zu diskutieren ist auch auf Dauer nervig. Auf die Schnelle finde ich keine Seite, wo alle Tools mal gesammelt wären.
http://de.wikipedia.org/wiki/Wikipedia:Helferlein
enthält ja noch allen möglichen anderen Krempel.
Gruss, Jakob