Hallo aka, hallo apper,
Apper schrieb:
So, will ich mich mal melden ;). Ich sammle (derzeit nichtöffentlich) Bearbeitungszahlen wie aka auch.
Was für Daten genau? Wenn wir uns auf ein gemeinsames Set an Datenfeldern einigen, lassen sich auch leichter Daten austauschen und es muss nicht mehrfach gesammelt und ausgewertet werden. Also:
Alle Bearbeitungen (Recent Changes) mit
user VARCHAR(255) title VARCHAR(255) timestamp VARCHAR(14) minor TINYINT(1) comment TINYBLOB bytes_diff INT(4)
Und ggf. noch die aktuelle Größe:
bytes INT(4)
oder?
Bis auf die bytes bekommt man auch alles aus der old-tabelle des dumps, aber wenn ich nur die Recent Changes des letzten Monats haben möchte, ist das etwas sehr (!) unpraktisch - außerdem gibt es neue dumps anscheinend immer seltener.
Ich speichere die Daten aber stundenweise. Ich kann also für einzelne Artikel und natürlich auch alle zusammen für jede Stunde sagen, wieviele Edits es gab. Leider weiß ich noch nicht ansatzweise, wie ich diese Datenflut langfristig halten kann, daher habe ich noch kaum Tools für die Auswertung gebastelt. Das ist sicher auch der Grund, wieso aka nur die letzten 24 Stunden speichert ;).
Möglich ist aber z.B. eine grafische Anzeige, wie unter http://www.apper.de/wikipedia/wpstats.png.
Auch die Byte-Änderungen werden entsprechend gespeichert/aufaddiert. Ansatzweise ist das interessant, beispielsweise kamen gestern (23. Juni) 4.102.761 Bytes zu Wikipedia-Seiten hinzu, davon 1.944.947 Bytes zu Artikeln. Über die Hälfte von allem, was geschrieben wurde, war also auf Diskussions/Benutzer/Wikipedia-Seiten. Dazu muss noch ergänzt werden, dass gelöschte Artikel nicht berechnet werden, die Zahl also nochmals kleiner ausfällt.
Für einzelne Artikel ist es natürlich nicht sooo gut geeignet, da man in diesem Fall lieber direkt die Daten aus der Wikipedia holen sollte, aber für "Hitlisten" ist das schon brauchbar.
Für gestern (23. Juni) ergibt sich ein ähnliches Bild, wie es sich in akas Tool für die letzten 24h auch ergibt.
- Wikipedia:Löschkandidaten/23. Juni 2005 (480 Edits)
- Wikipedia:Spielwiese (147 Edits)
- Wikipedia:Löschkandidaten/22. Juni 2005 (146 Edits)
- Diskussion:Jürgen Rüttgers (97 Edits)
- Wikipedia:Löschkandidaten/21. Juni 2005 (77 Edits)
- Wikipedia:Fragen zur Wikipedia (76 Edits)
- Orte aus Star Wars (61 Edits)
- Wikipedia:Kandidaten für exzellente Artikel (51 Edits)
- Wikipedia:Vandalensperrung (46 Edits)
- Benutzer:Factumquintus/Asyl (36 Edits)
Interessant ist aber auch, dass es bei den Größenänderungen ein wenig anders aussieht. Beispielsweise ist die Größenänderung des Artikels "Orte aus Star Wars" (61 Edits) runde 0 Byte, da die 61 Edits rückgängig gemacht wurden und im Übrigen inzwischen auch gelöscht sind.
Leider sieht man da auch, was solche Statistiken kurzfristig unnutzbar macht: Von den 4 MB Zuwachs insgesamt entfällt ein halbes MB auf einen Vandalismus auf einer Diskussionsseite, der erst am 24. rückgängig gemacht wurde ([[Diskussion:Hans-Hermann Hoppe]]). Ansonsten finden sich die ähnlichen Diskussionsseiten wieder und als Artikel bspw. [[Antike]] (1 Edit; 37.644 Byte) und [[U-Bahnlinie 1 (Berlin)]] (1 Edit; 22.335 Byte).
Soviel zur Statistik von mir ;)
Danke!
Es sind noch viele weitere spannende Tools und Statistiken möglich - dafür wäre es hilfreich, das Sammeln der Daten und die Auswertung zu trennen. Ich bin z.B. inzwischen ganz firm in [[GNU R]]. ich würde mir z.B. gerne mal die Prozentuale Größe von Bearbeitungen ansehen. Dazu würde es sehr helfen, wenn sich eine Tabelle wie oben als SQL-Dump oder CSV herunterladen lässt.
Bei inzwischen knapp 350000 edits/monat auf de und geschätzten 35 Zeichen pro Kommentar im Durchschnitt komme ich auf etwa 190MB ungepackt. Als tab-getrenne CSV-Datei dürfte es noch um einiges kleiner sein, da die wenigsten benutzernamen und Artikel 255 Zeichen haben - außerdem kann das dan gleich per gzip gepackt werden - ich schätze mal das sind dann nicht mehr als 10 MB pro Monat.
Gruß, Jakob