Ahoi Mathias Am 07.03.2005 um 14:17 schrieb Mathias Schindler:
Andreas Brändle schrieb:
Etwa ein drittel der Variabeln sind automatisch erfassbar, was ich auch mache. Ab f04 beginnt die manuelle Arbeit.
(das ist jetzt ein IMHO und IANAinformatiker)
j03: automatisierbar j02: automatisierbar (mit Aufwand)
m01: automatisierbar m02: automatisierbar m03: automatisierbar
n01: automatisierbar (mit Aufwand) n02: automatisierbar n03: automatisierbar n04: einigermassen automatisierbar
o - einigermassen automatisierbar p- einigermassen automatisierbar
Auch wenn man diese paar Variabeln vollständig automatisiert misst, bleiben trotzdem 43 Indikatoren, für welche man den Text lesen muss, um sie zu erfassen. Bei einer Stichprobe von 450 Artikeln und durchschnittlich vier Seiten sind das 1800 Seiten. 1800 Seiten lesen und codieren ist schon unheimlich viel Arbeit. Nun ver500facht man die Stichprobe auf 200000. Rechne.
Bei a04/05 kommst du bei alten Artikeln an ein Problem, weil die Versionshistorie nicht völlig komplett ist.
Ich weiss. Ist aber nicht so schlimm, weil es nur die ganz alten betrifft. Das Alter kann für die Auswertung auch in eine ordinale Skala zerlegen wie beispielsweise alt, mittelalt, jung.
Ausserdem hast du ein weiteres Problem, wenn Artikel in ihrer Historie durch den BKL/deBKL-Fleischwolf gezogen wurden.
Begriffsklärungen kommen nicht in die Stichprobe.
Ein weiteres Problem ist, wenn ein Artikel aus einer anderen wikipedia-Ausgabe übersetzt wurde (zählen dann die englischen Revisionen mit?). Da sollte es recht viele Beispiele aus en->de geben.
Das muss ich vernachlässigen
Die Nutzerstatistiken der WP sind nur bis 19. Oktober 2004 erhältlich. Dann hat Tim wegen zu hoher Serverlast den Webalizer abgeschaltet. Leider kann ich mit den Google-Treffer nicht bis zum 19. Oktober zurück.
Empfinde ich jetzt als Bruch in der Zahlensystematik.
Geht leider nicht anders. Die Variabel Nutzungshäufigkeit (Page-Views) ist meiner Meinung nach eine der wichtigsten zur Klärung der Frage, wie das Wiki-Prinzip funktioniert. Da die Nutzungsstatistiken nur bis am 19. Oktober vorhanden sind, muss ich diesen Datum als Stichtag wählen. Man nimmt, was man hat.
Vorschlag a26: Anzahl der Interwikilinks
Aus der Zahl der Interwikilinks lassen sich begrenzt Rückschlüsse zur Validität von Lemmata ableiten bzw, seeehr begrenzt zur Relevant des Lemmas in anderen Sprachen.
Gute Idee. Werd ich mir überlegen.
Lieber Gruss Andreas Brändle --