Ahoi Mathias
Am 07.03.2005 um 14:17 schrieb Mathias Schindler:
Andreas Brändle schrieb:
Etwa ein drittel der Variabeln sind automatisch
erfassbar, was ich
auch mache. Ab f04 beginnt die manuelle Arbeit.
(das ist jetzt ein IMHO und IANAinformatiker)
j03: automatisierbar
j02: automatisierbar (mit Aufwand)
m01: automatisierbar
m02: automatisierbar
m03: automatisierbar
n01: automatisierbar (mit Aufwand)
n02: automatisierbar
n03: automatisierbar
n04: einigermassen automatisierbar
o - einigermassen automatisierbar
p- einigermassen automatisierbar
Auch wenn man diese paar Variabeln vollständig automatisiert misst,
bleiben trotzdem 43 Indikatoren, für welche man den Text lesen muss, um
sie zu erfassen. Bei einer Stichprobe von 450 Artikeln und
durchschnittlich vier Seiten sind das 1800 Seiten. 1800 Seiten lesen
und codieren ist schon unheimlich viel Arbeit. Nun ver500facht man die
Stichprobe auf 200000. Rechne.
Bei a04/05 kommst du bei alten Artikeln an ein
Problem, weil die
Versionshistorie nicht völlig komplett ist.
Ich weiss. Ist aber nicht so schlimm,
weil es nur die ganz alten
betrifft. Das Alter kann für die Auswertung auch in eine ordinale Skala
zerlegen wie beispielsweise alt, mittelalt, jung.
Ausserdem hast du ein weiteres Problem, wenn Artikel
in ihrer Historie
durch den BKL/deBKL-Fleischwolf gezogen wurden.
Begriffsklärungen kommen nicht in
die Stichprobe.
Ein weiteres Problem ist, wenn ein Artikel aus einer
anderen
wikipedia-Ausgabe übersetzt wurde (zählen dann die englischen
Revisionen mit?). Da sollte es recht viele Beispiele aus en->de geben.
Das muss
ich vernachlässigen
Die Nutzerstatistiken der WP sind nur bis 19.
Oktober 2004
erhältlich. Dann hat Tim wegen zu hoher Serverlast den Webalizer
abgeschaltet. Leider kann ich mit den Google-Treffer nicht bis zum
19. Oktober zurück.
Empfinde ich jetzt als Bruch in der Zahlensystematik.
Geht leider nicht anders. Die
Variabel Nutzungshäufigkeit (Page-Views)
ist meiner Meinung nach eine der wichtigsten zur Klärung der Frage, wie
das Wiki-Prinzip funktioniert. Da die Nutzungsstatistiken nur bis am
19. Oktober vorhanden sind, muss ich diesen Datum als Stichtag wählen.
Man nimmt, was man hat.
Vorschlag
a26: Anzahl der Interwikilinks
Aus der Zahl der Interwikilinks lassen sich begrenzt Rückschlüsse zur
Validität von Lemmata ableiten bzw, seeehr begrenzt zur Relevant des
Lemmas in anderen Sprachen.
Gute Idee. Werd ich mir überlegen.
Lieber Gruss
Andreas Brändle
--