Hiho,
ich gehe derzeit etwas gegen ueberfluessige Kategorien vor und bemerke dabei, dass unsere 24000 Kategorien in schlechtem Zustand sind. Dazu ein paar Bemerkungen:
i) Spezial:Categories listet auch rote, also nicht angelegte Kategorien. Diese scheinen in vielen Artikeln ueber Monate hin zu bleiben, ohne von irgendwem entfernt zu werden. Deswegen die Bitte: entfernt rote Kategorien wo ihr sie seht und schreibt sie nicht in Artikel. Diese sind von keiner Hauptkategorie aus erreichbar und erfuellen keinen sinnvollen Zweck.
ii) Etwa die Haelfte unserer Kategorien haben drei oder weniger Eintraege. Darunter sind allein fast 10.000 Kategorien zu Jahren, Jahrzehnten, Gestorben und Geboren-Kategorien. Die geringe Anzahl der Eintrage hat mehrere Gruende.
Der eine ist, dass Leute Kategorien anlegen, die bestimmt sinnvoll sind, diese aber nur mit einem Artikel fuellen und dann liegen lassen. Bitte macht Euch die Muehe und benutzt den CatScan von Duesentrieb (siehe [[Wikipedia:Kategorien]] dazu) und bemueht euch um Vollstaendigkeit der von Euch selbst angelegten Kategorien.
Der zweite Grund ist Gedankenlosigkeit. Es werden also einfach irgendwelche Kategorien angelegt, weil man gerade Earl Grey und nicht Kaffee getrunken hat. Kategorien wie die inzwischen geloeschte "Judentum in Aethiopien" braucht kein Mensch.
Der andere Grund ist das, was man "Zukunftszugewandheit" nennen kann. Es werden also Kategorien angelegt, zu denen es eben nur einen oder zwei Artikel gibt, wo der Ersteller aber meint, dass dort Potenzial ist. Dies ist insbesondere bei den Jahreskategorien so, aber auch bei vielen Berufen, insbesondere im Sport. Das Ergebnis sind Sachen wie [[Kategorie:San-marinesischer Fussballverein]], [[Kategorie:Komponist (Land das halt mal einen Komponisten hervorgebracht hat)]]. Hierzu zwei Anmerkungen: es gibt haeufig auch alternative Moeglichkeiten die Leute zu kategorisieren, ohne fuer 80 Artikel 40 Unterkategorien anzulegen.
Ferner ist fuer mich persoenlich diese Art der Kategorisierung grundsaetzlich abzulehnen, da, auch wenn der CatScan-Server von Duesentrieb nicht fuer die Last von Lesern ausgeruestet ist, es irgendwann in der Zukunft die Moeglichkeit geben wird, boolesche Abfragen von Kategorien zu erstellen. Dies wird Autoren und Lesern das Leben erleichtert, weil es durch das Wegfallen von Mischkategorisierungen die Kategorisierung vereinfacht und die Suche vollstaendigere Auflistungen gibt als die Kategorien in der Wikipedia, die ja in den Artikeln manuell gefuellt werden muessen.
Viele Gruesse
Philipp
P. Birken wrote:
Ferner ist fuer mich persoenlich diese Art der Kategorisierung grundsaetzlich abzulehnen, da, auch wenn der CatScan-Server von Duesentrieb nicht fuer die Last von Lesern ausgeruestet ist, es irgendwann in der Zukunft die Moeglichkeit geben wird, boolesche Abfragen von Kategorien zu erstellen. Dies wird Autoren und Lesern das Leben erleichtert, weil es durch das Wegfallen von Mischkategorisierungen die Kategorisierung vereinfacht und die Suche vollstaendigere Auflistungen gibt als die Kategorien in der Wikipedia, die ja in den Artikeln manuell gefuellt werden muessen.
Die Zukunft hat uns eingeholt: vor etwa zwei Wochen habe ich "Letzte Änderungen" mit einer Option nachgerüstet, die nur Artikel anzeigt, die in angegebenen Kategorien liegen. Das gilt auch für Unterkategorien (und Unter-Unter-Unter...kategorien:-)! Kategorien können frei angegeben werden; Filterung kann nach UND (Artikel muss in allen Kategorien bzw. deren Unterkategorien sein) oder ODER (Artikel muss in mindestens einer Kategorie oder deren Unterkategorie sein) erfolgen.
Das soll helfen, die Flut der Letzten Änderungen einzudämmen. Die Funktion ist aber nicht darauf beschränkt, sie kann auch z.B. bei der Suche oder jeder anderen, automatisch generierten Liste angewendet werden, eine kleine Änderung vorausgesetzt.
Problem: Ich weiss nicht, wie stark diese Funktion die Datenbank-Server belasten wird. Vermutlich wird es sich in Grenzen halten, aber die Herren der Server sind da eher vorsichtig.
Wer es angeschaltet haben will: Brion nerven, auf #mediawiki oder wikitech-l :-)
Magnus
Hallo,
Magnus Manske schrieb:
Die Zukunft hat uns eingeholt: vor etwa zwei Wochen habe ich "Letzte Änderungen" mit einer Option nachgerüstet, die nur Artikel anzeigt, die in angegebenen Kategorien liegen.
Super, die Funktione können wir gut gebrauchen.
Das gilt auch für Unterkategorien (und Unter-Unter-Unter...kategorien:-)!
Das bezweifle ich. Zumindest sollte es in der Praxis eine Grenze für die JOIN-Kette geben.
Problem: Ich weiss nicht, wie stark diese Funktion die Datenbank-Server belasten wird. Vermutlich wird es sich in Grenzen halten, aber die Herren der Server sind da eher vorsichtig.
Hast du deinen Code mal getestet und Laufzeitüberlegungen angelegt? Wenn die Funktion skaliert, würde ich gerne mal in den Code einen Blick werfen, weil meine Auswertungen der Kategorienstruktur an ihre Grenzen stoßen. Ich glaube aber eher, dass es nicht so ganz skaliert.
Gruß, Jakob
Jakob Voss schrieb:
Magnus Manske schrieb:
Das gilt auch für Unterkategorien (und Unter-Unter-Unter...kategorien:-)!
Das bezweifle ich. Zumindest sollte es in der Praxis eine Grenze für die JOIN-Kette geben.
Kein JOIN; iterative Aufrufe von "WHERE .. IN". Die Anzahl der Aufrufe entspricht der Höhe des höchsten Kategorie-Baums der gegebenen Artikel (in diesem Fall: die letzten geänderten Artikel). Schätzungen (nicht nur von mir) gehen im Durchschnitt von 6 aus. "IN" auf einen Index angewandt ist an sich nicht sehr kostspielig. Es könnte allerdings sein, dass es hier die "Masse" der Aufrufe macht.
Problem: Ich weiss nicht, wie stark diese Funktion die Datenbank-Server belasten wird. Vermutlich wird es sich in Grenzen halten, aber die Herren der Server sind da eher vorsichtig.
Hast du deinen Code mal getestet und Laufzeitüberlegungen angelegt? Wenn die Funktion skaliert, würde ich gerne mal in den Code einen Blick werfen, weil meine Auswertungen der Kategorienstruktur an ihre Grenzen stoßen. Ich glaube aber eher, dass es nicht so ganz skaliert.
Ich könnte simulieren, wie lange ein Aufruf auf meiner Maschine (MySQL & Webserver & diverse andere Programme) dauert. Nur, dass das nicht viel über die Situation im Wikipedia-Netz aussagen würde. Daher wäre ich dafür, es anzuschalten (z.B. nur hier auf de.wikipedia, als repräsentativen Testfall), und die Serverlast im Auge zu behalten. Wenn die nach einer Woche nicht geschmolzen sind, ist es sicher :-)
Falls die Leistung gefährlich absackt, einfach wieder abschalten...
Magnus