On Tue, Sep 07, 2004 at 04:20:11PM +0200, Marco Krohn wrote:
On Tuesday 07 September 2004 15:50, Thomas R. Koll wrote:
Hallo,
so ähnlich sieht meine TODO Liste auch aus. Die meisten Dinge sind nicht schwer zu implementieren, ich muss aber vorher den code noch refaktorisieren, er ist in einem quick-hack-revival Zustand...
Fehler:
- de.wikipedia.org/w/ aus den verwandten Themen filtern
- redirects rausfiltern
- html bzw. wiki-syntax sollte auch raus (tabellen erst recht)
- Tests die keine Ergebnisse bringen (z.B "Geprüfte Satzteile") sollten ganz weggelassen werden.
soweit klar, aber was meinst du mit:
- TOC fehlt (am besten mit einer Bewertung von 1 (schlecht) bis 10)
?
eine Liste am Anfang welche Artikel geprüft wurden und welche Bewertung sie erhalten haben. Wie man die Bewertung vornimmt weiß ich auch nicht genau, vielleicht 50% die gefundenen fremden Seiten, 20% die Länge, 20% die Häufigkeit der Wörter, 5% interne und 5% externe Links.
- mehr als 10 Satzteile zu prüfen ist irgendwo unsinnig. Lieber ein bis
zwei Satzteile pro Absatz prüfen.
Ja, das bietet sich schon alleine deswegen an, weil die Anzahl der google Anfragen auf 1000 begrenzt ist und dieser Vorrat ist bei 200-300 neuen Artikeln am Tag schnell aufgebraucht.
Mach's wie der Affenkrieger und lass die Leut selber einen Google API-Key eingeben. Cool wäre es auch ein eigenes (externes) CSS anzugeben.
Auf meiner TODO Liste ist noch die Erkennung von {{stub}}, {{Löschen}} etc. und natürlich sollten Artikel, die zwischenzeitlich schon gelöscht wurden nicht mehr aufgeführt werden. Daneben habe ich noch ein paar andere Ideen, aber die werden sicherlich mehr Zeit brauchen.
Läuft zwar über seltene Wörter, aber Kombinationen wie asdf und qwert oder ein Buchstabe mehr als drei Mal in Folge sollten auch erkannt werden.
ciao, tom