Hallo, Am Fr, den 16.04.2004 schrieb Thomas R. Koll um 13:29:
On Fri, Apr 16, 2004 at 12:43:27PM +0200, Matthias Richter wrote:
Was für uns interessant wäre ist das "Wort des Tages" [1] täglich abzugrasen.
Genügt http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/ hierfür nicht?
Gut verstecken, als frühe Alpha bezeichnen und dann behaupten ich hätte Tomaten auf den Augen ;-)
Hm, also der Link zum RSS der WdT steht auf der Begrüßungsseite. Das ist nicht so direkt versteckt ;-) Aber eine frühe Alpha ist es wirklich...
Lässt sich sehr gut gebrauchen, auch wenn ich in der Wochenanzeige bei <description> den gleichen Zähler wie bei den Tagen erwartet habe.
Die aufsummierten Frequenzen sind nicht wirklich besonders aussagekräftig. bei den Tagen habe ich die nur mal dazu geschrieben, weil es da momentan keine bessere Information gab.
Beim Tages-xml steht in <title> das Datum drinnen
Ganz allgemein sollte euer Programm für die Wörter des Tages noch verbessert werden.
Danke für die konstruktive Kritik, solche kommt leider selten...
Nachnamen wie Böttcher haben (in der Wochenübersicht) nichts in den Top-Hits zu suchen.
Die RSS-Geschichte ist mal nebenbei ad-hoc entstanden, da kann man noch viel tun. Für die Wörter der Woche werden so z.B. einfach ganz hart die Top-10 nach Häufigkeit der Wörter des Tages der vergangenen sieben Tage genommen. Ich habe für Begriffe vom Typ Person mal gefordert, dass sie für die Wörter der Woche mindestens aus zwei Namensteilen bestehen sollen. Das Ergebnis ist so eben etwas leer.
Auch dass Leute wie Cruise oder Elvis ohne Vorname genannt werden ist auch nervig aber erträglich.
Tom und Presley stehen halt vermutlich nicht signifikant genug dabei. Man könnte jetzt raten, dass jeder Cruise ein Tom und jeder Elvis ein Presley ist, aber ob das Ergebnis dadurch immer besser wird, weiß ich nicht. Wenn ich mich mit RSS besser auskennen würde, könnte noch sowas wie die Vollform-Links im Wortschatz mitgeliefert werden, sprich die Information, dass z.B. Cruise gerne ein Teilwort von Tom Cruise ist.
Plural ist auch keine Stärke des Systems, Ich-AG und Ich-AGs nebeneinander zu sehen tut schon fast weh.
Der Schmerz entsteht durch die konsequente Entscheidung *für* Vollformen. Das hat nicht nur Nachteile. An dieser Stelle fällt es eben hart und spitz auf den Fuß. Aber ich schreib' das mal in die TODO, dass man da wohl noch was machen will.
Bei uns kam weiterhin die Frage auf, inwieweit auf der anderen Seite das Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster Linie (statistische) Kollokationen und Graphen?
Wir sind kein Wörterbuch.
Statistische Kollokationen sind allerdings im Gegensatz zu linguistischen Kollokationen auch keine (reinen) Sprach- sondern tendenziell eher Sachdaten und gehören daher auch eher in den Lexikon-Teil als in der Wörterbuch-Teil.
Das Wiktionary existiert jetzt schon für en: fr: und pl: vielleicht kommt ja de: bald dazu. Interessant wäre mit euren Ergebnissen die Verlinkung zwischen den Artikeln der Wikipedia zu verbessern.
So richtig interessant dürfte das doch dann erst sein, wenn unsere Programme auf Wikipedia-Daten gelaufen sind. Dann spiegeln nämlich die ermittelten Zusammenhänge die Wikipedia wider und nicht etwas ganz anderes. Ein Schnellschuss: http://wortschatz.uni-leipzig.de/dewikipedia20040410/
Ciao, Matthias