Hallo,
Am Fr, den 16.04.2004 schrieb Thomas R. Koll um 13:29:
On Fri, Apr 16, 2004 at 12:43:27PM +0200, Matthias
Richter wrote:
Was für
uns interessant wäre ist das "Wort des Tages" [1] täglich
abzugrasen.
Genügt <http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/>
hierfür
nicht?
Gut verstecken, als frühe Alpha bezeichnen und dann behaupten ich hätte
Tomaten auf den Augen ;-)
Hm, also der Link zum RSS der WdT steht auf der Begrüßungsseite. Das ist
nicht so direkt versteckt ;-) Aber eine frühe Alpha ist es wirklich...
Lässt sich sehr gut gebrauchen, auch wenn ich in der
Wochenanzeige
bei <description> den gleichen Zähler wie bei den Tagen erwartet habe.
Die aufsummierten Frequenzen sind nicht wirklich besonders
aussagekräftig. bei den Tagen habe ich die nur mal dazu geschrieben,
weil es da momentan keine bessere Information gab.
Beim Tages-xml steht in <title> das Datum
drinnen
Ganz allgemein sollte euer Programm für die Wörter des Tages
noch verbessert werden.
Danke für die konstruktive Kritik, solche kommt leider selten...
Nachnamen wie Böttcher haben (in
der Wochenübersicht) nichts in den Top-Hits zu suchen.
Die RSS-Geschichte ist mal nebenbei ad-hoc entstanden, da kann man noch
viel tun. Für die Wörter der Woche werden so z.B. einfach ganz hart die
Top-10 nach Häufigkeit der Wörter des Tages der vergangenen sieben Tage
genommen. Ich habe für Begriffe vom Typ Person mal gefordert, dass sie
für die Wörter der Woche mindestens aus zwei Namensteilen bestehen
sollen. Das Ergebnis ist so eben etwas leer.
Auch dass Leute wie Cruise oder Elvis ohne Vorname
genannt werden
ist auch nervig aber erträglich.
Tom und Presley stehen halt vermutlich nicht signifikant genug dabei.
Man könnte jetzt raten, dass jeder Cruise ein Tom und jeder Elvis ein
Presley ist, aber ob das Ergebnis dadurch immer besser wird, weiß ich
nicht. Wenn ich mich mit RSS besser auskennen würde, könnte noch sowas
wie die Vollform-Links im Wortschatz mitgeliefert werden, sprich die
Information, dass z.B. Cruise gerne ein Teilwort von Tom Cruise ist.
Plural ist auch keine Stärke des Systems, Ich-AG und
Ich-AGs
nebeneinander zu sehen tut schon fast weh.
Der Schmerz entsteht durch die konsequente Entscheidung *für*
Vollformen. Das hat nicht nur Nachteile. An dieser Stelle fällt es eben
hart und spitz auf den Fuß. Aber ich schreib' das mal in die TODO, dass
man da wohl noch was machen will.
Bei uns kam
weiterhin die Frage auf, inwieweit auf der anderen Seite das
Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten
aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster
Linie (statistische) Kollokationen und Graphen?
Wir sind kein Wörterbuch.
Statistische Kollokationen sind allerdings im Gegensatz zu
linguistischen Kollokationen auch keine (reinen) Sprach- sondern
tendenziell eher Sachdaten und gehören daher auch eher in den
Lexikon-Teil als in der Wörterbuch-Teil.
Das Wiktionary existiert jetzt schon
für en: fr: und pl: vielleicht kommt ja de: bald dazu.
Interessant wäre mit euren Ergebnissen die Verlinkung zwischen
den Artikeln der Wikipedia zu verbessern.
So richtig interessant dürfte das doch dann erst sein, wenn unsere
Programme auf Wikipedia-Daten gelaufen sind. Dann spiegeln nämlich die
ermittelten Zusammenhänge die Wikipedia wider und nicht etwas ganz
anderes. Ein Schnellschuss:
http://wortschatz.uni-leipzig.de/dewikipedia20040410/
Ciao,
Matthias
--
Matthias Richter - PGP-Mail welcome, use key 1024D/D5749D05 2001-03-04
Der deutsche Wortschatz im Netz -> <http://wortschatz.uni-leipzig.de/>
Wörter des Tages -> <http://wortschatz.uni-leipzig.de/wort-des-tages/>
Finden ohne zu suchen -> <http://wortschatz.uni-leipzig.de/nextlinks/>