Hallo Leute,
ich habe gestern bei Wortschatz-Lexikon (http://wortschatz.uni-leipzig.de/) vorgeschlagen, Wikipedia als Partnerlexikon mit aufzunehmen. Die Leute dort zeigen großes Interesse und möchten von uns gerne wissen, wie sie zu einer aktuellen Stichwortliste der Wikipedia kommen.
Zitat: "Es bliebe also eigentlich nur zu klären, wie wir einfach an eine jeweils aktuelle Liste von Lexemen und zugehörigen URIs kommt, dann stünde der Aufnahme wohl nichts im Wege."
Am besten wäre es, wenn sich jeder diese Artikelliste selber generieren könnten oder irgendwo herrunterladen könnten. Kann bitte einer der Leute mit aktueller Datenbankkopie auf dem Heimrechner einen komplette Artikelliste erzeugen diese zum Download bei http://de.wikipedia.org/wiki/Spezial:Allpages mit einstellen. Dann muss man nicht aufwändig die einzelnen Seiten des alphabetischen Index zusammenkopieren!
Gruß Stefan Kühn
On Fri, Apr 16, 2004 at 08:54:06AM +0200, Stefan Kühn wrote:
Hallo Leute,
ich habe gestern bei Wortschatz-Lexikon (http://wortschatz.uni-leipzig.de/) vorgeschlagen, Wikipedia als Partnerlexikon mit aufzunehmen. Die Leute dort zeigen großes Interesse und möchten von uns gerne wissen, wie sie zu einer aktuellen Stichwortliste der Wikipedia kommen.
Zitat: "Es bliebe also eigentlich nur zu klären, wie wir einfach an eine jeweils aktuelle Liste von Lexemen und zugehörigen URIs kommt, dann stünde der Aufnahme wohl nichts im Wege."
Am besten wäre es, wenn sich jeder diese Artikelliste selber generieren könnten oder irgendwo herrunterladen könnten. Kann bitte einer der Leute mit aktueller Datenbankkopie auf dem Heimrechner einen komplette Artikelliste erzeugen diese zum Download bei http://de.wikipedia.org/wiki/Spezial:Allpages mit einstellen. Dann muss man nicht aufwändig die einzelnen Seiten des alphabetischen Index zusammenkopieren!
Jason hat einen XML-Feed erstellt mit dem Yahoo jetzt seine Suchmaschine füttert. Die vom Wortschatzlexikon sollen sich mal mit ihm schreiben, Jason macht sicher auch eine reine Stichwortliste. Interessant wäre für die sicher auch unser wiktionary.org http://mail.wikipedia.org/pipermail/wikipedia-l/2004-March/014695.html http://mail.wikipedia.org/pipermail/wikitech-l/2004-April/009355.html
Was für uns interessant wäre ist das "Wort des Tages" [1] täglich abzugrasen. Für die "Fehlenden Artikel" auf der Hauptseite wäre das sehr praktisch. Wäre schön wenn wir diese Liste als XML bekommen und mit dem pyBot dann die Existenz der Artikel überprüfen könnten. Sinnvoll auch eine Verlinkung der Wörter aus "Wort des Tages" auf unsere Seite, sofern ein Artikel existiert.
Gut wär's wenn deren Techniker sich mal bei unserer Mailingliste einträgt.
[1] http://wortschatz.uni-leipzig.de/wort-des-tages
Hallo, Am Fr, den 16.04.2004 schrieb ein unbekannter Absender um 9:15:
On Fri, Apr 16, 2004 at 08:54:06AM +0200, Stefan Kühn wrote:
[Wikipedia & Wortschatz]
Jason hat einen XML-Feed erstellt mit dem Yahoo jetzt seine Suchmaschine füttert. Die vom Wortschatzlexikon sollen sich mal mit ihm schreiben, Jason macht sicher auch eine reine Stichwortliste.
JFTR: Gemeint ist Jason Richey?
Interessant wäre für die sicher auch unser wiktionary.org http://mail.wikipedia.org/pipermail/wikipedia-l/2004-March/014695.html http://mail.wikipedia.org/pipermail/wikitech-l/2004-April/009355.html
Was für uns interessant wäre ist das "Wort des Tages" [1] täglich abzugrasen. Für die "Fehlenden Artikel" auf der Hauptseite wäre das sehr praktisch. Wäre schön wenn wir diese Liste als XML bekommen und mit dem pyBot dann die Existenz der Artikel überprüfen könnten.
Genügt http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/ hierfür nicht? Dort finden sich gegen 8:00 Uhr jeweils die Wörter des Tages aus den einzelnen Abteilungen als (sehr einfaches aber hoffentlich valides) RSS 2.0. Vorschläge zum besser machen dürfen gern als PM an mich gehen.
Sinnvoll auch eine Verlinkung der Wörter aus "Wort des Tages" auf unsere Seite, sofern ein Artikel existiert.
Wenn wir die Stichwortliste mal hier haben, würde das ein leichtes sein.
Gut wär's wenn deren Techniker sich mal bei unserer Mailingliste einträgt.
[x] done. Auch wenn ich nicht eigentlich "Techniker" bin. ;)
Bei uns kam weiterhin die Frage auf, inwieweit auf der anderen Seite das Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster Linie (statistische) Kollokationen und Graphen?
Matthias
On Fri, Apr 16, 2004 at 12:43:27PM +0200, Matthias Richter wrote:
JFTR: Gemeint ist Jason Richey?
ja.
Interessant wäre für die sicher auch unser wiktionary.org http://mail.wikipedia.org/pipermail/wikipedia-l/2004-March/014695.html http://mail.wikipedia.org/pipermail/wikitech-l/2004-April/009355.html
Was für uns interessant wäre ist das "Wort des Tages" [1] täglich abzugrasen. Für die "Fehlenden Artikel" auf der Hauptseite wäre das sehr praktisch. Wäre schön wenn wir diese Liste als XML bekommen und mit dem pyBot dann die Existenz der Artikel überprüfen könnten.
Genügt http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/ hierfür nicht? Dort finden sich gegen 8:00 Uhr jeweils die Wörter des Tages aus den einzelnen Abteilungen als (sehr einfaches aber hoffentlich valides) RSS 2.0. Vorschläge zum besser machen dürfen gern als PM an mich gehen.
Gut verstecken, als frühe Alpha bezeichnen und dann behaupten ich hätte Tomaten auf den Augen ;-) Lässt sich sehr gut gebrauchen, auch wenn ich in der Wochenanzeige bei <description> den gleichen Zähler wie bei den Tagen erwartet habe. Beim Tages-xml steht in <title> das Datum drinnen
Ganz allgemein sollte euer Programm für die Wörter des Tages noch verbessert werden. Nachnamen wie Böttcher haben (in der Wochenübersicht) nichts in den Top-Hits zu suchen. Auch dass Leute wie Cruise oder Elvis ohne Vorname genannt werden ist auch nervig aber erträglich. Plural ist auch keine Stärke des Systems, Ich-AG und Ich-AGs nebeneinander zu sehen tut schon fast weh.
Bei uns kam weiterhin die Frage auf, inwieweit auf der anderen Seite das Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster Linie (statistische) Kollokationen und Graphen?
Wir sind kein Wörterbuch. Das Wiktionary existiert jetzt schon für en: fr: und pl: vielleicht kommt ja de: bald dazu. Interessant wäre mit euren Ergebnissen die Verlinkung zwischen den Artikeln der Wikipedia zu verbessern.
Ich werd heut nachmittag noch ein wenig den pyBot programmieren.
ciao, tom
Hallo, Am Fr, den 16.04.2004 schrieb Thomas R. Koll um 13:29:
On Fri, Apr 16, 2004 at 12:43:27PM +0200, Matthias Richter wrote:
Was für uns interessant wäre ist das "Wort des Tages" [1] täglich abzugrasen.
Genügt http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/ hierfür nicht?
Gut verstecken, als frühe Alpha bezeichnen und dann behaupten ich hätte Tomaten auf den Augen ;-)
Hm, also der Link zum RSS der WdT steht auf der Begrüßungsseite. Das ist nicht so direkt versteckt ;-) Aber eine frühe Alpha ist es wirklich...
Lässt sich sehr gut gebrauchen, auch wenn ich in der Wochenanzeige bei <description> den gleichen Zähler wie bei den Tagen erwartet habe.
Die aufsummierten Frequenzen sind nicht wirklich besonders aussagekräftig. bei den Tagen habe ich die nur mal dazu geschrieben, weil es da momentan keine bessere Information gab.
Beim Tages-xml steht in <title> das Datum drinnen
Ganz allgemein sollte euer Programm für die Wörter des Tages noch verbessert werden.
Danke für die konstruktive Kritik, solche kommt leider selten...
Nachnamen wie Böttcher haben (in der Wochenübersicht) nichts in den Top-Hits zu suchen.
Die RSS-Geschichte ist mal nebenbei ad-hoc entstanden, da kann man noch viel tun. Für die Wörter der Woche werden so z.B. einfach ganz hart die Top-10 nach Häufigkeit der Wörter des Tages der vergangenen sieben Tage genommen. Ich habe für Begriffe vom Typ Person mal gefordert, dass sie für die Wörter der Woche mindestens aus zwei Namensteilen bestehen sollen. Das Ergebnis ist so eben etwas leer.
Auch dass Leute wie Cruise oder Elvis ohne Vorname genannt werden ist auch nervig aber erträglich.
Tom und Presley stehen halt vermutlich nicht signifikant genug dabei. Man könnte jetzt raten, dass jeder Cruise ein Tom und jeder Elvis ein Presley ist, aber ob das Ergebnis dadurch immer besser wird, weiß ich nicht. Wenn ich mich mit RSS besser auskennen würde, könnte noch sowas wie die Vollform-Links im Wortschatz mitgeliefert werden, sprich die Information, dass z.B. Cruise gerne ein Teilwort von Tom Cruise ist.
Plural ist auch keine Stärke des Systems, Ich-AG und Ich-AGs nebeneinander zu sehen tut schon fast weh.
Der Schmerz entsteht durch die konsequente Entscheidung *für* Vollformen. Das hat nicht nur Nachteile. An dieser Stelle fällt es eben hart und spitz auf den Fuß. Aber ich schreib' das mal in die TODO, dass man da wohl noch was machen will.
Bei uns kam weiterhin die Frage auf, inwieweit auf der anderen Seite das Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster Linie (statistische) Kollokationen und Graphen?
Wir sind kein Wörterbuch.
Statistische Kollokationen sind allerdings im Gegensatz zu linguistischen Kollokationen auch keine (reinen) Sprach- sondern tendenziell eher Sachdaten und gehören daher auch eher in den Lexikon-Teil als in der Wörterbuch-Teil.
Das Wiktionary existiert jetzt schon für en: fr: und pl: vielleicht kommt ja de: bald dazu. Interessant wäre mit euren Ergebnissen die Verlinkung zwischen den Artikeln der Wikipedia zu verbessern.
So richtig interessant dürfte das doch dann erst sein, wenn unsere Programme auf Wikipedia-Daten gelaufen sind. Dann spiegeln nämlich die ermittelten Zusammenhänge die Wikipedia wider und nicht etwas ganz anderes. Ein Schnellschuss: http://wortschatz.uni-leipzig.de/dewikipedia20040410/
Ciao, Matthias
On Mon, Apr 19, 2004 at 11:05:20PM +0200, Matthias Richter wrote:
Danke für die konstruktive Kritik, solche kommt leider selten...
Immer gern.
Nachnamen wie Böttcher haben (in der Wochenübersicht) nichts in den Top-Hits zu suchen.
Die RSS-Geschichte ist mal nebenbei ad-hoc entstanden, da kann man noch viel tun. Für die Wörter der Woche werden so z.B. einfach ganz hart die Top-10 nach Häufigkeit der Wörter des Tages der vergangenen sieben Tage genommen. Ich habe für Begriffe vom Typ Person mal gefordert, dass sie für die Wörter der Woche mindestens aus zwei Namensteilen bestehen sollen. Das Ergebnis ist so eben etwas leer.
Vielleicht lassen sich da ja andere Kombinationen finden. Also statt "Schröder" zeigt es mir auch mal "Bundeskanzler Schröder" an
Plural ist auch keine Stärke des Systems, Ich-AG und Ich-AGs nebeneinander zu sehen tut schon fast weh.
Der Schmerz entsteht durch die konsequente Entscheidung *für* Vollformen. Das hat nicht nur Nachteile. An dieser Stelle fällt es eben hart und spitz auf den Fuß. Aber ich schreib' das mal in die TODO, dass man da wohl noch was machen will.
zumindest nach Abkürzungen könnte es das s wegstreichen. Ist dort sowieso falsch da es ja eigentlich Ich-AGen heißen müsste.
Das Wiktionary existiert jetzt schon für en: fr: und pl: vielleicht kommt ja de: bald dazu. Interessant wäre mit euren Ergebnissen die Verlinkung zwischen den Artikeln der Wikipedia zu verbessern.
So richtig interessant dürfte das doch dann erst sein, wenn unsere Programme auf Wikipedia-Daten gelaufen sind. Dann spiegeln nämlich die ermittelten Zusammenhänge die Wikipedia wider und nicht etwas ganz anderes. Ein Schnellschuss: http://wortschatz.uni-leipzig.de/dewikipedia20040410/
Das ist ein cooles Spielzeug. Wenn man Sex eingibt und sich den Graphen anschaut findet der Kenner gleich ein Ablum der Red Hot Chilli Peppers.
Der Graph von Enzyklopädie zeigt "frei" und "freie" als wichtigeste Verbindungen :-) Bei Lexikon finden sich Rohwolt, Pschyrembel und dank dem 1888er Konversationslexikon auch Meyers. Unser Wortschatz ist wohl doch irgendwie anders...
ciao, tom