ejurschi@directmedia.de, schrieb am 07.09.04 19:13:36:
Wie wählst du die Satzteile aus? Würde dir eine Häufigkeitsliste helfen oder ist die Auswahl nicht kriegsentscheidend?
Zur Zeit ist der Algorithmus denkbar einfach: er zerlegt den Text in einzelne Sätze (und nichtmal das besonders gut, da er durch einen Punkt "." in einer Abkürzung irritiert werden kann). Für jeden Absatz wählt er dann eine bestimmte Sätze aus, wobei das einzige Kriterium die Länge des Absatzes ist. Aus der Satzmitte eines jeden Satzes werden 5-6 aufeinander folgende Wörter genommen und dann an google weitergeleitet.
Die erwähnten Schwächen sind nur ein Teil der Unzulänglichkeit des scriptes. Es filtert externe links, Tabelle und html nicht vernünftig raus, kann nicht zwischen Wörtern und einzelnen Zeichen wie "°" unterscheiden und ignoriert sogar wenn der Artikel inzwischen schon zur Löschung vorgeschlagen wurde.
Der Algorithmus ist also mit Sicherheit noch verbesserungsfähig, ich glaube es ist allerdings klüger erstmal die erwähnten Schwächen zu beseitigen, bevor man sich um die Feinheiten kümmert.
Ich hätte eine Liste mit rund 3.000.000 Wortformen aus deutschen Textbeständen mit exakter Häufigkeitsangabe "für gute Zwecke" anzubieten.
Das ist sehr nett, vielleicht werde ich einmal darauf zurückkommen. Zur Zeit benutze ich übrigens die Top100 der deutschen Wörter, die in einem vernünftigen Artikel ca. 30% ausmachen sollten. Wenn der Wert zu sehr abweicht, dann gibt das Skript ein Meldung aus: "Warnung: Nur wenige häufig benutzte Worte im Text."
Viele Grüße, Marco
P.S. das script läuft zur Zeit wieder :-)