Hallo zusammen,
dass die Rechtschreibung in der Wikipedia unter aller Sau ist, dürfte bekannt sein. Am 27.3.04 hatten wir 8864 von der Seite [[Wikipedia:Liste von Tippfehlern]] erkannte Typos - da man nur zählen kann, wonach man auch sucht, wird die Dunkelziffer weit höher sein. Diese Zahl per Hand nennenswert zu reduzieren, dürfte unmöglich sein (wenn wir nicht einen substanziellen Teil unserer Mitschreiber zum Korrekturlesen verdonnern, was aus verständlichen Gründen nicht geht). Wir haben allerdings die Möglichkeit, den Vorgang etwas zu automatisieren...
Ich habe in den letzten Tagen nochmal Trocken-Experimente mit einem Typokorrektur-Bot angestellt und denke, dass ich die Sache inzwischen ganz gut im Griff habe. Wenn ich dieses Ding jetzt auf die echte Wikipedia loslasse, müssen wir uns aber darüber im Klaren sein, dass der Bot alles korrigieren wird, was ihm vor die Flinte läuft - auf Zitate, Buchtitel, Namen und sonstige Befindlichkeiten kann keine Rücksicht genommen werden. Deshalb werfe ich einfach mal die Frage in den Raum, ob eine automatische Typo-Korrektur (mit allen Nebenwirkungen, die sich daraus ergeben könnten) überhaupt gewünscht ist, oder ob wir lieber bis zum Wärmetod des Universums mit einer Wikipedia voller Rechtschreibfehler leben wollen, uns dafür aber an der authentischen Schreibung von ein paar Zitaten und einigen Buchtiteln erfreuen wollen - so in etwa wären die Alternativen.
Außerdem könnte man auf diesem Wege relativ schmerzfrei die kürzlich diskutierte Umstellung von "z.B." und den inzwischen bereits zahlreich im Wiki auftauchenden  -Konstrukten nach "zum Beispiel" vornehmen - das wäre eine Sache von ein paar Stunden, dann ist das Thema fürs erste erledigt.
Mein Vorschlag wäre, dass ich mit dem Bot nach einer gewissen Vorbereitungszeit durchstarte, sagen wir mal zwei Wochen. Wenn in dieser Zeit jemand einer problematischen Passage über den Weg läuft, soll er sie maskieren, so dass der Bot den "Fehler" nicht mehr findet. Dies geschieht am einfachsten, indem mitten in das fragliche Wort ein HTML-Kommentar eingebaut wird - der Bot geht dann darüber hinweg (Besipiel: "Alexander Gros<!-- der Mann heißt so! -->ser war der Erfinder der Zahnprothese").
Da schon absehbar ist, dass obige Maßnahme nur begrenzt wirksam sein wird und der Bot trotz aller Vorsicht mit ziemlicher Sicherheit den einen oder anderen Bock bauen wird, bräuchte es Leute, die dem Bot ein wenig hinterherräumen. Ich denke, dass alle fraglichen Artikel in irgendeiner Beobachtungsliste stehen werden, so dass hoffentlich alle Böcke entdeckt werden und auf die Schnelle wieder korrigiert werden. Um die Sichtbarkeit der Aktion zu erhöhen, könnte man den Bot statt unter dem Zwobot-Account auch unter einem normalen User-Account laufen lassen, der dann auch in den RecentChanges auftaucht, ich bin da flexibel ;-)
So, und jetzt will ich Meinungen dazu hören!
Alwin Meschede
HTML-Kommentar eingebaut wird - der Bot geht dann darüber hinweg (Besipiel: "Alexander Gros<!-- der Mann heißt so! -->ser war der Erfinder der Zahnprothese").
Der Bot sollte folgendes verstehen - wenn er es nicht tut, ist er - sorry - noch nicht einsatzreif: "Alexander Grosser<!--sic!--> war de..."
Bitte nicht wegen der Automatisierbarkeit die Lesbarkeit opfern. Weiterhin muss es die Möglichkeit geben, ganze Zitate zu kennzeichnen sowie die Literaturlisten von der Bearbeitung auszunehmen. Auch das wird viel extra-Arbeit machen - Arbeit, die gemacht werden muss(!), weil so ein Bot sonst bei jedem durchlauf wieder neu zuschlagen wird. Ob das ganze in der Praxis wirklich sinnvoll ist, weiß ich nicht. Vielleicht sollten wir einfach auch mit den Rechtschreibfehlern leben - noch verändern sich viel zu viele Artikel viel zu dynamisch.
Uli
HTML-Kommentar eingebaut wird - der Bot geht dann darüber hinweg (Besipiel: "Alexander Gros<!-- der Mann heißt so! -->ser war der Erfinder der Zahnprothese").
Der Bot sollte folgendes verstehen - wenn er es nicht tut, ist er - sorry - noch nicht einsatzreif: "Alexander Grosser<!--sic!--> war de..."
Also auch: z.B. bei der Korrektur von Rußland --> Russland
Rußland<!--sic!--> Rußlands<!--sic!--> Großrußland<!--sic!-->
Könnnen wir die Zitate nicht wie <!--Zitat Anfang--> <!--Zitat Ende--> oder <Zitat></Zitat> markieren?
Stefan
Ulrich Fuchs schrieb:
Der Bot sollte folgendes verstehen - wenn er es nicht tut, ist er - sorry - noch nicht einsatzreif: "Alexander Grosser<!--sic!--> war de..."
Das kann man mit einer RegExp abfangen - ist sogar viel sinnvoller als ein Kommentar mitten im Wort, weil wir ja gesehen haben, dass wir sonst die Suchmaschinen mattsetzen.
Alwin Meschede
On Thu, Apr 01, 2004 at 05:56:22PM +0200, Alwin Meschede wrote:
Ulrich Fuchs schrieb:
Der Bot sollte folgendes verstehen - wenn er es nicht tut, ist er - sorry
- noch nicht einsatzreif:
"Alexander Grosser<!--sic!--> war de..."
Das kann man mit einer RegExp abfangen - ist sogar viel sinnvoller als ein Kommentar mitten im Wort, weil wir ja gesehen haben, dass wir sonst die Suchmaschinen mattsetzen.
Das Problem waren damals die URLs. ala giessen.de wenn ich mich recht erinnere.
Ausgenommen von Korrekturen sollten auch [[wikilinks]] [http://www.example.org urls aller art] und bei Formatierungen wie Kursiv oder Einrückung würde ich auch die Hände weg lassen.
Ich wäre dafür den Bot user-controlled laufen zu lassen, so wie's bei solve_disambiguity.py der Fall ist. Hättest du Lust für den Bot ein Webinterface zu schreiben? Dann könnten auch Nutzer ohne Python den Bot verwenden.
ciao, tom
Ulrich Fuchs mail@ulrich-fuchs.de writes:
Weiterhin muss es die Möglichkeit geben, ganze Zitate zu kennzeichnen
mit SGML/XML wäre das kein problem - aber die entscheidungsmächtigen murksen ja lieber...
Alwin Meschede wrote:
Dies geschieht am einfachsten, indem mitten in das fragliche Wort ein HTML-Kommentar eingebaut wird - der Bot geht dann darüber hinweg (Besipiel: "Alexander Gros<!-- der Mann heißt so! -->ser war der Erfinder der Zahnprothese").
Hallo Alwin,
würde die Volltextsuch (auch Google) den Herrn Alexander Grosser noch finden? Was wäre mit einem Alexander Großer, würde der Bot auf Kleinschreibung von großer befinden?
Gruß, Joachim
Joachim Schulz schrieb:
Hallo Alwin,
würde die Volltextsuch (auch Google) den Herrn Alexander Grosser noch finden? Was wäre mit einem Alexander Großer, würde der Bot auf Kleinschreibung von großer befinden?
Das wäre allerdings eine Spaßbremse... Wie ich gerade festgestellt habe, hat die interne Volltextsuche keine Chance mehr, wegen Google müsste man ausprobieren - hat jemand zufällig einen Testcase zur Hand? Ich befürchte aber ehrlich gesagt das schlimmste, damit fiele die Maskierungslösung ins Wasser.
Groß/Kleinschreibung hat der Bot im Griff; wenn er in einem Artikel die "grosser" ersetzen soll, lässt er die "Grosser" in Ruhe.
Alwin Meschede
Alwin Meschede wrote:
Ich habe in den letzten Tagen nochmal Trocken-Experimente mit einem Typokorrektur-Bot angestellt und denke, dass ich die Sache inzwischen ganz gut im Griff habe. Wenn ich dieses Ding jetzt auf die echte Wikipedia loslasse, müssen wir uns aber darüber im Klaren sein, dass der Bot alles korrigieren wird, was ihm vor die Flinte läuft - auf Zitate, Buchtitel, Namen und sonstige Befindlichkeiten kann keine Rücksicht genommen werden.
Hallo, grundsätzlich ist die Idee sicher nicht schlecht, allerdings hatte ich beispielsweise gestern mal nach Typos "nich" statt "nicht" gesucht - und die meisten der Ergebnisse, die nicht auf Diskussionsseiten waren, kamen aus Zitaten (plattdeutsch, wasweissich, ...) Ich weiss nicht, ob es in solchen Fällen einen Unterschied im Arbeitsaufwand macht, ob man alle Suchergebnisse nach Fehlern korrigiert oder alle Bot-Ergebnisse nach falschen Korrekturen. Aber das wissen vielleicht Leute mit mehr Erfahrung. Gruss, Miriel
Alwin Meschede schrieb:
Ich habe in den letzten Tagen nochmal Trocken-Experimente mit einem Typokorrektur-Bot angestellt und denke, dass ich die Sache inzwischen ganz gut im Griff habe. Wenn ich dieses Ding jetzt auf die echte Wikipedia loslasse, müssen wir uns aber darüber im Klaren sein, dass der Bot alles korrigieren wird, was ihm vor die Flinte läuft - auf Zitate, Buchtitel, Namen und sonstige Befindlichkeiten kann keine Rücksicht genommen werden. Deshalb werfe ich einfach mal die Frage in den Raum, ob eine automatische Typo-Korrektur (mit allen Nebenwirkungen, die sich daraus ergeben könnten) überhaupt gewünscht ist,
Das Problem ist, dass viele der durch den Bot neu eingefügten Fehler solche sind, die nur sehr schwer erkannt werden (im Gegensatz zu denen, die er korrigiert).
oder ob wir lieber bis zum Wärmetod des Universums mit einer Wikipedia voller Rechtschreibfehler leben wollen,
Das müssen wir nicht. Irgendwann wird es einen externen Wikipedia-Editor (oder MediaWiki-Editor?) geben, der auch eine eingebaute Rechtschreibprüfung hat. Spannende Frage hier natürlich: Wann?
uns dafür aber an der authentischen Schreibung von ein paar Zitaten und einigen Buchtiteln erfreuen wollen - so in etwa wären die Alternativen.
Intakte Zitate, Buchtitel und vor allem Autorennamen sind mir persönlich wichtiger als die korrigierten Rechtschreibfehler. Aber die Präferenzen sind hier sicher unterschiedlich.
Außerdem könnte man auf diesem Wege relativ schmerzfrei die kürzlich diskutierte Umstellung von "z.B." und den inzwischen bereits zahlreich im Wiki auftauchenden  -Konstrukten nach "zum Beispiel" vornehmen
- das wäre eine Sache von ein paar Stunden, dann ist das Thema fürs
erste erledigt.
Unnütze Entities loszuwerden wäre allerdings klasse. Lässt sich abschätzen, ob es hier falsche Positive geben wird?
Da schon absehbar ist, dass obige Maßnahme nur begrenzt wirksam sein wird und der Bot trotz aller Vorsicht mit ziemlicher Sicherheit den einen oder anderen Bock bauen wird, bräuchte es Leute, die dem Bot ein wenig hinterherräumen. Ich denke, dass alle fraglichen Artikel in irgendeiner Beobachtungsliste stehen werden, so dass hoffentlich alle Böcke entdeckt werden und auf die Schnelle wieder korrigiert werden.
Da gibst Du Dich denke ich einer Illusion hin. Aber es wäre mal interessant zu wissen, wie viel Prozent unserer Artikel in mindestens einer (zwei, drei ...) Beobachtungsliste(n) stehen. Und die Prozentzahlen, wenn man nur die in den letzten zwei Wochen aktiven Benutzer nimmt. Wie viele der beobachteten Artikel tatsächlich auch kontrolliert werden lässt sich damit aber noch nicht sagen, ich bspw. schaue mir nur einen Teil der Änderungen an.
So, und jetzt will ich Meinungen dazu hören!
Sorry, aber Rechtschreibkorrektur gehört m.M.n. leider nicht zu den automatisierbaren Tätigkeiten. Aber ließe sich dem Bot-Betreiber vielleicht vor jeder Änderung ein diff anzeigen, dass dann von Hand bestätigt werden muss?
Kurt
P.S.: Werden von einem der Bots eigentlich die Überschriften "Externe Links", "Externe Verweise", "Web-Links", "Links" etc. zu "Weblinks" umgewandelt (entsprechend auch der Singular)?
On Thu, Apr 01, 2004 at 06:26:29PM +0100, Kurt Jansson wrote:
Das müssen wir nicht. Irgendwann wird es einen externen Wikipedia-Editor (oder MediaWiki-Editor?) geben, der auch eine eingebaute Rechtschreibprüfung hat. Spannende Frage hier natürlich: Wann?
Ich denke dass es für Python eine Schnittstelle zu ispell geben sollte.
P.S.: Werden von einem der Bots eigentlich die Überschriften "Externe Links", "Externe Verweise", "Web-Links", "Links" etc. zu "Weblinks" umgewandelt (entsprechend auch der Singular)?
Aus meinem Archiv....
# One standard for Weblinks newText = re.sub((?i)"[']{2,3}[\t\ ]*(Link[s]?|weblink[s]?|web-link[s]?|externe[r]? link[s]?|externe[r]? verweis[e]?)[:]?[\t\ ]*[']{2,3}", "== Weblinks ==", newText, 0)
ciao, tom
At 18:26 Uhr +0100 1.4.2004, Kurt Jansson wrote:
Alwin Meschede schrieb:
Sorry, aber Rechtschreibkorrektur gehört m.M.n. leider nicht zu den automatisierbaren Tätigkeiten. Aber ließe sich dem Bot-Betreiber vielleicht vor jeder Änderung ein diff anzeigen, dass dann von Hand bestätigt werden muss?
Ich kann mich dem nur nachdrücklich anschließen. Ich würde mich niemals auf eine automatische Korrektur einlassen, Einzelbestätigung muß sein. Es gibt sicher ein paar einfache Geschichten wie "daß"->"dass" usw., aber das ist nicht weiter erheblich. Viel unangenehmer finde ich geschraubten Stuß (Entschuldigung), den die nächsten hundert Jahre wohl kein Bot erkennen wird (obwohl es da ein paar Schlüsselwörter gäbe, ähnlich wie bei Spam). Der Bot wird auch nicht bei falscher Grammatik, Kommafehlern usw. fündig werden.
Neben den allgemeinen Tücken, die aus der Komplexität der Sprache entstehen, wird es auch Probleme geben weil Wikipedia es erlaubt, Texte in alter und neuer deutscher sowie alter und neuer Schweizer Schreibung zu verfassen. Es ist auch nicht wünschenswert, Abkürzungen wie "z. B." immer in "zum Beispiel" umzuwandeln. Im Text mag das in Ordnung sein, in Auflistungen oder Tabellen nicht.
Es ist auch den Autoren nicht zuzumuten, in einem Artikel x-mal irgendwelche "sic"-Kommentare einzubauen, bzw. (beziehungsweise) das würde eh nur eine Minderheit von versierten Wikipedianern tun.
Nützlich wäre eine Funktion, die wie gerade mein E-Mail-Programm (Eudora) schon beim Schreiben echte oder vermeintliche Schreibfehler markiert. Das dürfte allerdings bei der Wikipedia-Eingabemaske nicht möglich sein. Falls doch, wäre das der richtige Weg.
Noch eine "Low-Tech"-Idee: Eine ganze Menge Beiträge sind offenbar mit der heißen Nadel gestrickt, das fängt schon mit Flüchtigkeitsfehlern im Titel an. Wie wäre es - zumindest bei neu angelegten Artikeln - beim Klick auf die "Sichern"-Taste noch einmal eine Vorschau zu zeigen, mit einem deutlichen Aufruf, das Zeug bitte noch einmal korrekturzulesen? Ein nicht unwesentlicher Teil der Schreiber scheint die Vorschau gar nicht zu benutzen, anders kann ich mir Fehler bei der Linkformatierung usw. eigentlich nicht erklären.
Die "High-Tech"-Variante wäre, daß in dieser Vorschau der fleißige Bot zweifelhafte Wörter markiert. Ich habe keine Ahnung, ob und wie sich das verwirklichen ließe, ich versuche nur, sinnvolle Funktionen zu beschreiben.
Rainer
Rainer Zenz wrote:
Wie wäre es - zumindest bei neu angelegten Artikeln - beim Klick auf die "Sichern"-Taste noch einmal eine Vorschau zu zeigen, mit einem deutlichen Aufruf, das Zeug bitte noch einmal korrekturzulesen?
Fände ich nicht gut. Ob der Schreiber das nochmal korrekturlesen möchte, soll ihm überlassen sein. Wenn er einen Fehler in der Syntax macht, sollte er das am Ergebnis sehen, und (jetzt kommt der Knackpunkt) wenn er nicht weiß, wie das geht, ist es besser, wenn der fehlerhafte Artikel dableibt (sodaß ihn jemand korrigieren kann) als daß der Kontribuent aufgibt und den Artikel erst gar nicht abspeichert.
Das ist meine Meinung. Timwi
ameschede@gmx.de (Alwin Meschede) schrieb:
Ich habe in den letzten Tagen nochmal Trocken-Experimente mit einem Typokorrektur-Bot angestellt und denke, dass ich die Sache inzwischen ganz gut im Griff habe.
Mit dem Problem der automatischen Rechtschreibkorrektur befassen sich Softwarehersteller seit über 20 Jahren, ohne ein befriedigendes Ergebnis zu haben. Und du meinst, du hast die Sache inzwischen ganz gut im Griff... Dann verkauf dein Programm an "M$-Word Inc." oder so, danach kannst du dich zur Ruhe setzen.
Wenn ich dieses Ding jetzt auf die echte Wikipedia loslasse, müssen wir uns aber darüber im Klaren sein, dass der Bot alles korrigieren wird, was ihm vor die Flinte läuft
Also doch nicht ganz gut im Griff... Naja, war wohl nix mit dem vorzeitigen Ruhestand.
Deshalb werfe ich einfach mal die Frage in den Raum, ob eine automatische Typo-Korrektur (mit allen Nebenwirkungen, die sich daraus ergeben könnten) überhaupt gewünscht ist,
Nein.
Außerdem könnte man auf diesem Wege relativ schmerzfrei die kürzlich diskutierte Umstellung von "z.B." und den inzwischen bereits zahlreich im Wiki auftauchenden  -Konstrukten nach "zum Beispiel" vornehmen - das wäre eine Sache von ein paar Stunden, dann ist das Thema fürs erste erledigt.
Ich hab in den letzten Tagen auch etwas experimentiert mit einer automatischen Ersetzung von "z.B." und "z. B." nach "zum Beispiel". Solche Texte lesen sich stellenweise ziemlich trocken und langweilig, vor allem, wenn z.B. in Aufzählungen vorkommt. Ein Bot, der darauf losgelassen wird, sollte z.B. verschieden auflösen, nämlich in "zum Beispiel", "beispielsweise", "beispielhaft" und so weiter... Oft kann man das "z. B." sogar ganz weglassen. Nur sowas kann bislang noch kein Bot erkennen, da ist menschliche Intelligenz gefragt.
Mein Vorschlag wäre, dass ich mit dem Bot nach einer gewissen Vorbereitungszeit durchstarte, sagen wir mal zwei Wochen. Wenn in dieser Zeit jemand einer problematischen Passage über den Weg läuft, soll er sie maskieren, so dass der Bot den "Fehler" nicht mehr findet.
Es dürfte weitaus schwieriger sein, die "wenigen" Ausnahmen zu suchen, als echte Rechtschreibfehler. Bei letzterem weiß man nämlich, wonach man suchen muss.
Da schon absehbar ist, dass obige Maßnahme nur begrenzt wirksam sein wird und der Bot trotz aller Vorsicht mit ziemlicher Sicherheit den einen oder anderen Bock bauen wird, bräuchte es Leute, die dem Bot ein wenig hinterherräumen.
Er wird ziemlich viele Böcke bauen.
So, und jetzt will ich Meinungen dazu hören!
Alles in allem: Ich bin dagegen!
Flups
Hi!
Also, ein derartiger Bot wäre genial. Allerdings wäre es IMO äußerst sinnvoll, daß a) das Teil halbautomatisch läuft, also ein Mensch den letzten Befehl zum Ersetzen gibt, und b) sollten mehrere Egänzungsmöglichkeiten zur Verfügung stehen. Z.B. ist ja immer "Zum Beispiel", aber die auch immer wieder beliebten "Jrhd"s, "Jhd."s und so weiter können "Jahrhundert" Jahrhunderte" "Jahrhunderts" oder "Jahrhunderten" heißen. Das sollte dementsprechend möglich sei, das passende einzusetzen. Bei den Jahrhunderten käme noch dazu, daß die sehr häufig auch noch Links sein sollten; aber das stellen wir wohl mal besser hintenan.
Schöne Grüße Alex