Matthias Walliczek:
Ulrich Fuchs wrote:
Technisch gesehen kein Problem (in der Online-Anzeige erscheinen die Namen der fünf Hauptautoren unter der Artikelüberschrift). In der pdf-Version ist's ne Platzfrage, es macht wenig Sinn, hinter einen Zweizeiler noch zwei Zeilen mit den fünf Hauptautoren zu packen. Vermutlich wirds auf eine Mischung rauslaufen, bei der man Artikellänge und Anteil eines Autors kombiniert, um zu entscheiden, ob ein voller Name oder nur eine Nummer angedruckt wird.
Na, das klingt doch schon sehr interessant.
Letztlich wären auch dieser Mechanismus für Wikipedia interessant - zumindest für die Wikireader.
Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen Version zu bestimmen ist sehr einfach. Ich habe ein kleines Skript, das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt dann, in welcher Version diese zuerst auftraten.
Außerdem soll bald das History-Flow-Tool von IBM, das ebenfalls die Hauptautoren bestimmen kann, freigegeben werden, nur leider nicht als Open Source. Wie brauchbar und anpassungsfähig das ist, wird sich zeigen. Es verwendet ganze Sätze statt kurzer Wortsequenzen, was - wie die Entwickler selbst betonen - Probleme bei Rechtschreibkorrekturen macht.
Es wäre meiner Meinung nach sinnvoll, eine Hauptautor-Funktion in die Mediawiki-Software zu integrieren. Die Versionsgeschichten sind mittlerweile völlig unübersichtlich und zu diesem Zweck nicht mehr zu gebrauchen.
At 20:18 21.03.2005, you wrote:
Matthias Walliczek:
Ulrich Fuchs wrote:
Technisch gesehen kein Problem (in der Online-Anzeige erscheinen die Namen der fünf Hauptautoren unter der Artikelüberschrift). In der pdf-Version ist's ne Platzfrage, es macht wenig Sinn, hinter einen Zweizeiler noch zwei Zeilen mit den fünf Hauptautoren zu packen. Vermutlich wirds auf eine Mischung rauslaufen, bei der man Artikellänge und Anteil eines Autors kombiniert, um zu entscheiden, ob ein voller Name oder nur eine Nummer angedruckt wird.
Na, das klingt doch schon sehr interessant.
Letztlich wären auch dieser Mechanismus für Wikipedia interessant - zumindest für die Wikireader.
Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen Version zu bestimmen ist sehr einfach. Ich habe ein kleines Skript, das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt dann, in welcher Version diese zuerst auftraten.
Irgendwie habe ich ja immer Bauchschmerzen, wenn die Forderung nach der Listung von 5 Hauptautoren kommt, auch wenn die nach GFDL ausreicht. Gerade die ganzen "Nebenautoren", die die Rehctschreibfehler und andere Kleinigkeiten aus den Artikeln rausschmeisssen sind imho ebenso wichtig wie diejenigen, die die Artikel schreiben. Als Erst- und Hauptautor einer ganzen Latte von Artikeln, die teilweise auch sehr lang sind (etwa [[Krokodile]]) kann ich nur immer wieder betonen, das ich ohne Typojäger wie Naddy, ErikDunsing, Schubbay und wen auch immer schlicht aufgeschmissen wäre (ein ganz ganz lautes DANKE an euch alle), diese bei der Litsung der Autoren zu übergehen empfidnde ich schlicht als unfair. Über Kategoriesetzer und Navileistenbastler kann man da gerne geteilter Auffassung sein.
Gruß, Achim
Achim Raschka:
Irgendwie habe ich ja immer Bauchschmerzen, wenn die Forderung nach der Listung von 5 Hauptautoren kommt, auch wenn die nach GFDL ausreicht. Gerade die ganzen "Nebenautoren", die die Rehctschreibfehler und andere Kleinigkeiten aus den Artikeln rausschmeisssen sind imho ebenso wichtig wie diejenigen, die die Artikel schreiben. Als Erst- und Hauptautor einer ganzen Latte von Artikeln, die teilweise auch sehr lang sind (etwa [[Krokodile]]) kann ich nur immer wieder betonen, das ich ohne Typojäger wie Naddy, ErikDunsing, Schubbay und wen auch immer schlicht aufgeschmissen wäre (ein ganz ganz lautes DANKE an euch alle), diese bei der Litsung der Autoren zu übergehen empfidnde ich schlicht als unfair. Über Kategoriesetzer und Navileistenbastler kann man da gerne geteilter Auffassung sein.
5 Hauptautoren sind die Mindestforderung der GFDL für die Titelseite, weil man wohl den Verwertern der Texte nicht zumuten will, die Titelseite mit dutzenden Namen vollkleisten zu müssen.
Der Rest der Autoren kann in die Versionsgeschichte ("history section"), die immer komplett mitkopiert werden muss. Da dies von einigen aber als Hindernis für die Weiterverwertung der Texte angesehen wird, argumentieren sie, dass das was unter Versionen/Autoren bzw. in der engl. WP unter "history" steht, gar nicht die history section sei, sondern ein ganz normaler Teil des Textes. Bei nichtmodifizierten Kopien wird folglich die komplette Versionsgeschichte übernommen, und bei modifizierten Kopien schreibt die GFDL vor, fünf Hauptautoren auf die Titelseite und in die "history section" zu schreiben, die nun endgültig angelegt werden muss.
Dabei gibt es mehrere Probleme: * Die Verbreitung der Texte wird eher noch behindert, weil es einfacher sein dürfte, die Versionsgeschichte zu kopieren als 5 Hauptautoren zu bestimmen. Aber da könnte so ein Tool wie ich es geschrieben habe Abhilfe leisten. * Die Autoren dürften sich mehrheitlich überhaupt nicht im Klaren darüber sein, unter welchen Bedingungen sie ihre Texte zur Verfügung stellen. Ich habe ja bis vor kurzem auch noch geglaubt, dass ich, wenn ich eine Änderung an einem Text vornehme, mir ein unter der GFDL lizensiertes Dokument nehme, es modifiziere und dann mein modifizierter Text auch nur unter den Bedingungen der GFDL von anderen verwertet werden kann. Aber das ist nach der Es-gibt-keine-history-section-Argumentation nicht so, weil spätestens nach der ersten Modifikation eine history section angelegt werden müsste. Stattdessen stellt man sich das offenbar so vor: Die Benutzer stellen der Wikimedia Foundation ihre Texte zur Verfügung, und diese hat das Recht, sie unter der GFDL zu veröffentlichen, ggf. nach Änderungen anderer Benutzer. Das hört sich erst mal nicht so spektakulär anders an, hat aber eben die Folge, dass kein Benutzer das Recht hat, als Autor genannt zu werden, ganz egal wieviel er beigetragen hat, denn es kann ja immer 5 Autoren geben, die noch mehr beitragen. Wenn früher Leute ihre Beiträge im Artikel signiert hatten, habe ich ihnen immer gesagt, dass das nicht nötig sei, weil sie doch in der Versionsgeschichte verewigt werden. Das war wohl leider nicht ganz richtig. * Die Vorgabe von 5 Hauptautoren ist sehr unflexibel. Einerseits gibt es Artikel, in denen auch der sechstwichtigste Autor eine ganze Menge Text beigetragen hat. Bei anderen Artikeln hat der fünftwichtigste Autor nur unwesentliches geleistet.
Aber das ist alles überhaupt kein Problem der GFDL, sondern könnte ganz einfach dadurch gelöst werden, dass eine vernünftige History erstellt wird. Man muss nur den Autoren ehrlich sagen, dass nicht sie die Dokumente veröffentlichen, sondern dass sie sie der Wikimedia Foundation zur Verfügung stellen, und dass sie nur dann als Autor in der history section genannt werden, wenn sie einen substanziellen Beitrag zum Artikel geleistet haben (z.B. mindestens 20 oder 50 Wörter). In der History stehen dann eben alle Autoren, die diese Bedingung erfüllen, egal wieviele das sind.
Benutzer die viele Rechtschreibfehler verbessern, können unabhängig davon meinetwegen eine Extrabonus oder eine Urkunde bekommen.
Hallo,
am Mon, 21 Mar 2005 20:33:28 +0100 schrieb Achim Raschka:
Irgendwie habe ich ja immer Bauchschmerzen, wenn die Forderung nach der Listung von 5 Hauptautoren kommt, auch wenn die nach GFDL ausreicht. Gerade die ganzen "Nebenautoren", die die Rehctschreibfehler und andere Kleinigkeiten aus den Artikeln rausschmeisssen sind imho ebenso wichtig wie diejenigen, die die Artikel schreiben.
Wichtig sind sie schon, aber sie haben nichts geleistet, was ein eigenes Urheberrecht bewirkte. Ein Spielfilm kommt auch nicht ohne Schauspieler aus, das Urheberrecht liegt aber bei Autor, Regisseur und Kameraleuten, nicht bei den Schauspielern.
Gruß, Perrak
Gerhard Jahnke wrote:
Wichtig sind sie schon, aber sie haben nichts geleistet, was ein eigenes Urheberrecht bewirkte. Ein Spielfilm kommt auch nicht ohne Schauspieler aus, das Urheberrecht liegt aber bei Autor, Regisseur und Kameraleuten, nicht bei den Schauspielern.
... und deshalb gibt es im konventionellen Urheberrecht Leistungsschutzrechte mit einer Schutzdauer von 50 Jahren ab Veröffentlichung des urheberrechtlich geschützten Werkes. Die Inhaber von Leistungsschutzrechten schaffen also zwar kein Werk, sind aber durchaus mit eigenen und als schützenswert gewürdigten Leistungen daran beteiligt.
Nur weil die GNU-Lizenzen ein "Copyleft" sind muss das nicht zwingend bedeuten, dass bestimmte Leistungen *nicht* gewürdigt werden sollen. Hinzu kommt natürlich auch noch, dass die Gleichsetzung von "Lizenzierung unter GNU-Lizenz" mit "Ersatz für Urheberrechte" nicht zulässig ist, also alle Analogieschlüsse ohnehin auf tönernen Füßen stehen.
MfG -asb
Hallo,
am Tue, 22 Mar 2005 01:23:24 +0100 schrieb Agon S. Buchholz:
Nur weil die GNU-Lizenzen ein "Copyleft" sind muss das nicht zwingend bedeuten, dass bestimmte Leistungen *nicht* gewürdigt werden sollen.
Natürlich nicht.
Hinzu kommt natürlich auch noch, dass die Gleichsetzung von "Lizenzierung unter GNU-Lizenz" mit "Ersatz für Urheberrechte" nicht zulässig ist,
Wieso Gleichsetzung? Aber das Hauptziel der GFDL scheint mir schon die Sicherstellung der Rechte der Urheber zu sein.
also alle Analogieschlüsse ohnehin auf tönernen Füßen stehen.
Das tun Vergleiche immer. Ich wollte die Leistung von Korrektoren keinesfalls herabwürdigen, meine eigenen Beiträge zur Wikipedia fallen zum größten Teil in diese Kategorie. Aber zum "Hauptautor" können einen ein paar Korrekturen IMHO nicht machen, selbst wenn das aus einer unleserlichen Müllhalde einen lesbaren Artikel machen kann.
Das Herausfiltern von Hauptautoren mittels Software halte ich allerdings auch für nur begrenzt möglich. Denn die Wichtigkeit eines Beitrages zu einem Artikel bemisst sich meiner Meinung nach nicht an der Menge.
Gruß, Perrak
Am Montag 21 März 2005 20:33 schrieb Achim Raschka:
Irgendwie habe ich ja immer Bauchschmerzen, wenn die Forderung nach der Listung von 5 Hauptautoren kommt, auch wenn die nach GFDL ausreicht. Gerade die ganzen "Nebenautoren", die die Rehctschreibfehler und andere Kleinigkeiten aus den Artikeln rausschmeisssen sind imho ebenso wichtig wie diejenigen, die die Artikel schreiben. Als Erst- und Hauptautor einer ganzen Latte von Artikeln, die teilweise auch sehr lang sind (etwa [[Krokodile]]) kann ich nur immer wieder betonen, das ich ohne Typojäger wie Naddy, ErikDunsing, Schubbay und wen auch immer schlicht aufgeschmissen wäre (ein ganz ganz lautes DANKE an euch alle), diese bei der Litsung der Autoren zu übergehen empfidnde ich schlicht als unfair. Über Kategoriesetzer und Navileistenbastler kann man da gerne geteilter Auffassung sein.
Ich finde das nicht ganz so unfair. Einen ordentlichen Artikel zu schreiben, sich Gedanken über seine Struktur zu machen, zu recherchieren, zu formulieren usw. macht wesentlich mehr Arbeit als sich den Artikel einmal durchzulesen und die Typos und Rechtschreibfehler zu eliminieren. Wobei auch ich diejenigen, die so etwas machen nicht vermissen möchte. Unfair wäre es dann höchstens in sofern, als dass sie genauso viel Arbeit in WP reinstecken, diese aber über viel mehr Artikel streuen und bei 5 Hauptautoren dann überall unter den Tisch fallen.
--Ivo Köthnig
Achim Raschka schrieb:
Irgendwie habe ich ja immer Bauchschmerzen, wenn die Forderung nach der Listung von 5 Hauptautoren kommt, auch wenn die nach GFDL ausreicht. Gerade die ganzen "Nebenautoren", die die Rehctschreibfehler und andere Kleinigkeiten aus den Artikeln rausschmeisssen sind imho ebenso wichtig wie diejenigen, die die Artikel schreiben.
Wer Rechtschreibfehler korrigiert, ist überhaupt kein Autor. Auch kein Nebenautor, sondern bestenfalls Lektor - und auch das ist im Zweifel noch zu hoch gegriffen.
Grüße, -thh
Am Montag, 21. März 2005 20:18 schrieb elwp@gmx.de:
Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen Version zu bestimmen ist sehr einfach.
Ganz so einfach ist es leider nicht:
Ich habe ein kleines Skript, das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt dann, in welcher Version diese zuerst auftraten.
Verstehe ich das richtig: Wenn ein User B in einer 5-Wort-Sequenz des Users A einen Tippfehler korrigiert, kriegt User B die 5 Worte komplett zugeschlagen? Wenn das so ist, kannst Du davon ausgehen, dass Dein Algorithmus in 95% aller Artikel ziemlich falsch liegen wird - diese Mini-Korrekturen stellen den Hauptteil der Änderungen in Wikipedia. Du filterst allerdings schonmal die Linksetzungen raus - das ist gut, die machen einen Gutteil der Mini-Änderungen aus. Aber das Tippfehlerproblem bleibt.
Leider kann ich kein Perl (ich will keine Sprache können, für die man ein GOTO L1 braucht ;-)) - drum kann ich's an Deinem Programm nicht nachvollziehen und muss fragen, wie das mit den "überlappenden" Sequenzen funktioniert: Wenn Du eine Sequenz von fünf Worten hast und die in der ersten Version findest, wie gehts weiter? Hinter dem fünften Wort, oder hinter dem zweiten?
Es wäre meiner Meinung nach sinnvoll, eine Hauptautor-Funktion in die Mediawiki-Software zu integrieren. Die Versionsgeschichten sind mittlerweile völlig unübersichtlich und zu diesem Zweck nicht mehr zu gebrauchen.
Bei Artikeln mit langen Versionsgeschichten 100% ACK. (Bei kurzen gehts noch). Ich glaube aber behaupten zu können, dass auch automatisierte Verfahren da an die Grenzen kommen - die Fragmente, die man Autoren zuweisen kann, werden zu kleinteilig.
Dein Ansatz, alle Versionsgeschichten anzukucken, hat übrigens Vor- und Nachteile. Der große Vorteil ist, dass Dir auf die Art Vandalismusgeschichten/Reverts etc. nichts ausmachen. Der Nachteil ist, dass Du immer alle Versionen durchkucken musst, wenn Du die Hauptautoren für eine neue Version rechnen willst: Das dürfte ziemlich aufwändig werden, gerade bei den Monsterhistorie-Artikeln. Mein Algorithmus rechnet jedesmal nur die Deltas von einer Version zur nächsten, weil er je Version weiß, von welchem Autor welche Textstelle ist. Nachteil dabei ist, dass er bei jeder Komplettlöschung von Textstellen und anschließender Neueinstellung durch einen Dritten (Vandalismusreverts!) versagt.
Ich umgehe das Problem folgendermaßen (zweiter Vorteil meines Ansatzes, wenngleich etwas umständlich zu bedienen): Ich habe eine spezielle Kopierfunktion zwischen Artikeln (statt Copy- und Paste). Die schleppt die Autorenattribute des kopierten Textes in den neuen Artikel mit rüber - wieder etwas GNU FDL konformer. Und kann natürlich auch zum Kopieren zwischen Versionen benutzt werden, sprich für (bei mir hoffentlich nur selten notwendig werdende) Vandalismus-Reverts.
Uli
Ulrich Fuchs:
Am Montag, 21. März 2005 20:18 schrieb elwp@gmx.de:
Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen Version zu bestimmen ist sehr einfach.
Ganz so einfach ist es leider nicht:
Ich habe ein kleines Skript, das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt dann, in welcher Version diese zuerst auftraten.
Verstehe ich das richtig: Wenn ein User B in einer 5-Wort-Sequenz des Users A einen Tippfehler korrigiert, kriegt User B die 5 Worte komplett zugeschlagen?
Das kommt darauf an, ob die Sequenz von A isoliert war, oder ob daneben auch noch Text von A stand, was wohl meistens der Fall ist. Wenn sie isoliert war, wird die neue 5-Wort-Sequenz tatsächlich B zugeschlagen. Wenn aber z.B. das äußerst rechte Wort der Sequenz geändert wurde und das Wort links neben der Sequenz auch von A kommt, werden die vier linken Wörter weiterhin A zugerechnet, weil ja immer noch eine 5-Wort-Sequenz links übereinstimmt, und weil diese Sequenz älter ist als die rechte Sequenz.
Wenn das so ist, kannst Du davon ausgehen, dass Dein Algorithmus in 95% aller Artikel ziemlich falsch liegen wird - diese Mini-Korrekturen stellen den Hauptteil der Änderungen in Wikipedia.
Ich glaube nicht, dass es so schlimm ist. Aber von einem so kurzen Programm kann man natürlich kein Wunder erwarten. Eine mögliche Verbesserung wäre, auch mit Sequenzen, die ein "Loch" in der Mitte haben, zu arbeiten, so dass die Änderung eines einzelnen Wortes nichts ausmacht. Der Algorithmus würde dann z.B. prüfen, ob die Wörter n-3,n-2,n-1,n+1,n+2,n+3 übereinstimmen.
Leider kann ich kein Perl (ich will keine Sprache können, für die man ein GOTO L1 braucht ;-))
Das ist kein GOTO, sondern ein Verlassen einer äußeren Schleife. Man kann das selbstveständlich auch komplizierter programmieren.
- drum kann ich's an Deinem Programm nicht nachvollziehen
und muss fragen, wie das mit den "überlappenden" Sequenzen funktioniert: Wenn Du eine Sequenz von fünf Worten hast und die in der ersten Version findest, wie gehts weiter? Hinter dem fünften Wort, oder hinter dem zweiten?
Hinter dem zweiten. Genauer gesagt läuft das in zwei Schritten ab: Im ersten Durchgang werden alle Wörter mit der Versionsnummer markiert, in der die Wortgruppe das erste mal auftauchte, also erst werden die Wörter 0 bis 4 geprüft und ggf. markiert, dann 1-5 etc. Im zweiten Schritt werden die verbliebenen nicht markierten Lücken dem Autor der gerade untersuchten Version zugeordnet, falls sie mindestens 5 Wörter lang sind. 100%ig fehlerfrei ist das natürlich nicht. Wenn z.B. fünf verschiedene Benutzer an einer Stelle innerhalb einer längeren Sequenz eines anderen Benutzers jeweils ein Wort einfügen, wird das Ganze am Ende dem fünften Benutzer zugeordnet. Aber so schlimm ist das meine ich nicht.
Es wäre meiner Meinung nach sinnvoll, eine Hauptautor-Funktion in die Mediawiki-Software zu integrieren. Die Versionsgeschichten sind mittlerweile völlig unübersichtlich und zu diesem Zweck nicht mehr zu gebrauchen.
Bei Artikeln mit langen Versionsgeschichten 100% ACK. (Bei kurzen gehts noch). Ich glaube aber behaupten zu können, dass auch automatisierte Verfahren da an die Grenzen kommen - die Fragmente, die man Autoren zuweisen kann, werden zu kleinteilig.
Was heißt kleinteilig? Ich gehe davon aus, dass eine Sequenz von fünf Wörtern innerhalb eines Artikels selten genug auftritt um sie dem "Erstautor" zuschreiben zu können.
Dein Ansatz, alle Versionsgeschichten anzukucken, hat übrigens Vor- und Nachteile. Der große Vorteil ist, dass Dir auf die Art Vandalismusgeschichten/Reverts etc. nichts ausmachen. Der Nachteil ist, dass Du immer alle Versionen durchkucken musst, wenn Du die Hauptautoren für eine neue Version rechnen willst: Das dürfte ziemlich aufwändig werden, gerade bei den Monsterhistorie-Artikeln.
Wenn man das tatsächlich in die Mediawiki-Software integrieren wollte, bräuchte man einfach nur das Wortsequenzverzeichnis mit abzuspeichern. Das dürfte dann nur unwesentlich länger sein als die fünffache Größe der aktuellen Version, wenn man davon ausgeht, dass nicht ständig Text gelöscht und neuer hinzugefügt wird (also nur geeignet für Artikel, nicht etwa für "Ich brauch Hilfe" u. dgl.). Bei Artikelaktualisierungen kommen dann eben neue Wortsequenzen hinzu. Alte Versionen des Wortsequenzverzeichnisses braucht man nicht zu speichern, weil jeder Sequenz eh die Versionsnummer ihres ersten Auftretens zugeordnet wird, so dass man ohne Weiteres auch ältere Versionen untersuchen kann.
Mein Algorithmus rechnet jedesmal nur die Deltas von einer Version zur nächsten, weil er je Version weiß, von welchem Autor welche Textstelle ist. Nachteil dabei ist, dass er bei jeder Komplettlöschung von Textstellen und anschließender Neueinstellung durch einen Dritten (Vandalismusreverts!) versagt.
Das ist ja nicht so toll. :-)
Ich umgehe das Problem folgendermaßen (zweiter Vorteil meines Ansatzes, wenngleich etwas umständlich zu bedienen): Ich habe eine spezielle Kopierfunktion zwischen Artikeln (statt Copy- und Paste). Die schleppt die Autorenattribute des kopierten Textes in den neuen Artikel mit rüber - wieder etwas GNU FDL konformer. Und kann natürlich auch zum Kopieren zwischen Versionen benutzt werden, sprich für (bei mir hoffentlich nur selten notwendig werdende) Vandalismus-Reverts.
Mit meiner Methode würde das etwa so funktionieren (das Skript müsste man noch leicht ändern): Wenn etwas von Artikel A nach B kopiert wurde, muss man nur die Wortsequenzverzeichnisse von A und B vereinigen und dann die aktuelle Version von B mit dem Gesamtverzeichnis auswerten. Im Prinzip könnte man auch die aktuelle Version von B mit dem Gesamtverzeichnis der ganzen Wikipedia auswerten, nur dass bei einer so großen Textmenge 5-Wort-Sequenzen wohl nicht mehr so einmalig sind. Aber wenn man weiß oder annimmt, dass von einigen Artikeln zusammenkopiert wurde, ist das kein Problem, wenn man sich auf diese beschränkt. Insofern ist mein Programm noch flexibler als deines.
Mich würde natürlich interessieren, ob unsere Programme ein vergleichbares Ergebnis liefern. Könntest du evtl. mal eine Auswertung für einige Artikel irgendwo veröffentlichen? Und bitte nicht nur die Rangfolge der Autoren angeben, sondern auch irgendein quantitatives Maß. Und man muss die Seiten in der Wikipedia komplett exportieren können, bei Seiten mit sehr vielen Versionen geht das manchmal nicht.
Im ersten Durchgang werden alle Wörter mit der Versionsnummer markiert, in der die Wortgruppe das erste mal auftauchte, also erst werden die Wörter 0 bis 4 geprüft und ggf. markiert, dann 1-5 etc. Im zweiten Schritt werden die verbliebenen nicht markierten Lücken dem Autor der gerade untersuchten Version zugeordnet, falls sie mindestens 5 Wörter lang sind.
Ich sollte vielleicht noch klarstellen, dass das ganze nacheinander für alle Versionen durchgeführt wird, d.h. das Wortsequenzverzeichnis wird sukzessive aufgebaut. Es wird also nicht etwa direkt die aktuelle Version mit der ersten Version, dann der zweiten usw. verglichen, sondern erst nachdem das Verzeichnis aufgebaut wurde wird die aktuelle Version damit ausgewertet. (Markierung der einzelnen Wörter wie bei den vorhergehenden Versionen und dann werden die Wörter für die Autoren zusammengezählt.)
Um Probleme mit der Zuordnung kurzer Sequenzen zu verringern habe ich das Programm etwas geändert: Jetzt wird nicht mehr einer ganzen 5-Worte-Sequenz eine Versionsnummer, in der sie zuerst auftrat, zugeordnet, sondern jedem einzelnen Wort darin eine eigene. Dadurch ist es auch möglich, konsequent jede 5-Wort-Sequenz zu erfassen, also nicht nur die, die komplett in den Lücken liegen.
Damit man sehen kann, dass das tatsächlich funktioniert, gibt das Programm jetzt auch den Text farbig markiert aus. Ein Beispiel habe ich unter Wikipedia:Hauptautoren/Lorentz-Transformation hochgeladen.
Am Dienstag, 22. März 2005 10:14 schrieb elwp@gmx.de:
Um Probleme mit der Zuordnung kurzer Sequenzen zu verringern habe ich das Programm etwas geändert: Jetzt wird nicht mehr einer ganzen 5-Worte-Sequenz eine Versionsnummer, in der sie zuerst auftrat, zugeordnet, sondern jedem einzelnen Wort darin eine eigene. Dadurch ist es auch möglich, konsequent jede 5-Wort-Sequenz zu erfassen, also nicht nur die, die komplett in den Lücken liegen.
Damit man sehen kann, dass das tatsächlich funktioniert, gibt das Programm jetzt auch den Text farbig markiert aus. Ein Beispiel habe ich unter Wikipedia:Hauptautoren/Lorentz-Transformation hochgeladen.
Ich kuck mir das grade mal an - versuch das mal mit einem größeren Artikel mit ner längeren Historie und vielen Autoren (Deutschland oder so) - dann siehst Du vermutlich, was ich in einer anderen Mail mit "zersplitterung" meinte.
Uli
Am Montag, 21. März 2005 22:59 schrieb elwp@gmx.de:
Mich würde natürlich interessieren, ob unsere Programme ein vergleichbares Ergebnis liefern. Könntest du evtl. mal eine Auswertung für einige Artikel irgendwo veröffentlichen? Und bitte nicht nur die Rangfolge der Autoren angeben, sondern auch irgendein quantitatives Maß. Und man muss die Seiten in der Wikipedia komplett exportieren können, bei Seiten mit sehr vielen Versionen geht das manchmal nicht.
http://de.wikipedia.org/wiki/Wikipedia:Hauptautoren/Lorentz-Transformation_u...
Deine Ergebnisse sehen stabiler aus, dafür hab ich die Wiki-Zeichen mit drin - ich gehe buchstabenweise, nicht wortweise vor, statt fünf Wörtern nehme ich jeweils 20 Zeichen. Ich muss mir Deinen Ansatz nochmal genauer anschauen, er gefällt mir jedenfalls besser als meiner (nur hab ich noch nicht verstanden, ob man wirklcih immer alle Versionen im Zugriff haben muss. Das scheint mir dann doch sehr rechenintensiv zu sein.)
Ich schlage vor, dass wir detaillierte Diskussion zum Thema ab sofort unter [[Wikipedia Diskussion:Hauptautoren]] führen, müssen die Liste nicht zumüllen damit.
Grüße Uli
elwp@gmx.de skribis:
Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen Version zu bestimmen ist sehr einfach. Ich habe ein kleines Skript, das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt dann, in welcher Version diese zuerst auftraten.
Das heißt, wenn in jedem fünften Wort ein Tippfehler korrigiert wird (oder neu eingebaut, oder das Wort ausgetauscht, ...), bleibt nichts mehr übrig.
Richtig?
Und wenn diese Änderungen noch von wenigen Leuten gemacht wird, bilden diese die Hauptautoren.
Paul