[Pywikipedia-l] SVN: [4906] trunk/pywikipedia/fixes.py
wikipedian at svn.wikimedia.org
wikipedian at svn.wikimedia.org
Wed Jan 16 17:28:35 UTC 2008
Revision: 4906
Author: wikipedian
Date: 2008-01-16 17:28:35 +0000 (Wed, 16 Jan 2008)
Log Message:
-----------
minor grammar-de improvements
Modified Paths:
--------------
trunk/pywikipedia/fixes.py
Modified: trunk/pywikipedia/fixes.py
===================================================================
--- trunk/pywikipedia/fixes.py 2008-01-16 17:24:49 UTC (rev 4905)
+++ trunk/pywikipedia/fixes.py 2008-01-16 17:28:35 UTC (rev 4906)
@@ -73,6 +73,7 @@
},
# Grammar fixes for German language
+ # Do NOT run this automatically!
'grammar-de': {
'regex': True,
'msg': {
@@ -85,10 +86,12 @@
# Vorsicht bei Substantiven, z. B. 3-Jähriger!
(u'(\d+)(minütig|stündig|tägig|wöchig|jährig|minütlich|stündlich|täglich|wöchentlich|jährlich|fach|mal|malig|köpfig|teilig|gliedrig|geteilt|elementig|dimensional|bändig|eckig|farbig|stimmig)', r'\1-\2'),
# zusammengesetztes Wort, Bindestrich wird durchgeschleift
- (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])', r'\1-\2\3'),
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])', r'\1-\2\3'),
# Größenangabe ohne Leerzeichen vor Einheit
- # weggelassen wegen vieler falsch Positiver: s, A, V, C, S, %
- (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
+ # weggelassen wegen vieler falsch Positiver: s, A, V, C, S, J, %
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
+ # Temperaturangabe mit falsch gesetztem Leerzeichen
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)° C(?=\W|²|³|$)', ur'\1 °C'),
# Kein Leerzeichen zwischen Tag und Monat
(u'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
# Keine führende Null beim Datum
@@ -122,7 +125,7 @@
r'<code>.*</code>', # because of code examples
r'{{[Zz]itat\|.*?}}',
ur'{{§\|.*?}}', # Gesetzesparagraph
- ur'§ \d+[a-z]', # Gesetzesparagraph
+ ur'§ ?\d+[a-z]', # Gesetzesparagraph
r'Ju 52/1m', # Flugzeugbezeichnung
r'Ju 52/3m', # Flugzeugbezeichnung
r'AH-1W', # Hubschrauberbezeichnung
@@ -131,7 +134,8 @@
r'802.11g', # WLAN-Standard
r'DOS/4GW', # Software
r'ntfs-3g', # Dateisystem-Treiber
- r'/\w(,\w)*/', # Laut-Aufzählung in der Linguistik
+ r'/\w(,\w)*/', # Laut-Aufzählung in der Linguistik
+ r'[xyz](,[xyz])+', # Variablen in der Mathematik (unklar, ob Leerzeichen hier Pflicht sind)
r'(?m)^;(.*?)$', # Definitionslisten, dort gibt es oft absichtlich Leerzeichen vor Doppelpunkten
r'\d+h( | )\d+m', # Schreibweise für Zeiten, vor allem in Film-Infoboxen. Nicht korrekt, aber dafür schön kurz.
r'(?i)\[\[(Bild|Image|Media):.+?\|', # Dateinamen auslassen
More information about the Pywikipedia-l
mailing list