Revision: 4842 Author: wikipedian Date: 2008-01-10 01:52:11 +0000 (Thu, 10 Jan 2008)
Log Message: ----------- added replacement and exceptions for grammar-de
Modified Paths: -------------- trunk/pywikipedia/fixes.py
Modified: trunk/pywikipedia/fixes.py =================================================================== --- trunk/pywikipedia/fixes.py 2008-01-10 00:59:14 UTC (rev 4841) +++ trunk/pywikipedia/fixes.py 2008-01-10 01:52:11 UTC (rev 4842) @@ -86,15 +86,17 @@ (u'(?<!\w)(\d+|\d+[.,]\d+)($|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w[])', r'\1-\2\3'), # Größenangabe ohne Leerzeichen vor Einheit # weggelassen wegen vieler falsch Positiver: s, A, V, C, S, % - (u'(?<!\w)(\d+|\d+[.,]\d+)($|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'), + (u'(?<!\w)(\d+|\d+[.,]\d+)($|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'), # Kein Leerzeichen zwischen Tag und Monat (u'(\d+).(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'), # Keine führende Null beim Datum #(u'0(\d+). (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'), # Kein Leerzeichen nach Komma (u'([a-z](]])?,)(([[)?[a-zA-Z])', r'\1 \3'), - # Leerzeichen und Komma vertauscht - (u'([a-z](]])?) ,(([[)?[a-zA-Z])', r'\1, \3'), + # Leerzeichen und Komma vertauscht + (u'([a-z](]])?) ,(([[)?[a-zA-Z])', r'\1, \3'), + # Leerzeichen auch vor dem Komma + (u'([a-z](]])?) , (([[)?[a-zA-Z])', r'\1, \3'), #(u'([a-z].)([A-Z])', r'\1 \2'), ], 'exceptions': { @@ -112,10 +114,12 @@ r'20min.ch', # Schweizer News-Seite ], 'inside': [ - r'<code>.*</code>' # because of code examples + r'<code>.*</code>', # because of code examples + r' \d+[a-z]', # Gesetzesparagraph r'Ju 52/1m', # Flugzeugbezeichnung r'Ju 52/3m', # Flugzeugbezeichnung r'AH-1W', # Hubschrauberbezeichnung + r'ZPG-3W', # Luftschiffbezeichnung r'8mm', # Filmtitel r'802.11g', # WLAN-Standard r'ntfs-3g', # Dateisystem-Treiber