[Pywikipedia-l] SVN: [4842] trunk/pywikipedia/fixes.py
wikipedian at svn.wikimedia.org
wikipedian at svn.wikimedia.org
Thu Jan 10 01:52:11 UTC 2008
Revision: 4842
Author: wikipedian
Date: 2008-01-10 01:52:11 +0000 (Thu, 10 Jan 2008)
Log Message:
-----------
added replacement and exceptions for grammar-de
Modified Paths:
--------------
trunk/pywikipedia/fixes.py
Modified: trunk/pywikipedia/fixes.py
===================================================================
--- trunk/pywikipedia/fixes.py 2008-01-10 00:59:14 UTC (rev 4841)
+++ trunk/pywikipedia/fixes.py 2008-01-10 01:52:11 UTC (rev 4842)
@@ -86,15 +86,17 @@
(u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])', r'\1-\2\3'),
# Größenangabe ohne Leerzeichen vor Einheit
# weggelassen wegen vieler falsch Positiver: s, A, V, C, S, %
- (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
# Kein Leerzeichen zwischen Tag und Monat
(u'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
# Keine führende Null beim Datum
#(u'0(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
# Kein Leerzeichen nach Komma
(u'([a-z](\]\])?,)((\[\[)?[a-zA-Z])', r'\1 \3'),
- # Leerzeichen und Komma vertauscht
- (u'([a-z](\]\])?) ,((\[\[)?[a-zA-Z])', r'\1, \3'),
+ # Leerzeichen und Komma vertauscht
+ (u'([a-z](\]\])?) ,((\[\[)?[a-zA-Z])', r'\1, \3'),
+ # Leerzeichen auch vor dem Komma
+ (u'([a-z](\]\])?) , ((\[\[)?[a-zA-Z])', r'\1, \3'),
#(u'([a-z]\.)([A-Z])', r'\1 \2'),
],
'exceptions': {
@@ -112,10 +114,12 @@
r'20min.ch', # Schweizer News-Seite
],
'inside': [
- r'<code>.*</code>' # because of code examples
+ r'<code>.*</code>', # because of code examples
+ r' \d+[a-z]', # Gesetzesparagraph
r'Ju 52/1m', # Flugzeugbezeichnung
r'Ju 52/3m', # Flugzeugbezeichnung
r'AH-1W', # Hubschrauberbezeichnung
+ r'ZPG-3W', # Luftschiffbezeichnung
r'8mm', # Filmtitel
r'802.11g', # WLAN-Standard
r'ntfs-3g', # Dateisystem-Treiber
More information about the Pywikipedia-l
mailing list