[Pywikipedia-l] SVN: [4842] trunk/pywikipedia/fixes.py

wikipedian at svn.wikimedia.org wikipedian at svn.wikimedia.org
Thu Jan 10 01:52:11 UTC 2008


Revision: 4842
Author:   wikipedian
Date:     2008-01-10 01:52:11 +0000 (Thu, 10 Jan 2008)

Log Message:
-----------
added replacement and exceptions for grammar-de

Modified Paths:
--------------
    trunk/pywikipedia/fixes.py

Modified: trunk/pywikipedia/fixes.py
===================================================================
--- trunk/pywikipedia/fixes.py	2008-01-10 00:59:14 UTC (rev 4841)
+++ trunk/pywikipedia/fixes.py	2008-01-10 01:52:11 UTC (rev 4842)
@@ -86,15 +86,17 @@
 			(u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])',           r'\1-\2\3'),
 			# Größenangabe ohne Leerzeichen vor Einheit
 			# weggelassen wegen vieler falsch Positiver: s, A, V, C, S, %
-			(u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)',          r'\1 \2'),
+			(u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)',          r'\1 \2'),
 			# Kein Leerzeichen zwischen Tag und Monat
 			(u'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
 			# Keine führende Null beim Datum
 			#(u'0(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
 			# Kein Leerzeichen nach Komma
 			(u'([a-z](\]\])?,)((\[\[)?[a-zA-Z])',                                                                          r'\1 \3'),
-			# Leerzeichen und Komma vertauscht
-			(u'([a-z](\]\])?) ,((\[\[)?[a-zA-Z])',                                                                          r'\1, \3'),
+            # Leerzeichen und Komma vertauscht
+            (u'([a-z](\]\])?) ,((\[\[)?[a-zA-Z])',                                                                          r'\1, \3'),
+            # Leerzeichen auch vor dem Komma
+            (u'([a-z](\]\])?) , ((\[\[)?[a-zA-Z])',                                                                          r'\1, \3'),
 			#(u'([a-z]\.)([A-Z])',                                                                             r'\1 \2'),
 		],
 		'exceptions': {
@@ -112,10 +114,12 @@
                 r'20min.ch',     # Schweizer News-Seite
 			],
 			'inside': [
-                r'<code>.*</code>' # because of code examples
+                r'<code>.*</code>', # because of code examples
+                r' \d+[a-z]',     # Gesetzesparagraph
                 r'Ju 52/1m', # Flugzeugbezeichnung
                 r'Ju 52/3m', # Flugzeugbezeichnung
 				r'AH-1W',    # Hubschrauberbezeichnung
+                r'ZPG-3W',   # Luftschiffbezeichnung
                 r'8mm',      # Filmtitel
                 r'802.11g',  # WLAN-Standard
                 r'ntfs-3g',  # Dateisystem-Treiber





More information about the Pywikipedia-l mailing list