Revision: 3910
Author: wikipedian
Date: 2007-07-27 13:13:29 +0000 (Fri, 27 Jul 2007)
Log Message:
-----------
improvements for grammar-de
Modified Paths:
--------------
trunk/pywikipedia/fixes.py
Modified: trunk/pywikipedia/fixes.py
===================================================================
--- trunk/pywikipedia/fixes.py 2007-07-27 12:41:12 UTC (rev 3909)
+++ trunk/pywikipedia/fixes.py 2007-07-27 13:13:29 UTC (rev 3910)
@@ -59,15 +59,18 @@
'replacements': [
#(u'([Ss]owohl) ([^,\.]+?), als auch', r'\1 \2 als auch'),
#(u'([Ww]eder) ([^,\.]+?), noch', r'\1 \2 noch'),
+ #
+ # Vorsicht bei Substantiven, z. B. 3-Jähriger!
(u'(\d+)(minütig|stündig|tägig|wöchig|jährig|minütlich|stündlich|täglich|wöchentlich|jährlich|fach|mal|malig|köpfig|teilig|gliedrig|geteilt|elementig|dimensional|bändig|eckig|farbig|stimmig)', r'\1-\2'),
# zusammengesetztes Wort, Bindestrich wird durchgeschleift
- (u'(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])', r'\1-\2\3'),
- (u'(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])', r'\1-\2\3'),
+ # Größenangabe ohne Leerzeichen vor Einheit
# weggelassen wegen vieler falsch Positiver: s, A, V, C, S, %
+ (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min|µm|mm|cm|dm|m|km|°C|kB|MB|TB|W|kW|MW|PS|Nm|eV|J|kcal|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1 \2'),
# Kein Leerzeichen zwischen Tag und Monat
(u'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
# Keine führende Null beim Datum
- (u'0(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
+ #(u'0(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember)', r'\1. \2'),
# Kein Leerzeichen nach Komma
(u'([a-z](\]\])?,)((\[\[)?[a-zA-Z])', r'\1 \3'),
# Leerzeichen und Komma vertauscht