Re: [Pywikipedia-l] Regex question

10 Aug 2013


      On 28 July 2013 10:12, Bináris wikiposta@gmail.com wrote:
...
Hi,
\b in a regex treats letter "é" (which is a correct Hungarian letter) as a
word boundary.
Can I prevent this behaviour with some kind of settings?
Simple ascii:
...
...
...
re.findall(r".+?\b", "bla bla bla")
['bla', ' ', 'bla', ' ', 'bla']
Incorrect:
 - no re.UNICODE flag, bytestring
...
...
...
re.findall(r".+?\b", "bléa bléa bléa")
['bl', '\xc3\xa9', 'a', ' ', 'bl', '\xc3\xa9', 'a', ' ', 'bl', '\xc3\xa9',
'a']
- no re.UNICODE flag, unicode string
...
...
...
re.findall(r".+?\b", u"bléa bléa bléa")
[u'bl', u'\xe9', u'a', u' ', u'bl', u'\xe9', u'a', u' ', u'bl', u'\xe9',
u'a']
- re.UNICODE flag, bytestring
...
...
...
re.findall(r".+?\b", "bléa bléa bléa", re.UNICODE)
['bl\xc3', '\xa9', 'a', ' ', 'bl\xc3', '\xa9', 'a', ' ', 'bl\xc3', '\xa9',
'a']
CorrecT:
- both re.UNICODE and using a unicode string
...
...
...
re.findall(r".+?\b", u"bléa bléa bléa", re.UNICODE)
[u'bl\xe9a', u' ', u'bl\xe9a', u' ', u'bl\xe9a']
Hope this helps!
Merlijn

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

Re: [Pywikipedia-l] Regex question