I have tested your code, with the bz2 and 7z dumps, and I get titles with None value. The first one is the same error that apperas in my code.<br><br>Reading XML dump...<br>None 2004-10-10T04:24:14Z<br><br>I have the last version of pywikipediabot and Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56). Probably, it can be a error of Python or cElementTree. What are your versions?<br>

<br><div class="gmail_quote">2010/10/5 Russell Blau <span dir="ltr">&lt;<a href="mailto:russblau@hotmail.com">russblau@hotmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

&quot;emijrp&quot; &lt;<a href="mailto:emijrp@gmail.com">emijrp@gmail.com</a>&gt; wrote in message<br>
news:AANLkTimu0+xJMBU1f48z8di9deBS_4_gmC_gOB6t82iJ@mail.gmail.com...<br>
<div class="im"><br>
&gt; I think that there is an error in xmlreader.py. When parsing a full<br>
&gt; revision XML (in this case[1]), using this code[2] (look at the<br>
&gt; try-catch, it writes when fails) I get correctly username,<br>
&gt; timestamp and revisionid, but sometimes, the page title and the page<br>
&gt; id are None or empty string.<br>
<br>
</div><div class="im">&gt; [1]<br>
&gt; <a href="http://download.wikimedia.org/kwwiki/20100926/kwwiki-20100926-pages-meta-history.xml.7z" target="_blank">http://download.wikimedia.org/kwwiki/20100926/kwwiki-20100926-pages-meta-history.xml.7z</a><br>
&gt; [2] <a href="http://pastebin.ca/1951930" target="_blank">http://pastebin.ca/1951930</a><br>
&gt; [3] <a href="http://pastebin.ca/1951937" target="_blank">http://pastebin.ca/1951937</a><br>
<br>
</div>I have been completely unable to replicate this supposed error.  I<br>
downloaded the same kwwiki dump file that you referenced.  I loaded it with<br>
xmlreader.XmlDump, ran it through the parser, and counted the number of<br>
XMLEntry objects it generated: 4711.  Then as a test I opened the same dump<br>
as a text file and counted the number of lines that contain the string<br>
&quot;&lt;page&gt;&quot;: 4711.  So the parser is correctly returning one object per page<br>
item found in the file.<br>
<br>
Next I ran the parser again with a script that would print out a message if<br>
any XMLEntry object had a missing title (None or empty string); no messages.<br>
<br>
Then I searched for the specific page entry you showed in your pastebin item<br>
[3]. The result of this test is shown at [4]. In short, it found exactly the<br>
page title you said was missing.<br>
<br>
I cannot explain why your results are different than mine, unless perhaps<br>
you have a corrupted copy of the dump file, or are not using the current<br>
version of xmlreader.py.<br>
<br>
Russ<br>
<br>
[4] <a href="http://pastebin.ca/1955170" target="_blank">http://pastebin.ca/1955170</a><br>
<div><div></div><div class="h5"><br>
<br>
<br>
<br>
_______________________________________________<br>
Pywikipedia-l mailing list<br>
<a href="mailto:Pywikipedia-l@lists.wikimedia.org">Pywikipedia-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/pywikipedia-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/pywikipedia-l</a><br>
</div></div></blockquote></div><br>