<div><br></div> <a href="http://www.7-zip.org/sdk.html">LZMA SDK </a>, provides a C-style API.  The only problem I find is that it requires pooling - recurrent calls to extract pieces of of data. So, I wrapped it with a C++ stream which I feed to xerces-c SAX XML. SAX is really fun to use. And the speed is amazing (3 days to process all languages except English) .<div>
<div><br><div class="gmail_quote">On Tue, Mar 16, 2010 at 6:17 PM, Jamie Morken <span dir="ltr">&lt;<a href="mailto:jmorken@shaw.ca">jmorken@shaw.ca</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>Hi,<br><br>Is this code available to process the 7zip data on the fly?  I had heard a rumour before that 7zip required multiple passes to decompress.<br><br>cheers,<br><font color="#888888">Jamie</font><div><div></div>
<div class="h5"><br><br><br>----- Original Message -----<br>From: Lev Muchnik &lt;<a href="mailto:levmuchnik@gmail.com" target="_blank">levmuchnik@gmail.com</a>&gt;<br>Date: Tuesday, March 16, 2010 1:55 pm<br>Subject: Re: [Xmldatadumps-admin-l] 2010-03-11 01:10:08: enwiki Checksumming pages-meta-history.xml.bz2 :D<br>
To: Tomasz Finc &lt;<a href="mailto:tfinc@wikimedia.org" target="_blank">tfinc@wikimedia.org</a>&gt;<br>Cc: Wikimedia developers &lt;<a href="mailto:wikitech-l@lists.wikimedia.org" target="_blank">wikitech-l@lists.wikimedia.org</a>&gt;, <a href="mailto:xmldatadumps-admin-l@lists.wikimedia.org" target="_blank">xmldatadumps-admin-l@lists.wikimedia.org</a>, <a href="mailto:Xmldatadumps-l@lists.wikimedia.org" target="_blank">Xmldatadumps-l@lists.wikimedia.org</a><br>
<br>&gt; I am entirely for 7z. In fact, once released, I&#39;ll be able to <br>&gt; test the XML<br>&gt; integrity right away - I process the data on the fly, <br>&gt; without  unpacking it<br>&gt; first.<br>&gt; <br>&gt; <br>
&gt; On Tue, Mar 16, 2010 at 4:45 PM, Tomasz Finc <br>&gt; &lt;<a href="mailto:tfinc@wikimedia.org" target="_blank">tfinc@wikimedia.org</a>&gt; wrote:<br>&gt; <br>&gt; &gt; Kevin Webb wrote:<br>&gt; &gt; &gt; I just managed to finish decompression. That took about 54 <br>
&gt; hours on an<br>&gt; &gt; &gt; EC2 2.5x unit CPU. The final data size is 5469GB.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; As the process just finished I haven&#39;t been able to check the<br>&gt; &gt; &gt; integrity of the XML, however, the bzip stream itself <br>
&gt; appears to be<br>&gt; &gt; &gt; good.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; As was mentioned previously, it would be great if you could <br>&gt; compress&gt; &gt; future archives using pbzib to allow for parallel <br>&gt; decompression. As I<br>
&gt; &gt; &gt; understand it, the pbzip files are reverse compatible with all<br>&gt; &gt; &gt; existing bzip2 utilities.<br>&gt; &gt;<br>&gt; &gt; Looks like the trade off is slightly larger files due to pbzip2&#39;s<br>
&gt; &gt; algorithm for individual chunking. We&#39;d have to change the<br>&gt; &gt;<br>&gt; &gt; buildFilters function in <a href="http://tinyurl.com/yjun6n5" target="_blank">http://tinyurl.com/yjun6n5</a> and <br>&gt; install the new<br>
&gt; &gt; binary. Ubuntu already has it in 8.04 LTS making it easy.<br>&gt; &gt;<br>&gt; &gt; Any takers for the change?<br>&gt; &gt;<br>&gt; &gt; I&#39;d also like to gauge everyones opinion on moving away from <br>&gt; the large<br>
&gt; &gt; file sizes of bz2 and going exclusively 7z. We&#39;d save a huge <br>&gt; amount of<br>&gt; &gt; space doing it at a slightly larger cost during compression.<br>&gt; &gt; Decompression of 7z these days is wicked fast.<br>
&gt; &gt;<br>&gt; &gt; let know<br>&gt; &gt;<br>&gt; &gt; --tomasz<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt; _______________________________________________<br>&gt; &gt; Xmldatadumps-admin-l mailing list<br>
&gt; &gt; <a href="mailto:Xmldatadumps-admin-l@lists.wikimedia.org" target="_blank">Xmldatadumps-admin-l@lists.wikimedia.org</a><br>&gt; &gt; <a href="https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-" target="_blank">https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-</a><br>
&gt; admin-l<br>&gt; &gt;<br>&gt; 
</div></div></blockquote></div><br></div></div>