<div dir="ltr">I'm not understanding everything, so be patient with an old dog.  Also, this is more of a problem with WMFLabs.<div><br></div><div>WMFLabs currently doesn't copy over a dump until everything is completely finished.   For smaller dumps, the dump was finished and copied over to WMFLabs relatively quickly.  For larger dumps (enwiki, dewiki, frwiki) it would take 1-3 weeks, thus became useless for my purposes.  Therefore, for the larger languages,  I'd  manually copy the specific file in the dump I use.</div><div><br></div><div>Now with the new changes.  In theory....</div><div>1)  No language will be copied over for over a week after the dump has started.</div><div>2) The majority of languages (ie small ones) will be finished within the same short window.</div><div>3) For me, the majority of dumps are now rendered useless by the time they are copied over to WMFLabs.</div><div><br></div><div>I say "in theory" because I noticed some of the real small languages have finished within 4 days.</div><div><br></div><div>Bryan</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jun 8, 2015 at 2:07 AM, Ariel T. Glenn <span dir="ltr"><<a href="mailto:aglenn@wikimedia.org" target="_blank">aglenn@wikimedia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">To catch everyone who would stop reading right after the updates, let me<br>
put the question first.<br>
<br>
Who uses the abstract dumps?  Anyone here?  Anyone you know? Please<br>
forwar this to other lists where there might be users of these dumps.<br>
We're trying to figure out if we need to keep generating them or not.<br>
<br>
Now the updates.<br>
<br>
We got more space for the dumps server, which means we don't need to<br>
reduce the number of dumps kept for some time.  You'll also see other<br>
items showing up there soon-ish, not part of the xml dumps.<br>
<br>
We've long had a request to run stubs early on in the dumps process so<br>
that stats can be produced right away, and we finally have that going.<br>
As of this month all dump runs will be done in stages, stubs first, then<br>
tables, then page logs, and then the rest.  I'm open to negotiation<br>
about the order of jobs after the stubs, if folks have other<br>
preferences.<br>
<br>
We've worked around the eternal php memory leak(s), which lets us now<br>
run 7 workers for small wikis at once.  This means we'll get through<br>
those dumps quicker.<br>
<br>
Nemo_bis did some testing with an option to 7zip which means much faster<br>
compression with a relatively small increase in size. I've adopted that<br>
everywhere and we should see the difference, primarily in the big wikis,<br>
this month and on.<br>
<br>
New code brings new bugs.  This month's stub and page log runs for<br>
smaller wikis may have a duplicate entry at the end, the last item<br>
appearing twice.  This has been fixed for all future runs.  It shouldn't<br>
have a real impact on stats but folks importing from these dumps should<br>
be aware.<br>
<br>
<br>
Happy June,<br>
<br>
Ariel<br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
Xmldatadumps-l mailing list<br>
<a href="mailto:Xmldatadumps-l@lists.wikimedia.org">Xmldatadumps-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-l</a><br>
</blockquote></div><br></div>