<div dir="ltr">I have a dataset containing estimated registration dates for editors who registered before Dec. 2005.  My method assumes that user_id is monotonically increasing and sets the lowest upper-bound available.  <div>

<br></div><div>For example.  Let's assume the following rows:</div><div><br></div><div><font face="courier new, monospace">    user_id    first_edit</font></div><div><font face="courier new, monospace">    12345      20040102030405</font><span style="font-family:'courier new',monospace">  </span></div>

<div><font face="courier new, monospace">    12344      NULL</font></div><div><font face="courier new, monospace">    12343      20040102050102</font></div><div><font face="courier new, monospace"><br></font></div><div><font face="arial, helvetica, sans-serif">Since an editor couldn't have saved a revision before registering their account, we can assume that user 12345 registered there account on or before </font><span style="font-family:'courier new',monospace">20040102030405</span><font face="arial, helvetica, sans-serif">.  If user_id is monotonically increasing, we also know that user 12344 must have registered on or before </font><font face="courier new, monospace">20040102030405</font><font face="arial, helvetica, sans-serif">, which lets us fill in a NULL.  Similarly, we have a first_edit timestamp for user 12343, but that edit happened pretty late.  We can actually just continue to propagate the </font><span style="font-family:'courier new',monospace">20040102030405</span><font face="arial, helvetica, sans-serif"> timestamp to this user too</font><span style="font-family:'courier new',monospace">.</span></div>

<div><span style="font-family:'courier new',monospace"><br></span></div><div><font face="arial, helvetica, sans-serif">After performing this approximation, we'd have the following rows:</font></div><div><font face="arial, helvetica, sans-serif"><br>

</font></div><div><div><font face="courier new, monospace">    user_id    first_edit        user_registration_approx</font></div><div><font face="courier new, monospace">    12345      20040102030405</font><span style="font-family:'courier new',monospace">    </span><span style="font-family:'courier new',monospace">20040102030405</span></div>

<div><font face="courier new, monospace">    12344      NULL              </font><span style="font-family:'courier new',monospace">20040102030405</span></div><div><font face="courier new, monospace">    12343      20040102050102    </font><span style="font-family:'courier new',monospace">20040102030405</span></div>

</div><div><span style="font-family:'courier new',monospace"><br></span></div><div><font face="arial, helvetica, sans-serif">In effect, this is similar to the approximation discussed in </font><a href="https://bugzilla.wikimedia.org/show_bug.cgi?id=18638" target="_blank" style="font-size:13px;font-family:arial,sans-serif">https://bugzilla.wikimedia.<u></u>org/show_bug.cgi?id=18638</a>, but I'm not trying to interpolate probable registration timings on users.  In practice we're talking about a difference of seconds, so I haven't bothered with the extra work.  </div>

<div><br></div><div>I'm generating a datafile for English now that I should be able to share the the end of the day:</div><div><ul><li>user_id</li><li>registration_type  (see <a href="https://meta.wikimedia.org/wiki/Research:Attached_user">https://meta.wikimedia.org/wiki/Research:Attached_user</a> and <a href="https://meta.wikimedia.org/wiki/Research:Newly_registered_user">https://meta.wikimedia.org/wiki/Research:Newly_registered_user</a>)</li>

<li>user_registration (from user table)</li><li>first_edit (lowest timestamp from "revision" and "archive" for user_id)</li><li>registration_approx (my approximation based on the method described above)</li>

</ul><div>-Aaron</div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Feb 14, 2014 at 6:06 AM, Federico Leva (Nemo) <span dir="ltr"><<a href="mailto:nemowiki@gmail.com" target="_blank">nemowiki@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Felipe Ortega, 14/02/2014 12:05:<div class=""><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Thanks a lot. Then, I look forward to the confirmation and<br>
implementation of this feature. In case it's better to open a new issue<br>
on bugzilla or any other action on my side (lend a hand with value<br>
reviewing/testing) just let me know.<br>
</blockquote>
<br></div>
You could help assess the correctness of and/or code the guesstimate method proposed in <a href="https://bugzilla.wikimedia.org/show_bug.cgi?id=18638" target="_blank">https://bugzilla.wikimedia.<u></u>org/show_bug.cgi?id=18638</a> , for the script to fill further blanks.<div class="HOEnZb">

<div class="h5"><br>
<br>
Nemo<br>
<br>
______________________________<u></u>_________________<br>
Labs-l mailing list<br>
<a href="mailto:Labs-l@lists.wikimedia.org" target="_blank">Labs-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/labs-l" target="_blank">https://lists.wikimedia.org/<u></u>mailman/listinfo/labs-l</a><br>
</div></div></blockquote></div><br></div>