<div dir="ltr">Hi Tilman,<div>Your assumption is correct, you can trust projectview_hourly :)</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Mar 2, 2016 at 4:22 AM, Tilman Bayer <span dir="ltr"><<a href="mailto:tbayer@wikimedia.org" target="_blank">tbayer@wikimedia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Thanks Joseph! Is it reasonable to assume that the aggregate data in <a href="https://wikitech.wikimedia.org/wiki/Analytics/Data/Projectview_hourly" target="_blank">projectview_hourly</a> has not been affected? <div class="gmail_extra"><br><div class="gmail_quote"><span class="">On Tue, Mar 1, 2016 at 7:24 AM, Joseph Allemandou <span dir="ltr"><<a href="mailto:jallemandou@wikimedia.org" target="_blank">jallemandou@wikimedia.org</a>></span> wrote:<br></span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5"><div dir="ltr">Hey Oliver,<div>It depends on what data you've used: if page_title or other 'encoding sensitive' data (I can't think of any other, but ...) is part of it, then yes, you should !</div></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 1, 2016 at 3:27 PM, Oliver Keyes <span dir="ltr"><<a href="mailto:okeyes@wikimedia.org" target="_blank">okeyes@wikimedia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hey Joseph,<br>
<br>
Thanks for letting us know. So we should delete and backfill last<br>
week's data, for our regularly scheduled scripts?<br>
<div><div><br>
On 1 March 2016 at 08:26, Joseph Allemandou <<a href="mailto:jallemandou@wikimedia.org" target="_blank">jallemandou@wikimedia.org</a>> wrote:<br>
> Hi,<br>
><br>
> TL,DR: Please don't use hive / spark / hadoop before next week.<br>
><br>
> Last week the Analytics Team performed an upgrade to the Hadoop Cluster.<br>
> It went reasonably well except for many of the hadoop processes were<br>
> launched with a special option to NOT use utf-8 as default encoding.<br>
> This issue caused trouble particularly in page title extraction and was<br>
> detected last sunday (many kudos to the people having filled bugs on<br>
> Analytics API about encoding :)<br>
> We found the bug and fixed it yesterday, and backfill starts today, with the<br>
> cluster recomputing every dataset starting 2016-02-23 onward.<br>
> This means you shouldn't query last week data during this week, first<br>
> because it is incorrect, and second because you'll curse the cluster for<br>
> being too slow :)<br>
><br>
> We are sorry for the inconvenience.<br>
> Don't hesitate to contact us if you have any question<br>
><br>
><br>
> --<br>
> Joseph Allemandou<br>
> Data Engineer @ Wikimedia Foundation<br>
> IRC: joal<br>
><br>
</div></div>> _______________________________________________<br>
> Engineering mailing list<br>
> <a href="mailto:Engineering@lists.wikimedia.org" target="_blank">Engineering@lists.wikimedia.org</a><br>
> <a href="https://lists.wikimedia.org/mailman/listinfo/engineering" rel="noreferrer" target="_blank">https://lists.wikimedia.org/mailman/listinfo/engineering</a><br>
><br>
<span><font color="#888888"><br>
<br>
<br>
--<br>
Oliver Keyes<br>
Count Logula<br>
Wikimedia Foundation<br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div><div dir="ltr"><b>Joseph Allemandou</b><div><div>Data Engineer @ <span style="font-size:12.8000001907349px">Wikimedia Foundation</span></div><div>IRC: joal</div></div></div></div>
</div>
</div></div><br></div></div><span class="">_______________________________________________<br>
Analytics mailing list<br>
<a href="mailto:Analytics@lists.wikimedia.org" target="_blank">Analytics@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/analytics" rel="noreferrer" target="_blank">https://lists.wikimedia.org/mailman/listinfo/analytics</a><br>
<br></span></blockquote></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><div><br></div>-- <br><div>Tilman Bayer<br>Senior Analyst<br>Wikimedia Foundation<br>IRC (Freenode): HaeB</div>
</font></span></div></div>
<br>_______________________________________________<br>
Engineering mailing list<br>
<a href="mailto:Engineering@lists.wikimedia.org">Engineering@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/engineering" rel="noreferrer" target="_blank">https://lists.wikimedia.org/mailman/listinfo/engineering</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr"><b>Joseph Allemandou</b><div><div>Data Engineer @ <span style="font-size:12.8000001907349px">Wikimedia Foundation</span></div><div>IRC: joal</div></div></div></div>
</div>