<div dir="ltr">Hey Oliver,<div>It depends on what data you've used: if page_title or other 'encoding sensitive' data (I can't think of any other, but ...) is part of it, then yes, you should !</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 1, 2016 at 3:27 PM, Oliver Keyes <span dir="ltr"><<a href="mailto:okeyes@wikimedia.org" target="_blank">okeyes@wikimedia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hey Joseph,<br>
<br>
Thanks for letting us know. So we should delete and backfill last<br>
week's data, for our regularly scheduled scripts?<br>
<div><div class="h5"><br>
On 1 March 2016 at 08:26, Joseph Allemandou <<a href="mailto:jallemandou@wikimedia.org">jallemandou@wikimedia.org</a>> wrote:<br>
> Hi,<br>
><br>
> TL,DR: Please don't use hive / spark / hadoop before next week.<br>
><br>
> Last week the Analytics Team performed an upgrade to the Hadoop Cluster.<br>
> It went reasonably well except for many of the hadoop processes were<br>
> launched with a special option to NOT use utf-8 as default encoding.<br>
> This issue caused trouble particularly in page title extraction and was<br>
> detected last sunday (many kudos to the people having filled bugs on<br>
> Analytics API about encoding :)<br>
> We found the bug and fixed it yesterday, and backfill starts today, with the<br>
> cluster recomputing every dataset starting 2016-02-23 onward.<br>
> This means you shouldn't query last week data during this week, first<br>
> because it is incorrect, and second because you'll curse the cluster for<br>
> being too slow :)<br>
><br>
> We are sorry for the inconvenience.<br>
> Don't hesitate to contact us if you have any question<br>
><br>
><br>
> --<br>
> Joseph Allemandou<br>
> Data Engineer @ Wikimedia Foundation<br>
> IRC: joal<br>
><br>
</div></div>> _______________________________________________<br>
> Engineering mailing list<br>
> <a href="mailto:Engineering@lists.wikimedia.org">Engineering@lists.wikimedia.org</a><br>
> <a href="https://lists.wikimedia.org/mailman/listinfo/engineering" rel="noreferrer" target="_blank">https://lists.wikimedia.org/mailman/listinfo/engineering</a><br>
><br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
<br>
--<br>
Oliver Keyes<br>
Count Logula<br>
Wikimedia Foundation<br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr"><b>Joseph Allemandou</b><div><div>Data Engineer @ <span style="font-size:12.8000001907349px">Wikimedia Foundation</span></div><div>IRC: joal</div></div></div></div>
</div>