<div dir="ltr"><div><div><div>Hoi,<br></div>I do not really understand the purpose of finding the articles in other languages. Arguably they are all known in Wikidata, including aliases.Magnus did already build a functional extension to search that is implemented on many Wikipedias. It will find you data when it is only available in Wikidata and it has the option to see this in an informative way by means of the "Reasonator".<br><br></div><div>No need to train the search of languages. Arguably such a training is not available for most of the languags Wikimedia supports.<br></div>Thanks,<br></div>     GerardM<br></div><div class="gmail_extra"><br><div class="gmail_quote">On 16 September 2015 at 17:59, Erik Bernhardson <span dir="ltr"><<a href="mailto:ebernhardson@wikimedia.org" target="_blank">ebernhardson@wikimedia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span class="">On Tue, Sep 15, 2015 at 11:13 PM, Gerard Meijssen <span dir="ltr"><<a href="mailto:gerard.meijssen@gmail.com" target="_blank">gerard.meijssen@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><div>One question, when you search for <span style="font-size:12.8px"> ''Ревест-Сен-Мартен", why did you not consider every language that uses the Cyrillic script? It is as likely to find something in Serbian, Macedonian, Belarusian etc ...</span></div><div><span style="font-size:12.8px">Thanks,</span></div><div><span style="font-size:12.8px">     GerardM</span></div></div><div><div><div class="gmail_extra"><br></div></div></div></blockquote><div> </div></span><div>The rest of the discussion is happening on the phab ticket, but i'll answer this here.  We are using a language detection algorithm that has been trained against tweets. Tweets are not, on average, as short as  the searches we are detecting the language of but it does an ok job. Trey did a great job putting together an analysis[1] of this language detection algo.  We will also be using his work there to evaluate other language detection methods and perhaps change what we are using in the future.</div><div><br></div><div>So the short of it is, we chose russian instead of serbian because the machine learning algorithm said so.</div><div><br></div><div>[1] <a href="https://www.mediawiki.org/wiki/User:TJones_(WMF)/Notes/Language_Detection_Evaluation" target="_blank">https://www.mediawiki.org/wiki/User:TJones_(WMF)/Notes/Language_Detection_Evaluation</a></div></div></div></div>
<br>_______________________________________________<br>
Mediawiki-i18n mailing list<br>
<a href="mailto:Mediawiki-i18n@lists.wikimedia.org">Mediawiki-i18n@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/mediawiki-i18n" rel="noreferrer" target="_blank">https://lists.wikimedia.org/mailman/listinfo/mediawiki-i18n</a><br>
<br></blockquote></div><br></div>