Aqui está a lista dos pares de títulos mais parecidos (distância igual a 0, 1 ou 2) presentes na <a href="https://pt.wikipedia.org/w/index.php?oldid=27295357">lista atual</a>:<div><meta http-equiv="content-type" content="text/html; charset=utf-8"><a href="https://pt.wikipedia.org/w/index.php?title=Wikip%C3%A9dia:P%C3%A1gina_de_testes/2&amp;oldid=27296547#toc">https://pt.wikipedia.org/w/index.php?oldid=27296547#toc</a><br>

<br></div><div>2011/10/17 Helder <span dir="ltr">&lt;<a href="mailto:helder.wiki@gmail.com">helder.wiki@gmail.com</a>&gt;</span></div><div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<div><div class="gmail_quote">Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:<div>* Para cada par de títulos da lista, calcule a <a href="http://en.wikipedia.org/wiki/Levenshtein_distance" target="_blank">distância Levenshtein</a> entre as duas strings (Há algoritmos prontos para isso no Wikibooks</div>


<div><a href="http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance" target="_blank">http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance</a>)</div><div>** Se a distância for pequena, os títulos são &quot;parecidos&quot; (como &quot;Resident Evil 4&quot; e &quot;Resident Evil&quot;, cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente</div>


<div>** Se não for, ignore o par e passe para o próximo</div><div>* Avalie manualmente os pares de títulos parecidos que foram incluídos na lista.</div><div>Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.</div>


<div><br></div><div><br></div></div><div><div></div><div class="h5"><div class="gmail_quote">2011/10/17 Fabio Azevedo <span dir="ltr">&lt;<a href="mailto:fazedo@gmail.com" target="_blank">fazedo@gmail.com</a>&gt;</span><br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Pessoal,<br>
<br>
Acho que ainda precisamos refinar um pouco essa lista. Encontrei<br>
algumas escolhas que me me parecem estranhas:<br>
<br>
1) Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e<br>
7 de setembro. O último eu até entendo, mas os outros, não.<br>
<br>
2) O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se<br>
é que algum deles deveria figurar.<br>
<br>
3) Existem diversos artigos sobre Piratas do Caribe<br>
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo,<br>
Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World&#39;s_End,,<br>
Pirates_of_the_Caribbean:_Dead_Man&#39;s_Chest,<br>
Pirates_of_the_Caribbean:_On_Stranger_Tides,<br>
Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl,<br>
Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).<br>
<br>
4) Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)<br>
<br>
5) Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?<br>
<br>
6) Roma Antiga duas vezes<br>
<br>
7) Rússia e Russia<br>
<br>
<br>
É claro que as repetições são fáceis de resolver, mas temo que haja<br>
vários casos assim. Será que tem uma maneira automática de eliminar<br>
esses casos mais óbvios?<br>
<br>
<br>
Fabio<br>
<br>
_______________________________________________<br>
WikimediaBR-l mailing list<br>
<a href="mailto:WikimediaBR-l@lists.wikimedia.org" target="_blank">WikimediaBR-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l</a><br>
</blockquote></div><br></div></div></div>
</blockquote></div><br></div>