<html><body bgcolor="#FFFFFF"><div>Se for para ser wikicentrada, esse método do Hélder é o suprasumo. Caríssimo Hélder, rogo que não entenda mal, apenas tenho dito desde o começo que os artigos deveriam ser escolhidos por um terceiro, mais próximo ao publico-alvo. Att<br><br>Enviado do meu iPad</div><div><br>No dia 17/10/2011, às 13:34, Helder &lt;<a href="mailto:helder.wiki@gmail.com">helder.wiki@gmail.com</a>&gt; escreveu:<br><br></div><div></div><blockquote type="cite"><div><div><div class="gmail_quote">Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:<div>* Para cada par de títulos da lista, calcule a&nbsp;<a href="http://en.wikipedia.org/wiki/Levenshtein_distance">distância Levenshtein</a>&nbsp;entre as duas strings (Há algoritmos prontos para isso no Wikibooks</div>

<div><a href="http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance"><a href="http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance">http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance</a></a>)</div><div>** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente</div>

<div>** Se não for, ignore o par e passe para o próximo</div><div>*&nbsp;Avalie manualmente os pares de títulos parecidos que foram incluídos na lista.</div><div>Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.</div>

<div><br></div><div><br></div></div><div class="gmail_quote">2011/10/17 Fabio Azevedo <span dir="ltr">&lt;<a href="mailto:fazedo@gmail.com"><a href="mailto:fazedo@gmail.com">fazedo@gmail.com</a></a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Pessoal,<br>
<br>
Acho que ainda precisamos refinar um pouco essa lista. Encontrei<br>
algumas escolhas que me me parecem estranhas:<br>
<br>
1) Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e<br>
7 de setembro. O último eu até entendo, mas os outros, não.<br>
<br>
2) O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se<br>
é que algum deles deveria figurar.<br>
<br>
3) Existem diversos artigos sobre Piratas do Caribe<br>
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo,<br>
Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,,<br>
Pirates_of_the_Caribbean:_Dead_Man's_Chest,<br>
Pirates_of_the_Caribbean:_On_Stranger_Tides,<br>
Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl,<br>
Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).<br>
<br>
4) Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)<br>
<br>
5) Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?<br>
<br>
6) Roma Antiga duas vezes<br>
<br>
7) Rússia e Russia<br>
<br>
<br>
É claro que as repetições são fáceis de resolver, mas temo que haja<br>
vários casos assim. Será que tem uma maneira automática de eliminar<br>
esses casos mais óbvios?<br>
<br>
<br>
Fabio<br>
<br>
_______________________________________________<br>
WikimediaBR-l mailing list<br>
<a href="mailto:WikimediaBR-l@lists.wikimedia.org"><a href="mailto:WikimediaBR-l@lists.wikimedia.org">WikimediaBR-l@lists.wikimedia.org</a></a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l" target="_blank"><a href="https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l">https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l</a></a><br>
</blockquote></div><br></div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>WikimediaBR-l mailing list</span><br><span><a href="mailto:WikimediaBR-l@lists.wikimedia.org">WikimediaBR-l@lists.wikimedia.org</a></span><br><span><a href="https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l">https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l</a></span><br></div></blockquote></body></html>