PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que
apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo <fazedo(a)gmail.com>
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder <helder.wiki(a)gmail.com> escreveu:
Aqui está a lista dos pares de títulos mais
parecidos (distância igual a
0,
1 ou 2) presentes na lista atual:
https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder <helder.wiki(a)gmail.com>
>
> Se alguém estiver a fim de programar, talvez isso funcione para alguns
> casos:
> * Para cada par de títulos da lista, calcule a distância
Levenshtein entre
> as duas strings (Há algoritmos prontos para
isso no Wikibooks
>
>
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_d…
)
> ** Se a distância for pequena, os títulos são
"parecidos" (como
"Resident
> Evil 4" e "Resident Evil",
cuja distância é 2), então coloque o par em
uma
> lista, para ser avaliado por alguém
posteriormente
> ** Se não for, ignore o par e passe para o próximo
> * Avalie manualmente os pares de títulos parecidos que foram incluídos
na
> lista.
> Não sei se o algoritmo levaria muito tempo para ser executado, mas
talvez
ajude.
2011/10/17 Fabio Azevedo <fazedo(a)gmail.com>
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei
algumas escolhas que me me parecem estranhas:
1) Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
2) O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
3) Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo,
Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,,
Pirates_of_the_Caribbean:_Dead_Man's_Chest,
Pirates_of_the_Caribbean:_On_Stranger_Tides,
Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl,
Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
4) Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
5) Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
6) Roma Antiga duas vezes
7) Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja
vários casos assim. Será que tem uma maneira automática de eliminar
esses casos mais óbvios?
Fabio
_______________________________________________
WikimediaBR-l mailing list
WikimediaBR-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
_______________________________________________
WikimediaBR-l mailing list
WikimediaBR-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
_______________________________________________
WikimediaBR-l mailing list
WikimediaBR-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l