Confira também esta versão: https://pt.wikipedia.org/w/index.php?oldid=27309674 Para cada item da lista, a distância de Levenshtein entre os dois títulos foi dividida pelo tamanho do maior título (e indicada como porcentagem entre parêntesis), para tentar manter os itens mais parecidos no topo.
2011/10/18 Fabio Azevedo fazedo@gmail.com
Encontrei lá o para radição térmica/irradiação térmica Fabio
Em 18 de outubro de 2011 17:55, Helder helder.wiki@gmail.com escreveu:
Divirta-se: https://pt.wikipedia.org/w/index.php?oldid=27308816#toc PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com
escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual
a
0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para
alguns
casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... )
** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par
em
uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram
incluídos
na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto
e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]].
Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l