[Wikimedia Brasil] Lista

Helder helder.wiki em gmail.com
Terça Outubro 18 21:06:01 UTC 2011


Confira também esta versão:
https://pt.wikipedia.org/w/index.php?oldid=27309674
Para cada item da lista, a distância de Levenshtein entre os dois títulos
foi dividida pelo tamanho do maior título (e indicada como porcentagem entre
parêntesis), para tentar manter os itens mais parecidos no topo.

2011/10/18 Fabio Azevedo <fazedo em gmail.com>

> Encontrei lá o para radição térmica/irradiação térmica
> Fabio
>
> Em 18 de outubro de 2011 17:55, Helder <helder.wiki em gmail.com> escreveu:
> > Divirta-se:
> > https://pt.wikipedia.org/w/index.php?oldid=27308816#toc
> > PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que
> > apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
> >
> > 2011/10/18 Fabio Azevedo <fazedo em gmail.com>
> >>
> >> Helder,
> >>
> >> Tem como passar o algoritmo de novo para ver se esquecemos de algo?
> >>
> >> Fabio
> >>
> >> Em 17 de outubro de 2011 16:15, Helder <helder.wiki em gmail.com>
> escreveu:
> >> > Aqui está a lista dos pares de títulos mais parecidos (distância igual
> a
> >> > 0,
> >> > 1 ou 2) presentes na lista atual:
> >> > https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
> >> >
> >> > 2011/10/17 Helder <helder.wiki em gmail.com>
> >> >>
> >> >> Se alguém estiver a fim de programar, talvez isso funcione para
> alguns
> >> >> casos:
> >> >> * Para cada par de títulos da lista, calcule a distância
> >> >> Levenshtein entre
> >> >> as duas strings (Há algoritmos prontos para isso no Wikibooks
> >> >>
> >> >>
> >> >>
> http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance
> )
> >> >> ** Se a distância for pequena, os títulos são "parecidos" (como
> >> >> "Resident
> >> >> Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par
> em
> >> >> uma
> >> >> lista, para ser avaliado por alguém posteriormente
> >> >> ** Se não for, ignore o par e passe para o próximo
> >> >> * Avalie manualmente os pares de títulos parecidos que foram
> incluídos
> >> >> na
> >> >> lista.
> >> >> Não sei se o algoritmo levaria muito tempo para ser executado, mas
> >> >> talvez
> >> >> ajude.
> >> >>
> >> >> 2011/10/17 Fabio Azevedo <fazedo em gmail.com>
> >> >>>
> >> >>> Pessoal,
> >> >>>
> >> >>> Acho que ainda precisamos refinar um pouco essa lista. Encontrei
> >> >>> algumas escolhas que me me parecem estranhas:
> >> >>>
> >> >>> 1) Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto
> e
> >> >>> 7 de setembro. O último eu até entendo, mas os outros, não.
> >> >>>
> >> >>> 2) O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]].
> Se
> >> >>> é que algum deles deveria figurar.
> >> >>>
> >> >>> 3) Existem diversos artigos sobre Piratas do Caribe
> >> >>> (Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo,
> >> >>> Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,,
> >> >>> Pirates_of_the_Caribbean:_Dead_Man's_Chest,
> >> >>> Pirates_of_the_Caribbean:_On_Stranger_Tides,
> >> >>> Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl,
> >> >>> Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
> >> >>>
> >> >>> 4) Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
> >> >>>
> >> >>> 5) Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
> >> >>>
> >> >>> 6) Roma Antiga duas vezes
> >> >>>
> >> >>> 7) Rússia e Russia
> >> >>>
> >> >>>
> >> >>> É claro que as repetições são fáceis de resolver, mas temo que haja
> >> >>> vários casos assim. Será que tem uma maneira automática de eliminar
> >> >>> esses casos mais óbvios?
> >> >>>
> >> >>>
> >> >>> Fabio
> >> >>>
> >> >>> _______________________________________________
> >> >>> WikimediaBR-l mailing list
> >> >>> WikimediaBR-l em lists.wikimedia.org
> >> >>> https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
> >> >>
> >> >
> >> >
> >> > _______________________________________________
> >> > WikimediaBR-l mailing list
> >> > WikimediaBR-l em lists.wikimedia.org
> >> > https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
> >> >
> >> >
> >>
> >> _______________________________________________
> >> WikimediaBR-l mailing list
> >> WikimediaBR-l em lists.wikimedia.org
> >> https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
> >
> >
> > _______________________________________________
> > WikimediaBR-l mailing list
> > WikimediaBR-l em lists.wikimedia.org
> > https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
> >
> >
>
> _______________________________________________
> WikimediaBR-l mailing list
> WikimediaBR-l em lists.wikimedia.org
> https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: http://lists.wikimedia.org/pipermail/wikimediabr-l/attachments/20111018/084513df/attachment-0001.htm 


Mais detalhes sobre a lista de discussão WikimediaBR-l