Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
1) Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e 7 de setembro. O último eu até entendo, mas os outros, não.
2) O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se é que algum deles deveria figurar.
3) Existem diversos artigos sobre Piratas do Caribe (Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
4) Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
5) Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
6) Roma Antiga duas vezes
7) Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos: * Para cada par de títulos da lista, calcule a distância Levenshteinhttp://en.wikipedia.org/wiki/Levenshtein_distance entre as duas strings (Há algoritmos prontos para isso no Wikibooks http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... ) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo * Avalie manualmente os pares de títulos parecidos que foram incluídos na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Se for para ser wikicentrada, esse método do Hélder é o suprasumo. Caríssimo Hélder, rogo que não entenda mal, apenas tenho dito desde o começo que os artigos deveriam ser escolhidos por um terceiro, mais próximo ao publico-alvo. Att
Enviado do meu iPad
No dia 17/10/2011, às 13:34, Helder helder.wiki@gmail.com escreveu:
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância Levenshtein entre as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di...) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram incluídos na lista.
Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Aqui está a lista dos pares de títulos mais parecidos (distância igual a 0, 1 ou 2) presentes na lista atualhttps://pt.wikipedia.org/w/index.php?oldid=27295357 : https://pt.wikipedia.org/w/index.php?oldid=27296547#tochttps://pt.wikipedia.org/w/index.php?title=Wikip%C3%A9dia:P%C3%A1gina_de_testes/2&oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância Levenshteinhttp://en.wikipedia.org/wiki/Levenshtein_distance entre
as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... ) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram incluídos na
lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Excelente trabalho, Helder. Vou dar uma olhada.
Pessoal, como vamos lidar com páginas de datas e anos? Quais incluímos?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual a 0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância Levenshtein entre
as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di...) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo * Avalie manualmente os pares de títulos parecidos que foram incluídos na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual a 0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância Levenshtein entre
as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di...) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo * Avalie manualmente os pares de títulos parecidos que foram incluídos na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Divirta-se: https://pt.wikipedia.org/w/index.php?oldid=27308816#toc
PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual a
0,
1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre
as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... )
** Se a distância for pequena, os títulos são "parecidos" (como
"Resident
Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em
uma
lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram incluídos
na
lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas
talvez
ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Encontrei lá o para radição térmica/irradiação térmica Fabio
Em 18 de outubro de 2011 17:55, Helder helder.wiki@gmail.com escreveu:
Divirta-se: https://pt.wikipedia.org/w/index.php?oldid=27308816#toc PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual a 0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di...) ** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo * Avalie manualmente os pares de títulos parecidos que foram incluídos na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Confira também esta versão: https://pt.wikipedia.org/w/index.php?oldid=27309674 Para cada item da lista, a distância de Levenshtein entre os dois títulos foi dividida pelo tamanho do maior título (e indicada como porcentagem entre parêntesis), para tentar manter os itens mais parecidos no topo.
2011/10/18 Fabio Azevedo fazedo@gmail.com
Encontrei lá o para radição térmica/irradiação térmica Fabio
Em 18 de outubro de 2011 17:55, Helder helder.wiki@gmail.com escreveu:
Divirta-se: https://pt.wikipedia.org/w/index.php?oldid=27308816#toc PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com
escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual
a
0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para
alguns
casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... )
** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par
em
uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram
incluídos
na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto
e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]].
Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
1. Porque o @ esta na lista?
Quanto a parte da religião to a tirar daqui https://docs.google.com/spreadsheet/ccc?key=0Ana67p3_nCPVdFQzYnQ5WllGY3VoVWN... a ser sincera o saco de olhar uma lista em ordem alfabetica não é tão grande assim, lá vão opiniões:
1. Não vejo o artigo Protestantismo ou Calvinismo. Determinismo e Livre abritrio não estão lá tb. Igreja Católica Romana tb está foragida :P 2. Lista-se duas versões da lingua inglesa da Biblia - nada contra, mas acho que as versões de Almeida são mais importantes: https://pt.wikipedia.org/wiki/Jo%C3%A3o_Ferreira_de_Almeida#Ver_tamb.C3.A9m(... atualizada é mais usada) 3. Igreja da Irlanda e Comunhão Anglicana podem sair da lista na minha singela opinião.
Isso foi só por cima. De resto não vi se Moisés, Abraão, Maomé, Buda, Shiva, Gamesh, Alá, Deus, Espírito Santo e Jesus estão na lista (assumi que são artigos essenciais) mas se estiverem é boa hora de colocar ;) _____ *Béria Lima* http://wikimedia.pt/(351) 925 171 484
*Imagine um mundo onde é dada a qualquer pessoa a possibilidade de ter livre acesso ao somatório de todo o conhecimento humano. É isso o que estamos a fazer http://wikimediafoundation.org/wiki/Nossos_projetos.*
2011/10/18 Fabio Azevedo fazedo@gmail.com
Encontrei lá o para radição térmica/irradiação térmica Fabio
Em 18 de outubro de 2011 17:55, Helder helder.wiki@gmail.com escreveu:
Divirta-se: https://pt.wikipedia.org/w/index.php?oldid=27308816#toc PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com
escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual
a
0, 1 ou 2) presentes na lista atual: https://pt.wikipedia.org/w/index.php?oldid=27296547#toc
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para
alguns
casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di... )
** Se a distância for pequena, os títulos são "parecidos" (como "Resident Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par
em
uma lista, para ser avaliado por alguém posteriormente ** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram
incluídos
na lista. Não sei se o algoritmo levaria muito tempo para ser executado, mas talvez ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto
e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]].
Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo, Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,, Pirates_of_the_Caribbean:_Dead_Man's_Chest, Pirates_of_the_Caribbean:_On_Stranger_Tides, Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl, Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
Roma Antiga duas vezes
Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja vários casos assim. Será que tem uma maneira automática de eliminar esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
Temos um saldo de 100 artigos faltantes, resolvemos usá-los para adições manuais. Ou seja, sintam-se livres para adicionar artigos que considerem importantes e nao estejam na lista.
_____________________ MateusNobre MetalBrasil on Wikimedia projects (+55) 85 88393509 30440865
Date: Tue, 18 Oct 2011 22:14:18 +0100 From: berialima@gmail.com To: wikimediabr-l@lists.wikimedia.org Subject: Re: [Wikimedia Brasil] Lista
1. Porque o @ esta na lista?
Quanto a parte da religião to a tirar daqui https://docs.google.com/spreadsheet/ccc?key=0Ana67p3_nCPVdFQzYnQ5WllGY3VoVWN... pq a ser sincera o saco de olhar uma lista em ordem alfabetica não é tão grande assim, lá vão opiniões:
1. Não vejo o artigo Protestantismo ou Calvinismo. Determinismo e Livre abritrio não estão lá tb. Igreja Católica Romana tb está foragida :P2. Lista-se duas versões da lingua inglesa da Biblia - nada contra, mas acho que as versões de Almeida são mais importantes: https://pt.wikipedia.org/wiki/Jo%C3%A3o_Ferreira_de_Almeida#Ver_tamb.C3.A9m (a atualizada é mais usada)
3. Igreja da Irlanda e Comunhão Anglicana podem sair da lista na minha singela opinião.
Isso foi só por cima. De resto não vi se Moisés, Abraão, Maomé, Buda, Shiva, Gamesh, Alá, Deus, Espírito Santo e Jesus estão na lista (assumi que são artigos essenciais) mas se estiverem é boa hora de colocar ;)
_____ Béria Lima (351) 925 171 484
Imagine um mundo onde é dada a qualquer pessoa a possibilidade de ter livre acesso ao somatório de todo o conhecimento humano. É isso o que estamos a fazer.
2011/10/18 Fabio Azevedo fazedo@gmail.com
Encontrei lá o para radição térmica/irradiação térmica
Fabio
Em 18 de outubro de 2011 17:55, Helder helder.wiki@gmail.com escreveu:
Divirta-se:
PS: Incluí também a lista dos pares de títulos cuja distância é 3 (que
apesar de gigante, com seus 5978 itens(!), não parece muito útil...).
2011/10/18 Fabio Azevedo fazedo@gmail.com
Helder,
Tem como passar o algoritmo de novo para ver se esquecemos de algo?
Fabio
Em 17 de outubro de 2011 16:15, Helder helder.wiki@gmail.com escreveu:
Aqui está a lista dos pares de títulos mais parecidos (distância igual a
0,
1 ou 2) presentes na lista atual:
2011/10/17 Helder helder.wiki@gmail.com
Se alguém estiver a fim de programar, talvez isso funcione para alguns
casos:
- Para cada par de títulos da lista, calcule a distância
Levenshtein entre
as duas strings (Há algoritmos prontos para isso no Wikibooks
http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_di...)
** Se a distância for pequena, os títulos são "parecidos" (como
"Resident
Evil 4" e "Resident Evil", cuja distância é 2), então coloque o par em
uma
lista, para ser avaliado por alguém posteriormente
** Se não for, ignore o par e passe para o próximo
- Avalie manualmente os pares de títulos parecidos que foram incluídos
na
lista.
Não sei se o algoritmo levaria muito tempo para ser executado, mas
talvez
ajude.
2011/10/17 Fabio Azevedo fazedo@gmail.com
Pessoal,
Acho que ainda precisamos refinar um pouco essa lista. Encontrei
algumas escolhas que me me parecem estranhas:
- Existem apenas 3 artigos sobre datas: 29 de agosto, 30 de agosto e
7 de setembro. O último eu até entendo, mas os outros, não.
- O artigo [[A Fazenda 4]] figura na lista, mas não [[A Fazenda]]. Se
é que algum deles deveria figurar.
- Existem diversos artigos sobre Piratas do Caribe
(Piratas_do_Caribe, Piratas_do_Caribe:_No_Fim_do_Mundo,
Pirates_of_the_Caribbean, Pirates_of_the_Caribbean:_At_World's_End,,
Pirates_of_the_Caribbean:_Dead_Man's_Chest,
Pirates_of_the_Caribbean:_On_Stranger_Tides,
Pirates_of_the_Caribbean:_The_Curse_of_the_Black_Pearl,
Pérola_Negra_(Piratas_do_Caribe), se não tiver outros).
- Real_Madrid e Real_Madrid_Club_de_Fútbol (uma repetição)
- Resident Evil 4 e Resident_Evil: Não é o caso de manter apenas 1?
- Roma Antiga duas vezes
- Rússia e Russia
É claro que as repetições são fáceis de resolver, mas temo que haja
vários casos assim. Será que tem uma maneira automática de eliminar
esses casos mais óbvios?
Fabio
WikimediaBR-l mailing list
WikimediaBR-l@lists.wikimedia.org
WikimediaBR-l mailing list
WikimediaBR-l@lists.wikimedia.org
WikimediaBR-l mailing list
WikimediaBR-l@lists.wikimedia.org
WikimediaBR-l mailing list
WikimediaBR-l@lists.wikimedia.org
_______________________________________________
WikimediaBR-l mailing list
WikimediaBR-l@lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
_______________________________________________ WikimediaBR-l mailing list WikimediaBR-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikimediabr-l
wikimediabr-l@lists.wikimedia.org