Hi Denny,
we extract the inter-language links for DBpedia. Only for five or six
languages so far, but I could easily run the extractor for all 111
languages with more than 10000 'good articles'. Shouldn't take more
than a few hours. I would use dumps from late May / early June.
We perform a full parse, and while the parser is not 100% accurate, it
should be much better than a regex.
The results would be in RDF and look like this:
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://af.dbpedia.org/resource/Outisme> .
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://ar.dbpedia.org/resource/توحد> .
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://az.dbpedia.org/resource/Autizm> .
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://bn.dbpedia.org/resource/আত্মসংবৃতি> .
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://be.dbpedia.org/resource/Аўтызм> .
<http://dbpedia.org/resource/Autism>
<http://dbpedia.org/ontology/wikiPageInterLanguageLink>
<http://be-x-old.dbpedia.org/resource/Аўтызм> .
Let me know if that would be useful for you.
Cheers,
Christopher
On Mon, Jun 25, 2012 at 5:29 PM, Denny Vrandečić
<denny.vrandecic(a)wikimedia.de> wrote:
I'll maybe... I shouldn't... other stuff to
do... gnah...
Let's see. I may well do a new run in the next few days...
(you do realize that some of them wikis are pretty big, right?) :)
Cheers,
Denny
Am 25. Juni 2012 17:22 schrieb Daniel Kinzler <daniel.kinzler(a)wikimedia.de>de>:
On 25.06.2012 16:39, Denny Vrandečić wrote:
A full parse would have been to expensive to
perform. I will update
the explanatory text to reflect that. Thank you for finding this
issue!
A full parse is out of the question, but stripping comments should be simple
enough: /<!--.*?-->/s
-- daniel
--
Daniel Kinzler, Softwarearchitekt
Wikimedia Deutschland e.V. | Eisenacher Straße 2 | 10777 Berlin
http://wikimedia.de | Tel. (030) 219 158 260
Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg
unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt
für Körperschaften I Berlin, Steuernummer 27/681/51985.
_______________________________________________
Wikidata-l mailing list
Wikidata-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikidata-l
--
Project director Wikidata
Wikimedia Deutschland e.V. | Obentrautstr. 72 | 10963 Berlin
Tel. +49-30-219 158 26-0 |
http://wikimedia.de
Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg
unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das
Finanzamt für Körperschaften I Berlin, Steuernummer 27/681/51985.
_______________________________________________
Wikidata-l mailing list
Wikidata-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikidata-l