[Wikide-l] Links in die weite Welt...

8 Jan 2006


      Hi,
ich habe eben ein wenig mit dem letzten artikeldump von 
download.wikimedia.org gespielt und angefangen, hyperlinks aus den 
Artikeln zu extrahieren. URLs, die als Templates entstehen (wikinews, 
imdb und so) werden so erstmal nicht erkannt. Einige URLs sehen von der 
Struktur eher unmöglich aus.
328212 erkannte URLs
154746 erkannte urls aus .de
64532 erkannte eindeutige domain-namen aus .de
2189 Links nach juris.de
1163 Links nach heise.de
1149 Links nach spiegel.de
1128 Links nach google.de
826 Links nach zeit.de
379 Links nach bund.de
372 Links nach taz.de
120 Links nach jungewelt.de
30 Links nach wikiweise.de
26 Links nach wissen.de
10 Links nach brockhaus.de

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

[Wikide-l] Links in die weite Welt...