If you use the file pagelinks.sql.gz you&#39;ll get links without having to search through all text of wikipedia.<br><br>Relationships can you find here <a href="http://www.mediawiki.org/wiki/File:MediaWiki_database_schema_1-17_%28r82044%29.png">http://www.mediawiki.org/wiki/File:MediaWiki_database_schema_1-17_%28r82044%29.png</a><br>
<br>BR,<br><br>/Fluff<br><a href="http://download.wikimedia.org/svwiki/20110920/svwiki-20110920-pagelinks.sql.gz"></a><br><div class="gmail_quote">On Fri, Sep 30, 2011 at 5:58 PM, Greg Morrison <span dir="ltr">&lt;<a href="mailto:gmorriso@seas.harvard.edu">gmorriso@seas.harvard.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">I am interested in looking at the links between webpages on wikipedia<br>
for scientific research.  I have been to<br>
<a href="http://en.wikipedia.org/wiki/Wikipedia:Database_download" target="_blank">http://en.wikipedia.org/wiki/Wikipedia:Database_download</a><br>
which suggested that the latest pages-articles is likely the one<br>
people want.  However, I&#39;m unclear on some things.<br>
<br>
(1)  <a href="http://dumps.wikimedia.org/enwiki/latest/" target="_blank">http://dumps.wikimedia.org/enwiki/latest/</a> has a lot of different<br>
files, and I can&#39;t actually tell if one of them would actually contain<br>
only link information.  Is there a description of what each file<br>
contains?<br>
(2)  The enwiki-latest-pages-articles.xml file uncompresses as<br>
31.55GB.  Is it correct that this contains the current snapshot of all<br>
pages and articles in wikipedia?  (I only ask because this seems<br>
small)<br>
(3)  If I am constrained to use latest-pages-articles.xml, I&#39;m unclear<br>
on the method used to denote a link.  It would appear that links are<br>
denoted by [[link]] or [[link | word]].  Such patterns would be fairly<br>
easy to find using perl.  However, I&#39;ve noticed some odd cases, such<br>
as<br>
<br>
&quot;[[File:WilliamGodwin.jpg|left|thumb|[[William Godwin]], &amp;quot;the<br>
first to formulate ...... in his<br>
work&amp;quot;.&amp;lt;refname=&amp;quot;EB1910&amp;quot; /&amp;gt;]]&quot;<br>
<br>
If I must search through the page-articles file, and if the [[ ]]<br>
notation is overloaded, is there a description of the patterns that<br>
are used in this file?  I.e. a way for me to ensure that I&#39;m only<br>
grabbing links, not figure captions or some other content.<br>
<br>
Thanks for your help!<br>
<br>
_______________________________________________<br>
Xmldatadumps-l mailing list<br>
<a href="mailto:Xmldatadumps-l@lists.wikimedia.org">Xmldatadumps-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/xmldatadumps-l</a><br>
</blockquote></div><br>