Pywikipedia-svn May 2013

pywikipedia-svn@lists.wikimedia.org

8 participants
115 discussions

SVN: [11521] branches/rewrite/pywikibot/config2.py
by russblau＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11521 Revision: 11521 Author: russblau Date: 2013-05-09 23:39:44 +0000 (Thu, 09 May 2013) Log Message: ----------- Should have committed this with 11520. Modified Paths: -------------- branches/rewrite/pywikibot/config2.py Modified: branches/rewrite/pywikibot/config2.py =================================================================== --- branches/rewrite/pywikibot/config2.py 2013-05-09 19:24:17 UTC (rev 11520) +++ branches/rewrite/pywikibot/config2.py 2013-05-09 23:39:44 UTC (rev 11521) @@ -372,6 +372,11 @@ # running solve_disambiguation.py with the -primary argument. special_page_limit = 500 +# Maximum number of times to retry an API request before quitting. +max_retries = 25 +# Minimum time to wait before resubmitting a failed API request. +retry_wait = 5 + ############## TABLE CONVERSION BOT SETTINGS ############## # will split long paragraphs for better reading the source.

1 0

SVN: [11520] branches/rewrite/pywikibot/data/api.py
by russblau＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11520 Revision: 11520 Author: russblau Date: 2013-05-09 19:24:17 +0000 (Thu, 09 May 2013) Log Message: ----------- Make max_retries and retry_wait defaults configurable by user. Modified Paths: -------------- branches/rewrite/pywikibot/data/api.py Modified: branches/rewrite/pywikibot/data/api.py =================================================================== --- branches/rewrite/pywikibot/data/api.py 2013-05-09 18:38:53 UTC (rev 11519) +++ branches/rewrite/pywikibot/data/api.py 2013-05-09 19:24:17 UTC (rev 11520) @@ -121,8 +121,8 @@ except KeyError: self.site = pywikibot.Site() self.mime = kwargs.pop("mime", False) - self.max_retries = kwargs.pop("max_retries", 25) - self.retry_wait = kwargs.pop("retry_wait", 5) + self.max_retries = kwargs.pop("max_retries", pywikibot.config.max_retries) + self.retry_wait = kwargs.pop("retry_wait", pywikibot.config.retry_wait) self.params = {} if "action" not in kwargs: raise ValueError("'action' specification missing from Request.")

1 0

SVN: [11519] branches/rewrite/scripts/harvest_template.py
by multichill＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11519 Revision: 11519 Author: multichill Date: 2013-05-09 18:38:53 +0000 (Thu, 09 May 2013) Log Message: ----------- Follow redirects Modified Paths: -------------- branches/rewrite/scripts/harvest_template.py Modified: branches/rewrite/scripts/harvest_template.py =================================================================== --- branches/rewrite/scripts/harvest_template.py 2013-05-09 17:59:23 UTC (rev 11518) +++ branches/rewrite/scripts/harvest_template.py 2013-05-09 18:38:53 UTC (rev 11519) @@ -104,6 +104,8 @@ try: link = pywikibot.Link(match.group(1)) linkedPage = pywikibot.Page(link) + if linkedPage.isRedirectPage(): + linkedPage = linkedPage.getRedirectTarget() linkedItem = pywikibot.ItemPage.fromPage(linkedPage) claim.setTarget(linkedItem) pywikibot.output('Adding %s --> %s' % (claim.getID(), claim.getTarget().getID()))

1 0

SVN: [11518] branches/rewrite/pywikibot/page.py
by russblau＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11518 Revision: 11518 Author: russblau Date: 2013-05-09 17:59:23 +0000 (Thu, 09 May 2013) Log Message: ----------- Fix bug #3610411: a bug in the constructor of class Page Modified Paths: -------------- branches/rewrite/pywikibot/page.py Modified: branches/rewrite/pywikibot/page.py =================================================================== --- branches/rewrite/pywikibot/page.py 2013-05-09 17:50:39 UTC (rev 11517) +++ branches/rewrite/pywikibot/page.py 2013-05-09 17:59:23 UTC (rev 11518) @@ -75,6 +75,7 @@ """ if isinstance(source, pywikibot.site.BaseSite): self._link = Link(title, source=source, defaultNamespace=ns) + self._revisions = {} elif isinstance(source, Page): # copy all of source's attributes to this object self.__dict__ = source.__dict__ @@ -83,11 +84,11 @@ self._link = Link(title, source=source.site, defaultNamespace=ns) elif isinstance(source, Link): self._link = source + self._revisions = {} else: raise pywikibot.Error( "Invalid argument type '%s' in Page constructor: %s" % (type(source), source)) - self._revisions = {} @property def site(self):

1 0

SVN: [11517] branches/rewrite/pywikibot/site.py
by russblau＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11517 Revision: 11517 Author: russblau Date: 2013-05-09 17:50:39 +0000 (Thu, 09 May 2013) Log Message: ----------- Fix bug #3546402: Switching sites with different accounts does not re-login Modified Paths: -------------- branches/rewrite/pywikibot/site.py Modified: branches/rewrite/pywikibot/site.py =================================================================== --- branches/rewrite/pywikibot/site.py 2013-05-09 17:46:39 UTC (rev 11516) +++ branches/rewrite/pywikibot/site.py 2013-05-09 17:50:39 UTC (rev 11517) @@ -798,8 +798,9 @@ """Log the user in if not already logged in.""" # check whether a login cookie already exists for this user self._loginstatus = LoginStatus.IN_PROGRESS - if not hasattr(self, "_userinfo"): - self.getuserinfo() + if hasattr(self, "_userinfo"): + del self._userinfo + self.getuserinfo() if self.userinfo['name'] == self._username[sysop] and self.logged_in(sysop): return loginMan = api.LoginManager(site=self, sysop=sysop,

1 0

SVN: [11516] branches/rewrite/scripts/harvest_template.py
by multichill＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11516 Revision: 11516 Author: multichill Date: 2013-05-09 17:46:39 +0000 (Thu, 09 May 2013) Log Message: ----------- A new robot to harvest Wikipedia templates to Wikidata. Added Paths: ----------- branches/rewrite/scripts/harvest_template.py Copied: branches/rewrite/scripts/harvest_template.py (from rev 11513, branches/rewrite/scripts/claimit.py) =================================================================== --- branches/rewrite/scripts/harvest_template.py (rev 0) +++ branches/rewrite/scripts/harvest_template.py 2013-05-09 17:46:39 UTC (rev 11516) @@ -0,0 +1,149 @@ +# -*- coding: utf-8 -*- +""" +Copyright (C) 2013 Multichill +Copyright (C) 2013 Pywikipediabot team + +Distributed under the MIT License + +Usage: + +python harvest_template.py -lang:nl -template:"Taxobox straalvinnige" orde P70 familie P71 geslacht P74 + +This will work on all pages that transclude the template in the article namespace + +You can use any typical pagegenerator to provide with a list of pages + +python harvest_template.py -lang:nl -cat:Sisoridae -template:"Taxobox straalvinnige" -namespace:0 orde P70 familie P71 geslacht P74 + +""" +import re +import pywikibot +from pywikibot import pagegenerators + +class HarvestRobot: + """ + A bot to add Wikidata claims + """ + def __init__(self, generator, templateTitle, fields): + """ + Arguments: + * generator - A generator that yields Page objects. + * templateTitle - The template to work on + * fields - A dictionary of fields that are of use to us + + """ + self.generator = generator + self.templateTitle = templateTitle.replace(u'_', u' ') + # TODO: Make it a list which also includes the redirects to the template + self.fields = fields + self.repo = pywikibot.Site().data_repository() + self.source = None + self.setSource(pywikibot.Site().language()) + + def setSource(self, lang): + ''' + Get the source + ''' + source_values = {'en': pywikibot.ItemPage(self.repo, 'Q328'), + 'sv': pywikibot.ItemPage(self.repo, 'Q169514'), + 'de': pywikibot.ItemPage(self.repo, 'Q48183'), + 'it': pywikibot.ItemPage(self.repo, 'Q11920'), + 'no': pywikibot.ItemPage(self.repo, 'Q191769'), + 'ar': pywikibot.ItemPage(self.repo, 'Q199700'), + 'es': pywikibot.ItemPage(self.repo, 'Q8449'), + 'pl': pywikibot.ItemPage(self.repo, 'Q1551807'), + 'ca': pywikibot.ItemPage(self.repo, 'Q199693'), + 'fr': pywikibot.ItemPage(self.repo, 'Q8447'), + 'nl': pywikibot.ItemPage(self.repo, 'Q10000'), + 'pt': pywikibot.ItemPage(self.repo, 'Q11921'), + 'ru': pywikibot.ItemPage(self.repo, 'Q206855'), + 'vi': pywikibot.ItemPage(self.repo, 'Q200180'), + 'be': pywikibot.ItemPage(self.repo, 'Q877583'), + 'uk': pywikibot.ItemPage(self.repo, 'Q199698'), + 'tr': pywikibot.ItemPage(self.repo, 'Q58255'), + } # TODO: Should be moved to a central wikidata library + + if lang in source_values: + self.source = pywikibot.Claim(self.repo, 'p143') + self.source.setTarget(source_values.get(lang)) + + def run(self): + """ + Starts the robot. + """ + for page in self.generator: + self.procesPage(page) + + def procesPage(self, page): + """ + Proces a single page + """ + item = pywikibot.ItemPage.fromPage(page) + pywikibot.output('Processing %s' % page) + if not item.exists(): + pywikibot.output('%s doesn\'t have a wikidata item :(' % page) + #TODO FIXME: We should provide an option to create the page + else: + pagetext = page.get() + templates = pywikibot.extract_templates_and_params(pagetext) + for (template, fielddict) in templates: + # We found the template we were looking for + if template.replace(u'_', u' ')==self.templateTitle: + for field, value in fielddict.items(): + # This field contains something useful for us + if field in self.fields: + # Check if the property isn't already set + claim = pywikibot.Claim(self.repo, self.fields[field]) + if claim.getID() in item.get().get('claims'): + pywikibot.output(u'A claim for %s already exists. Skipping' % (claim.getID(),)) + #TODO FIXME: This is a very crude way of dupe checking + else: + # Try to extract a valid page + match = re.search(pywikibot.link_regex, value) + if match: + try: + link = pywikibot.Link(match.group(1)) + linkedPage = pywikibot.Page(link) + linkedItem = pywikibot.ItemPage.fromPage(linkedPage) + claim.setTarget(linkedItem) + pywikibot.output('Adding %s --> %s' % (claim.getID(), claim.getTarget().getID())) + item.addClaim(claim) + if self.source: + claim.addSource(self.source, bot=True) + except pywikibot.exceptions.NoPage: + pywikibot.output('[[%s]] doesn\'t exist so I can\'t link to it' % (linkedItem.title(),)) + + +def main(): + gen = pagegenerators.GeneratorFactory() + commandline_arguments = list() + templateTitle = u'' + for arg in pywikibot.handleArgs(): + if arg.startswith('-template'): + if len(arg) == 9: + templateTitle = pywikibot.input( + u'Please enter the template to work on:') + else: + templateTitle = arg[10:] + elif gen.handleArg(arg): + continue + else: + commandline_arguments.append(arg) + + if len(commandline_arguments) % 2 or not templateTitle: + raise ValueError # or something. + fields = dict() + + for i in xrange (0, len(commandline_arguments), 2): + fields[commandline_arguments[i]] = commandline_arguments[i+1] + + generator = gen.getCombinedGenerator() + if not generator: + # TODO: Build a transcluding generator based on templateTitle + return + + bot = HarvestRobot(generator, templateTitle, fields) + bot.run() + +if __name__ == "__main__": + main()

1 0

SVN: [11515] branches/rewrite/pywikibot/__init__.py
by xqt＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11515 Revision: 11515 Author: xqt Date: 2013-05-09 16:56:45 +0000 (Thu, 09 May 2013) Log Message: ----------- links may contain "#" Modified Paths: -------------- branches/rewrite/pywikibot/__init__.py Modified: branches/rewrite/pywikibot/__init__.py =================================================================== --- branches/rewrite/pywikibot/__init__.py 2013-05-09 16:42:02 UTC (rev 11514) +++ branches/rewrite/pywikibot/__init__.py 2013-05-09 16:56:45 UTC (rev 11515) @@ -191,7 +191,7 @@ from page import html2unicode, url2unicode -link_regex = re.compile(r'\[\[(?P<title>[^\]|[#<>{}]*)(\|.*?)?\]\]') +link_regex = re.compile(r'\[\[(?P<title>[^\]|[<>{}]*)(\|.*?)?\]\]') def setAction(s):

1 0

SVN: [11514] trunk/pywikipedia/pywikibot/textlib.py
by xqt＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11514 Revision: 11514 Author: xqt Date: 2013-05-09 16:42:02 +0000 (Thu, 09 May 2013) Log Message: ----------- search for underline and blanks (maybe inside links) Modified Paths: -------------- trunk/pywikipedia/pywikibot/textlib.py Modified: trunk/pywikipedia/pywikibot/textlib.py =================================================================== --- trunk/pywikipedia/pywikibot/textlib.py 2013-05-09 16:24:54 UTC (rev 11513) +++ trunk/pywikipedia/pywikibot/textlib.py 2013-05-09 16:42:02 UTC (rev 11514) @@ -1073,6 +1073,7 @@ #---------------------------------- def does_text_contain_section(pagetext, section): + section = re.sub('[ _]', '[ _]', section) """Determines whether the page text contains the given section title.""" m = re.search("=+[ ']*%s[ ']*=+" % re.escape(section), pagetext) return bool(m)

1 0

SVN: [11513] branches/rewrite/scripts/claimit.py
by multichill＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11513 Revision: 11513 Author: multichill Date: 2013-05-09 16:24:54 +0000 (Thu, 09 May 2013) Log Message: ----------- I don't like globals. Turned it into a class. Modified Paths: -------------- branches/rewrite/scripts/claimit.py Modified: branches/rewrite/scripts/claimit.py =================================================================== --- branches/rewrite/scripts/claimit.py 2013-05-09 15:04:36 UTC (rev 11512) +++ branches/rewrite/scripts/claimit.py 2013-05-09 16:24:54 UTC (rev 11513) @@ -15,55 +15,74 @@ """ import pywikibot from pywikibot import pagegenerators -repo = pywikibot.Site().data_repository() -source_values = {'en': pywikibot.ItemPage(repo, 'Q328'), - 'sv': pywikibot.ItemPage(repo, 'Q169514'), - 'de': pywikibot.ItemPage(repo, 'Q48183'), - 'it': pywikibot.ItemPage(repo, 'Q11920'), - 'no': pywikibot.ItemPage(repo, 'Q191769'), - 'ar': pywikibot.ItemPage(repo, 'Q199700'), - 'es': pywikibot.ItemPage(repo, 'Q8449'), - 'pl': pywikibot.ItemPage(repo, 'Q1551807'), - 'ca': pywikibot.ItemPage(repo, 'Q199693'), - 'fr': pywikibot.ItemPage(repo, 'Q8447'), - 'nl': pywikibot.ItemPage(repo, 'Q10000'), - 'pt': pywikibot.ItemPage(repo, 'Q11921'), - 'ru': pywikibot.ItemPage(repo, 'Q206855'), - 'vi': pywikibot.ItemPage(repo, 'Q200180'), - 'be': pywikibot.ItemPage(repo, 'Q877583'), - 'uk': pywikibot.ItemPage(repo, 'Q199698'), - 'tr': pywikibot.ItemPage(repo, 'Q58255'), +class ClaimRobot: + """ + A bot to add Wikidata claims + """ + def __init__(self, generator, claims): + """ + Arguments: + * generator - A generator that yields Page objects. + * claims - A list of wikidata claims + + """ + self.generator = generator + self.claims = claims + self.repo = pywikibot.Site().data_repository() + self.source = None + self.setSource(pywikibot.Site().language()) + + def setSource(self, lang): + ''' + Get the source + ''' + source_values = {'en': pywikibot.ItemPage(self.repo, 'Q328'), + 'sv': pywikibot.ItemPage(self.repo, 'Q169514'), + 'de': pywikibot.ItemPage(self.repo, 'Q48183'), + 'it': pywikibot.ItemPage(self.repo, 'Q11920'), + 'no': pywikibot.ItemPage(self.repo, 'Q191769'), + 'ar': pywikibot.ItemPage(self.repo, 'Q199700'), + 'es': pywikibot.ItemPage(self.repo, 'Q8449'), + 'pl': pywikibot.ItemPage(self.repo, 'Q1551807'), + 'ca': pywikibot.ItemPage(self.repo, 'Q199693'), + 'fr': pywikibot.ItemPage(self.repo, 'Q8447'), + 'nl': pywikibot.ItemPage(self.repo, 'Q10000'), + 'pt': pywikibot.ItemPage(self.repo, 'Q11921'), + 'ru': pywikibot.ItemPage(self.repo, 'Q206855'), + 'vi': pywikibot.ItemPage(self.repo, 'Q200180'), + 'be': pywikibot.ItemPage(self.repo, 'Q877583'), + 'uk': pywikibot.ItemPage(self.repo, 'Q199698'), + 'tr': pywikibot.ItemPage(self.repo, 'Q58255'), } # TODO: This should include all projects + + if lang in source_values: + self.source = pywikibot.Claim(self.repo, 'p143') + self.source.setTarget(source_values.get(lang)) -imported_from = pywikibot.Claim(repo, 'p143') -source = source_values.get(pywikibot.Site().language(), None) -if source: - imported_from.setTarget(source) + def run(self): + """ + Starts the robot. + """ + for page in self.generator: + item = pywikibot.ItemPage.fromPage(page) + pywikibot.output('Processing %s' % page) + if not item.exists(): + pywikibot.output('%s doesn\'t have a wikidata item :(' % page) + #TODO FIXME: We should provide an option to create the page + else: + for claim in self.claims: + if claim.getID() in item.get().get('claims'): + pywikibot.output(u'A claim for %s already exists. Skipping' % (claim.getID(),)) + #TODO FIXME: This is a very crude way of dupe checking + else: + pywikibot.output('Adding %s --> %s' % (claim.getID(), claim.getTarget().getID())) + item.addClaim(claim) + if self.source: + claim.addSource(self.source, bot=True) + #TODO FIXME: We need to check that we aren't adding a duplicate -def addClaims(page, claims): - ''' - The function will add the claims to the wikibase page - ''' - item = pywikibot.ItemPage.fromPage(page) - pywikibot.output('Processing %s' % page) - if not item.exists(): - pywikibot.output('%s doesn\'t have a wikidata item :(' % page) - #TODO FIXME: We should provide an option to create the page - return False - for claim in claims: - if claim.getID() in item.get().get('claims'): - pywikibot.output(u'A claim for %s already exists. Skipping' % (claim.getID(),)) - #TODO FIXME: This is a very crude way of dupe checking - else: - pywikibot.output('Adding %s --> %s' % (claim.getID(), claim.getTarget().getID())) - item.addClaim(claim) - if source: - claim.addSource(imported_from, bot=True) - #TODO FIXME: We need to check that we aren't adding a duplicate - - def main(): gen = pagegenerators.GeneratorFactory() commandline_claims = list() @@ -75,16 +94,20 @@ raise ValueError # or something. claims = list() + repo = pywikibot.Site().data_repository() + for i in xrange (0, len(commandline_claims), 2): claim = pywikibot.Claim(repo, commandline_claims[i]) claim.setTarget(pywikibot.ItemPage(repo, commandline_claims[i+1])) claims.append(claim) generator = gen.getCombinedGenerator() + if not generator: + # FIXME: Should throw some help + return + + bot = ClaimRobot(generator, claims) + bot.run() - if generator: - for page in generator: - addClaims(page, claims) - if __name__ == "__main__": main()

1 0

SVN: [11512] trunk/pywikipedia/family.py
by xqt＠svn.wikimedia.org 09 May '13

09 May '13

http://www.mediawiki.org/wiki/Special:Code/pywikipedia/11512 Revision: 11512 Author: xqt Date: 2013-05-09 15:04:36 +0000 (Thu, 09 May 2013) Log Message: ----------- mw 1.22wmf3 Modified Paths: -------------- trunk/pywikipedia/family.py Modified: trunk/pywikipedia/family.py =================================================================== --- trunk/pywikipedia/family.py 2013-05-09 15:03:24 UTC (rev 11511) +++ trunk/pywikipedia/family.py 2013-05-09 15:04:36 UTC (rev 11512) @@ -4694,7 +4694,7 @@ """Return Wikimedia projects version number as a string.""" # Don't use this, use versionnumber() instead. This only exists # to not break family files. - return '1.22wmf1' + return '1.22wmf3' def shared_image_repository(self, code): return ('commons', 'commons')

1 0

← Newer
1
...
6
7
8
9
10
11
12
Older →

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

Pywikipedia-svn May 2013