<br><br>
<div class="gmail_quote">2010/7/26 John Vandenberg <span dir="ltr">&lt;<a href="mailto:jayvdb@gmail.com">jayvdb@gmail.com</a>&gt;</span><br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">I think Wiktionary does want to include examples of the words &#39;in<br>use&#39;, and Wikisource can provide this.<br>
<br>Linking to Wikisource is encouraged on English Wiktionary. e.g.<br><br><a href="http://en.wiktionary.org/wiki/demirep" target="_blank">http://en.wiktionary.org/wiki/demirep</a><br><br>If you create a list of words used in a book, it would be beneficial<br>
to also record how many times each word is used.</blockquote>
<div> </div>
<div>Thanks John, yes, it&#39;s pretty simple to do such type of statistics. The trick is really simple, and - in my opinion - anyone could implement it with a python script much better than my one. It consists simply of a routine that converts a string into a python list where &quot;words characters &quot; and &quot;other text characters&quot; are separated, giving simply the &quot;word character&quot; list as a parameter (or, what&#39;s the same, the list of &quot;not word characters&quot; . I.e, </div>

<div>&quot;This could be a piece of raw wikitext splitted by [[python]] routine&quot; </div>
<div>is converted into list </div>
<div>[&quot;This&quot;,&quot; &quot;,&quot;could be&quot;,&quot; &quot;,&quot;a;&quot; &quot;,&quot;piece&quot;,&quot; &quot;,&quot;of&quot;,&quot; &quot;,&quot;raw&quot;,&quot; &quot;,&quot;wikitext&quot;,&quot; &quot;,&quot;splitted&quot;,&quot; &quot;, &quot;by&quot;,&quot; [[&quot;,&quot;python&quot;,&quot;]] &quot;, &quot;routine&quot;] </div>

<div>where &quot;words and &quot;not-words&quot; regularly alternate and a simple &quot;&quot;.join() method of the list gives back <em>exactly</em> the source string. </div>
<div> </div>
<div>Simply selecting &quot;words&quot; from such a list, you can do anything you like with them.</div>
<div> </div>
<div>Alex</div></div>