Dear all, <br>it&#39;s a lot aof time I&#39;m wondering a project that could help Wikisource (and some GLAMs too), and the idea is simply to install ABBYY Finereader 11 on toolserver, <br>as a tool for all Wikisource users.<br>


<br>For those who don&#39;t know, ABBYY Finereader is an OCR software: it is proprietary and fairly expensive, <br>but it is accurate and works really, really well. Plus, its 11 version can save files in DjVu.<br><br>Now, in my mind having such a software on toolserver could take us to:<br>


- restore our beloved OCR button, with a much more accurate OCR<br>- use Finereader for transforming PDF/TIFF/JPG from Commons directly in OCRred DjVus.<br>- others things I&#39;ve not thought yet<br><br>Issues are many too:<br>


- Cost: I don&#39;t know how much this could cost. Many WM chapters do give money to toolserver, and the status of the thing is a bit fuzzy a the moment, but, for example, <br>Wikimedia Italy has frozen 5000 euros for the toolserver, and maybe we can use those money for the license (I&#39;m in WMI Board, and I&#39;ve asked, they say it&#39;s OK);<br>


- Technical: afaik, toolserver run Solaris, and apparently Finereader is Windows only (I think we can solve easly this if we want, though)<br>- Ethic: this is proprietary software, and I don&#39;t know if we *want* to use it on Wikimedia projects...<br>


- Resources: i think this is probably the main issue: we need skilled people to set this up technically, and at least one toolserver operator (Phe, maybe?)<br><br>Below, the mail I sent to ABBYY Europe, to see it the thing was feasible.<br>


They simply replied they want a phone call. Of course, if the thing would be too expensive the projects collapse immediately, <br>but I think it&#39;s worth to discuss. If nobody wants it, I can drop it right now. <br><br>


Please, forward this may to everyone possibly interested, <br>I don&#39;t thin it&#39;s a good idea to scatter discussions in every ws Village Pump.<br><br>Cheers<br><br>Aubrey<br><br><br><div class="gmail_quote"><div link="blue" vlink="purple" lang="EN-GB">


<div><div><div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;" lang="DE"> </span></p>
</div>
<div>
<div>
<p class="MsoNormal" style="background:whitesmoke"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">
<a href="mailto:andrea.zanni@wikimedia.it" title="mailto:andrea.zanni@wikimedia.it
STRG + Klicken, um Verknüpfung zu folgen" target="_blank">
Andrea Zanni</a> </span></p>
</div>
<div>
<p class="MsoNormal" style="background:whitesmoke"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">Sent:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> Friday, November 25, 2011 10:20 AM</span></p>



</div>
<div>
<p class="MsoNormal" style="background:whitesmoke"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">To:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">
<a href="mailto:support_eu@abbyy.com" title="support_eu@abbyy.com" target="_blank">support_eu@abbyy.com</a>
</span></p>
</div>
<div>
<p class="MsoNormal" style="background:whitesmoke"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">Subject:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> Questions about server licenses</span></p>



</div>
</div>
</div>
<div>
<p class="MsoNormal"> </p>
</div>
<p class="MsoNormal">Dear ABBYY Europe, <br>
my name is Andrea Zanni, and I&#39;m a Board member of Wikimedia Italy, <br>
the Italian chapter of Wikimedia movement.<br>
We are a no-profit association which promotes and sustains Wikimedia project, <br>
as the online encyclopedia Wikipedia. <br>
<br>
I&#39;m writing you because I&#39;m interested in knowing <br>
about &quot;server licences&quot; of your new Finereader 11. <br>
<br>
As far as I know, your product save files in DjVu, and this is an interesting feature that
<br>
could help some of our project. <br>
Maybe you know Wikisource, a multilingual digital library in which the community upload, transcribe and proofread books.<br>
This is the english version (<a href="http://en.wikisource.org/wiki/Main_Page" target="_blank">http://en.wikisource.org/wiki/Main_Page</a>).<br>
In each page of each book (which are uploaded in DjVu), we have a little button &quot;OCR&quot;<br>
which used to call a tesseract bot and ocr the page. <br>
Right now, the bot doesn&#39;t work for lack of maintainance.<br>
<br>
My idea would be to substitute the tesseract with Finereader, and also have the possibility to
<br>
use other features, as taking a PDF/JPEG file and saving it as a OCRred DjVu, or as choosing the language of the OCR from project to project.<br>
<br>
Now, I do not have an estimate of how much this engine could be used (I understand this is a crucial factor for the price of a server license).<br>
I would count few hundreds of pages OCRred per day (maybe more, if this thing works), and a few dozens file conversions (any to DjVu) per day.
<br>
<br>
So, my questions are:<br>
- do you have a rough idea how much this license would cost?<br>
- do you know if it is possible to run FR11 in other os than Windows (we actually run Solaris)?<br>
- do you know if is possible to have all these feature via API or something? <br>
<br>
Thank you for your time, <br>
regards<br>
<br>
Andrea Zanni<span><font color="#888888"><br>
<br>
-- <br>
<span style="color:#888888">Wikimedia Italia Board</span> </font></span></p><span><font color="#888888">
<div>
<p class="MsoNormal"> </p>
</div>
<div>
<p class="MsoNormal">Sostieni la cultura, dona a Wikimedia Italia. <br>
<a href="http://sostienilacultura.it" target="_blank">http://sostienilacultura.it</a> <br></p></div>
</font></span></div>
</div>

</div>