<div dir="ltr"><div>As the maintainer of several dozen tools, this happens on a regular basis. No automatic notification, nor automatic restart. Pitiful, really.<br><br>Hedonil has written a set of scripts to run the webservice in a more reliable manner, and even has an "auto-restarter", which I use for some of the tools where the standard webservice used to die on an almost daily basis.<br>

<br></div>Tools Labs should really improve this.<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Jun 10, 2014 at 10:28 AM, Merlijn van Deen <span dir="ltr"><<a href="mailto:valhallasw@arctus.nl" target="_blank">valhallasw@arctus.nl</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hello all,<div><br></div><div>My 'tsreports' webservice randomly dies every now and then. qacct suggests this is due to OOM:</div>

<div><br></div><div><div>tools.tsreports@tools-login:~$ qacct -j 487745</div>

</div><div><div>qname        webgrid-lighttpd</div><div>(...)</div><div>jobname      lighttpd-tsreports<br></div><div>jobnumber    487745</div><div>(...)</div><div>qsub_time    Wed Apr 23 08:18:12 2014</div><div>start_time   Fri May 23 14:30:17 2014</div>



<div>end_time     Fri Jun  6 10:51:21 2014</div><div>(...)</div><div>failed       0<br></div><div>exit_status  0</div><div>(...)</div><div>maxvmem      3.973G</div></div><div><br></div><div><br></div><div>I have no clue how to debug this, though; the lighttpd error log just shows</div>



<div><br></div><div><div>2014-06-06 10:51:20: (mod_fastcgi.c.3061) got proc: pid: 12119 socket: unix:/tmp/tsreports-index.fcgi.sock-0 load: 1</div><div>2014-06-06 10:51:20: (server.c.1512) server stopped by UID = 0 PID = 12087</div>



<div>2014-06-06 10:51:20: (server.c.1502) unlink failed for: /var/run/lighttpd/tsreports.pid 2 No such file or directory</div><div>2014-06-06 10:51:20: (server.c.1512) server stopped by UID = 0 PID = 12087</div><div>2014-06-06 10:51:20: (server.c.1502) unlink failed for: /var/run/lighttpd/tsreports.pid 2 No such file or directory</div>



<div>2014-06-06 10:51:20: (server.c.1502) unlink failed for: /var/run/lighttpd/tsreports.pid 2 No such file or directory</div><div>2014-06-06 10:51:20: (server.c.1512) server stopped by UID = 0 PID = 12087</div><div>2014-06-06 10:51:21: (server.c.1502) unlink failed for: /var/run/lighttpd/tsreports.pid 2 No such file or directory</div>



<div>2014-06-06 10:51:21: (server.c.1512) server stopped by UID = 0 PID = 12087</div><div>2014-06-06 10:51:20: (server.c.1512) server stopped by UID = 0 PID = 12087</div></div><div><br></div><div>which is not very informative, to say the least.</div>



<div><br></div><div>So: how can one debug these issues?</div><div><br></div><div>To add insult to the injury, SGE doesn't even send an e-mail to tell me it killed the webserver, nor does it re-start the webserver. Either of those would be reasonable (especially the option 'restart the webserver'). Now I had to be notified by someone on my talk page...</div>

<span class="HOEnZb"><font color="#888888">

<div><br></div><div>Merlijn</div></font></span></div>
<br>_______________________________________________<br>
Labs-l mailing list<br>
<a href="mailto:Labs-l@lists.wikimedia.org">Labs-l@lists.wikimedia.org</a><br>
<a href="https://lists.wikimedia.org/mailman/listinfo/labs-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/labs-l</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">undefined</div>
</div>