<div dir="ltr">On Sun, Mar 3, 2013 at 7:51 AM, Petr Bena <span dir="ltr"><<a href="mailto:benapetr@gmail.com" target="_blank">benapetr@gmail.com</a>></span> wrote:<br><div class="gmail_extra"><div class="gmail_quote">

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">HI,<br>
<br>
today it's second time that bastion was inaccessible:<br>
<br>
If you are having access problems, please see:<br>
<a href="https://wikitech.wikimedia.org/wiki/Access#Accessing_public_and_private_instances
debug1" target="_blank">https://wikitech.wikimedia.org/wiki/Access#Accessing_public_and_private_instances<br>
debug1</a>: Authentications that can continue: publickey<br>
debug1: Next authentication method: publickey<br>
debug1: Offering RSA public key: /home/petanb/.ssh/id_rsa<br>
debug2: we sent a publickey packet, wait for reply<br>
<br>
<br>
if we can't have a different way to authenticate than using public<br>
keys WHICH ARE broken often - can we have at least second stable login<br>
server.<br>
<br>
BTW I assume that logins didn't work because of gluster so that it<br>
wouldn't work anyway, but if gluster suck so hard, can we at least<br>
have password auth until you fix it? Bad authentication is better than<br>
no working authentication<br>
<br></blockquote><div><br></div><div style>Though I'm usually more than happy to blame gluster, this was not caused by gluster. It was because someone OOM'd the instance.</div><div style><br></div><div style>We've actually finally stablized gluster to a point where we shouldn't be having complete outages any more:</div>

<div style><br></div><div style><a href="https://ganglia.wikimedia.org/latest/?r=month&cs=&ce=&m=cpu_report&s=by+name&c=Glusterfs+cluster+pmtpa&h=&host_regex=&max_graphs=0&tab=m&vn=&sh=1&z=small&hc=4">https://ganglia.wikimedia.org/latest/?r=month&cs=&ce=&m=cpu_report&s=by+name&c=Glusterfs+cluster+pmtpa&h=&host_regex=&max_graphs=0&tab=m&vn=&sh=1&z=small&hc=4</a><br>

</div><div style><br></div><div style>Note in the above graph that the past week and a half the memory usage has been mostly flat. There was one spot where the memory ballooned, then a spot where it dropped. That last memory balloon was before the changes we put in place and the drop was where I restarted the glusterd processes (which doesn't affect filesystem access).</div>

<div style><br></div><div style>There are some split brain issues still around from the most recent round of instability, but the SSH keys are perfectly fine. I will not enable password authentication. It's incredibly insecure.</div>

<div style><br></div><div style>So, to get a little more back on point, I've just created <a href="http://bastion2.wmflabs.org">bastion2.wmflabs.org</a> and <a href="http://bastion3.wmflabs.org">bastion3.wmflabs.org</a>, in case the bastion instances OOM again.</div>

<div style><br></div><div style>- Ryan</div></div></div></div>