Donde estan mis arp’s ?

Un problema extraño que nos ha pasado 3 veces en los últimos 6 meses, nuestra instalación no es nada del otro mundo, un cluster de sg conectado de la siguiente forma…

Sg 5.1, dos nodos, cada uno con 4 tarjetas de red (2 en uso + 1 hb (cable cruzado)).

mini esquema

Todo normal, el caso es que, a veces dejamos de ver el arp del default gw en uno de los nodos, como el cluster esta en balanceo de carga se va todo a la mierda.

El nodo afectado (ha pasado dos veces en el 1 y 1 en el 2) funciona bien (en principio), no hay alertas, el problema es que, todo el trafico que tiene que enrutar hacia su default gw se pierde.

Si miras su tabla de arp (ip neigh) tiene pinta normal, salvo por esa ip que esta unreachable.

El resto de las tarjetas funcionan correctamente… es mas, entre ellos (por la tarjeta afectada) se ven bien.

La solución (temporal, espero) que hemos tomado es poner un test que tire unos pings… pero claro, la cuestión es… de quien es el problema??, del firewall ?? o del switch …

test multiping stonegate

Hemos abierto caso al soporte a ver si dicen algo…desde luego raro es… a la maquina no parece pasarle nada (tampoco es que se esté tocando las narices, pero no esta sobrecargada). La putada es que no haya logs (en el fw no canta nada y en el switch no guardan nada). Como, ademas, solo pasa muy de vez en cuando a nadie parece importarle… hasta que se va todo a la mierda claro, entonces empiezan las prisas…

¿Puede que la tarjeta se haya estropeado?… lo pensamos, pero la segunda vez pasó en el otro nodo así que… ya seria mucha casualidad (son tarjetas duales).

Puede que al switch no le guste la mac inventada del sg??, fue otra de mis teorías, pero la gente del switch me juró que ellos no veían nada raro…

Creo que la solución (repito, temporal) es la menos mala, porque cambiar el tipo de cluster de balanceo de carga a alta disponibilidad no me parece bien (además no creo que un solo nodo pueda con toda la carga).

¿A alguien se le ocurre que mas se puede mirar ?…