Rompiendo maleficios
Relay | enero 4, 2009Ya tardábamos en liarla con el servidor nuevo.
Tras no tener que reiniciarlo pese a las actualizaciones semanales que le íbamos haciendo, en estos últimos días se ha colgado el servidor 2 veces en 76 horas.
Tras más de 170 días de uptime, con velocidades decentes y soportando cargas a punta pala sin inmutarse o despeinarse, una actualización con bug del kernel de linux hizo que la máquina se quedara sin conexión.
Una lástima, pues en los últimos 6 meses llevábamos como 5TB transmitidos hacia afuera y 600 GB de tráfico entrante.
El problema parece ser un bug que afecta a las tarjetas de red, no sé si a todas, pero sí a las Realtek que hace que la tarjeta empieze a desconectarse y volver a conectarse… y luego directamente el driver se cuelga, dejando sin red a la maquina en cuestión.
La máquina parece que sigue viva, pero sin conexión. En este caso, solo puedes mandar un ticket al datacenter para que lo reinicien o reiniciarlo tu en remoto si te dan la opción (un panel que te suele dar el dc).
Tras esto, me puse a investigar, y ví esto en el log:
Jan 3 12:34:13 NaRRa kernel: [41979.812779] NETDEV WATCHDOG: eth0:
transmit timed out
Jan 3 12:34:13 NaRRa kernel: [41979.812821] ————[ cut here
]————
Jan 3 12:34:13 NaRRa kernel: [41979.812849] WARNING: at
net/sched/sch_generic.c:222 dev_watchdog+0xa6/0xfb()
Jan 3 12:34:13 NaRRa kernel: [41979.812881] Modules linked in: ipv6
fuse loop snd_pcsp snd_hda_intel snd_pcm_oss snd_mixer_oss snd_pcm
psmouse snd_timer i2c_
i801 iTCO_wdt snd soundcore serio_raw snd_page_alloc i2c_core
intel_agp evdev ext3 jbd mbcache raid10 ata_generic sg ehci_hcd
ide_pci_generic ide_core uhci_hc
d sr_mod cdrom sd_mod thermal_sys e1000e e1000 raid456 async_xor
async_memcpy async_tx xor raid1 raid0 multipath linear faulty md_mod
dm_zero dm_snapshot dm_r
ound_robin dm_mirror dm_log dm_emc dm_multipath dm_crypt dm_mod
crypto_blkcipher aic7xxx aic79xx scsi_transport_spi aacraid sata_vsc
sata_via sata_uli sata_sx
4 sata_svw sata_sis pata_sis sata_sil24 sata_sil sata_qstor
sata_promise sata_nv sata_mv raid_class ata_piix ahci libata dock
3w_xxxx 3w_9xxx scsi_mod
Jan 3 12:34:13 NaRRa kernel: [41979.813260] Pid: 0, comm: swapper Not
tainted 2.6.26-1-amd64 #1
Jan 3 12:34:13 NaRRa kernel: [41979.813287]
Jan 3 12:34:13 NaRRa kernel: [41979.813287] Call Trace:
Jan 3 12:34:13 NaRRa kernel: [41979.813325] <IRQ>
[<ffffffff802349b8>] warn_on_slowpath+0x51/0x7a
Jan 3 12:34:13 NaRRa kernel: [41979.813366] [<ffffffff802461b2>]
autoremove_wake_function+0x9/
Jan 3 12:34:13 NaRRa kernel: [41979.813396] [<ffffffff80228496>]
__wake_up_common+0x41/0x74
Jan 3 12:34:13 NaRRa kernel: [41979.813426] [<ffffffff8022adc9>]
__wake_up+0x38/0x4f
Jan 3 12:34:13 NaRRa kernel: [41979.813455] [<ffffffff80243554>]
__queue_work+0x23/0x33
Jan 3 12:34:13 NaRRa kernel: [41979.813484] [<ffffffff803cc172>]
dev_watchdog+0x0/0xfb
Jan 3 12:34:13 NaRRa kernel: [41979.813511] [<ffffffff803cc218>]
dev_watchdog+0xa6/0xfb
Jan 3 12:34:13 NaRRa kernel: [41979.813538] [<ffffffff803cc172>]
dev_watchdog+0x0/0xfb
Jan 3 12:34:13 NaRRa kernel: [41979.813566] [<ffffffff8023c9e9>]
run_timer_softirq+0x16a/0x1e2
Jan 3 12:34:13 NaRRa kernel: [41979.813596] [<ffffffff802393b7>]
__do_softirq+0x5c/0xd1
Jan 3 12:34:13 NaRRa kernel: [41979.813624] [<ffffffff8020f692>]
profile_pc+0x21/0x53
Jan 3 12:34:13 NaRRa kernel: [41979.813652] [<ffffffff8020d2cc>]
call_softirq+0x1c/0x28
Jan 3 12:34:13 NaRRa kernel: [41979.813679] [<ffffffff8020f3d0>]
do_softirq+0x3c/0x81
Jan 3 12:34:13 NaRRa kernel: [41979.813706] [<ffffffff80239317>]
irq_exit+0x3f/0x83
Jan 3 12:34:13 NaRRa kernel: [41979.813734] [<ffffffff8021aa6b>]
smp_apic_timer_interrupt+0x8c/0xa4
Jan 3 12:34:13 NaRRa kernel: [41979.813764] [<ffffffff80212c37>]
mwait_idle+0x0/0x4d
Jan 3 12:34:13 NaRRa kernel: [41979.813791] [<ffffffff8020ccf2>]
apic_timer_interrupt+0x72/0x80
Jan 3 12:34:13 NaRRa kernel: [41979.813818] <EOI>
[<ffffffff80212c78>] mwait_idle+0x41/0x4d
Jan 3 12:34:13 NaRRa kernel: [41979.813853] [<ffffffff8020ac79>]
cpu_idle+0x89/0xb3
Jan 3 12:34:13 NaRRa kernel: [41979.813886]
Jan 3 12:34:13 NaRRa kernel: [41979.813904] —[ end trace
a44d7356669b8f3d ]—