Tl;dr: Hubo una interrupción del servicio y eso provocó que todos los discos se corrompieran. Ya está todo arreglado.


Hola!

Como algunos habrán notado, el 5 de julio hubo una caída en el sitio de Feddit.cl. Revisando, me encontré con que el proveedor de la VPS (Vultr) decía que existían problemas de conectividad en el sitio.

Esto ya había pasado anteriormente y solo hubo que esperar, pero el día domingo, al volver a funcionar la VPS, el sitio no estaba disponible y pude notar desde la consola de Vultr que había un error al iniciar.

Al poder estar ya en un pc normal en la noche, pude recuperar una imagen anterior del disco del sistema e iniciar la vps con lo que pude ver que los dos discos externos (con las bases de postgres y de pictrs).

Revisando los discos estos no podían ser montados, fsck y otras herramientas me decían que no podía reparar nada y en internet solo leía como estaba todo perdido y tenía que dar el disco por muerto. Hasta que me topé con ddrescue que me permitió copiar los discos malos a otros con toda la información que tenían adentro, o esa era la idea pero este procedimiento solo funcionó con el disco de Pictrs, no con el de Postgres, el cual era el más valioso.

Como paréntesis, mientras se copiaban los discos con ddrescue, levanté una instancia free tier de Amazon para poder levantar status.feddit.cl (gracias a skrlet13 por levantar uno también, pero quería dejar mensajitos) y también un sitio de error de Feddit para cuando las cosas se ponen feas (como este finde) y poder redirigirlos a un lemmy mirando un notebook.

Volviendo al evento, buscando como poder acceder a un disco copiado pero no particionado por ddrescue, me topé con testdisk, herramienta para recuperación de datos bien variada, con la cual pude constatar que el disco de postgres tenía información. Copié todo a un nuevo disco, inicie el docker y por suerte todo cargó.

Después de esto, aprendí harto sobre recuperación de discos, Vultr no me cae tan bién y levantó las alertas para tener el respaldo, de por lo menos postgres, para que estos eventos no ocurran con tantos problemas.

¡Lo siento por la espera!

  • Fean DoeOPMA
    link
    fedilink
    arrow-up
    4
    ·
    5 个月前

    Porque le eché a andar el monitor después (cuando ya estaba arriba el sitio) y el % de uptime es en las últimas 24 hrs.

    • xzinik
      link
      fedilink
      arrow-up
      1
      ·
      5 个月前

      aaaaaaaaaaaaaaah

      con razon, bueno al menos se ve que el old es un poquito mas estable(ahorita mientras escribo), pero iwal está a la merced del core de lemmy

      • xzinik
        link
        fedilink
        arrow-up
        1
        ·
        5 个月前

        xd justo cuando comento esto lemmy se muere

        al menos no me dio error 500