Hito: LY Corp unificará 164 clusters OpenStack en una sola nube “Flava” para Yahoo! Japan y LINE

Infraestructura cloud de LY Corp y la consolidación de 164 clusters OpenStack en uno mediante Flava alineado con upstream

Hito: LY Corp unificará 164 clusters OpenStack en una sola nube “Flava” para Yahoo! Japan y LINE

Compartir:

Hito: LY Corp unificará 164 clusters OpenStack en una sola nube “Flava” para Yahoo! Japan y LINE

LY Corporation (resultado de la integración entre Yahoo! Japan y LINE) ha confirmado un rediseño mayor de su infraestructura privada para ejecutar una consolidación de 164 clusters OpenStack en uno dentro de su nueva nube unificada, denominada “Flava”. El objetivo: abandonar el dolor operativo de un OpenStack fuertemente parcheado, volver a alinearse con el código upstream y recuperar una cadencia de actualización sostenida que impacte directamente en seguridad, fiabilidad y evolución de features.

La decisión llega en un momento de presión estructural para grandes plataformas digitales en Asia: LY opera servicios de mensajería, e-commerce y pagos con un alcance reportado de alrededor de 300 millones de usuarios mensuales combinando productos como LINE y el portal de Yahoo! Japan. A esa escala, el coste de operación de clouds divergentes y con demasiadas personalizaciones se convierte en un riesgo técnico y de gobernanza.

Qué implica la consolidación de 164 clusters OpenStack en uno

En una publicación técnica, la compañía detalló el punto de partida de sus clouds internas. Por un lado, el cloud de LINE (“Verda”) se describió con unas 130.000 máquinas virtuales (VMs) sobre 11.000 hosts repartidos en cuatro clusters OpenStack. Por otro, el cloud de Yahoo! Japan (“YNW”) se apoyaba en 27.000 servidores y ejecutaba más de 160.000 VMs distribuidas en más de 160 clusters OpenStack, un diseño que ahora se reconducirá con la consolidación de 164 clusters OpenStack en uno como una de las medidas más visibles del proyecto.

El plan publicado para “Flava” describe un despliegue inicial con 500 o más hosts, más de 9.000 VMs y un único cluster OpenStack. Además del core de OpenStack, LY enumeró componentes y tecnologías ya presentes en su stack: Envoy como proxy, Linux, eBPF y XDP para observabilidad/red a bajo nivel, FRRouting (FRR) para routing, y Ceph como base de almacenamiento.

Menos parches, más upstream: el motivo técnico clave

Ryuutarou Inoue, responsable de la Cloud Infrastructure Unit de LY, atribuyó el cambio a un problema clásico en grandes despliegues: el exceso de modificaciones sobre OpenStack complicaba las actualizaciones. Su planteamiento para Flava es mantener la arquitectura alineada con upstream, minimizar patches propios y, cuando sea necesario introducir cambios funcionales, contribuirlos al proyecto principal para facilitar su integración y reducir deuda técnica.

Ese enfoque persigue un beneficio directo: eliminar “barreras de upgrade” para sostener un ciclo regular de updates, manteniendo disponibles tanto parches de seguridad como nuevas capacidades sin la fricción de reconciliar forks internos.

Resiliencia basada en diseño: fallos asumidos, recuperación rápida

LY también explicó que, en Flava, pretende evitar “sobreinvertir” en garantías de disponibilidad exclusivamente en la capa de infraestructura y, en cambio, diseñar asumiendo que el fallo es inevitable. Enoue describió tres pilares operativos: promover statelessness (tratar el disco raíz de la VM como efímero y mover persistencia a storage externo), disponibilidad impulsada por la aplicación (evitando complejidad infra innecesaria) y recuperación acelerada (reconstrucción con Infrastructure as Code como prioridad para mantener el servicio en marcha).

En observabilidad, la compañía citó el uso de Prometheus y Grafana, además de paneles internos. Para investigación de incidentes, indicó que profundizan en señales “deep” como trazas a nivel de kernel y capturas de paquetes para aislar causas.

Automatización operativa y LLMs: siguiente fase del proyecto

Inoue afirmó que en su infraestructura se registran fallos de hardware “cada día”, y que gestionar manualmente ese ritmo no es viable. Por ello, LY indicó haber automatizado la cadena desde la detección de fallos hasta la solicitud de trabajo on-site en el data center y la reintegración del hardware sustituido al cluster. Aun así, reconoció que quedan patrones irregulares que requieren intervención de ingeniería, y que el equipo aspira a incorporar large language models para flujos de decisión con alta carga operativa.

Contexto: seguridad y gobernanza en grandes plataformas

La re-arquitectura de “Flava” también debe leerse en el contexto de los antecedentes de seguridad y privacidad reportados alrededor del grupo, que han elevado el escrutinio sobre su stack tecnológico. En ese escenario, reducir complejidad operativa y facilitar actualizaciones frecuentes es un vector directo para mejorar postura de seguridad en plataformas a gran escala.

Para seguir la evolución del stack y el componente upstream de la estrategia, las referencias oficiales más relevantes son el proyecto OpenStack en OpenStack.org y la documentación del ecosistema Cloud Native/observabilidad citada por LY, como Prometheus (además de tecnologías de red y proxy ampliamente adoptadas como Envoy y Ceph).

Con esta hoja de ruta, LY Corp coloca la consolidación de 164 clusters OpenStack en uno como una apuesta estratégica: menos fragmentación, menos parches internos y más alineación con upstream para sostener updates, reforzar seguridad y operar una nube unificada capaz de soportar servicios masivos como Yahoo! Japan y LINE.

Compartir:

Déjanos tu comentario

Scroll al inicio