#! /usr/bin/env python3
# -*- coding: utf-8 -*-
#
# Copyright 2020 Alibaba Group Holding Limited.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

import base64
import copy
import json
import logging
import os
import random
import shlex
import subprocess
import sys
import time

from graphscope.proto import message_pb2

from gscoordinator.cluster_builder import EngineCluster
from gscoordinator.cluster_builder import MarsCluster

try:
    from kubernetes import client as kube_client
    from kubernetes import config as kube_config
    from kubernetes import watch as kube_watch
    from kubernetes.client import AppsV1Api
    from kubernetes.client import CoreV1Api
    from kubernetes.client.rest import ApiException as K8SApiException
    from kubernetes.config import ConfigException as K8SConfigException
except ImportError:
    kube_client = None
    kube_config = None
    kube_watch = None
    AppsV1Api = None
    CoreV1Api = None
    K8SApiException = None
    K8SConfigException = None

from graphscope.config import Config
from graphscope.deploy.kubernetes.utils import delete_kubernetes_object
from graphscope.deploy.kubernetes.utils import get_kubernetes_object_info
from graphscope.deploy.kubernetes.utils import resolve_api_client
from graphscope.framework.utils import PipeWatcher
from graphscope.framework.utils import get_tempdir
from graphscope.proto import types_pb2

from gscoordinator.constants import ANALYTICAL_CONTAINER_NAME
from gscoordinator.constants import GRAPHLEARN_CONTAINER_NAME
from gscoordinator.constants import GRAPHLEARN_TORCH_CONTAINER_NAME
from gscoordinator.constants import INTERACTIVE_EXECUTOR_CONTAINER_NAME
from gscoordinator.launcher import AbstractLauncher
from gscoordinator.utils import ANALYTICAL_ENGINE_PATH
from gscoordinator.utils import GRAPHSCOPE_HOME
from gscoordinator.utils import INTERACTIVE_ENGINE_SCRIPT
from gscoordinator.utils import WORKSPACE
from gscoordinator.utils import ResolveMPICmdPrefix
from gscoordinator.utils import delegate_command_to_pod
from gscoordinator.utils import parse_as_glog_level
from gscoordinator.utils import replace_string_in_dict
from gscoordinator.utils import run_kube_cp_command

logger = logging.getLogger("graphscope")


class FakeKubeResponse:
    def __init__(self, obj):
        self.data = json.dumps(obj)


class KubernetesClusterLauncher(AbstractLauncher):
    def __init__(self, config: Config):
        super().__init__()
        self._serving = False

        self._api_client = resolve_api_client()
        self._core_api = kube_client.CoreV1Api(self._api_client)
        self._apps_api = kube_client.AppsV1Api(self._api_client)
        self._pytorchjobs_api = kube_client.CustomObjectsApi(self._api_client)
        self._resource_object = ResourceManager(self._api_client)

        self._config: Config = config
        self._config.kubernetes_launcher.engine.post_setup()
        launcher_config = config.kubernetes_launcher

        # glog level
        self._glog_level = parse_as_glog_level(config.log_level)

        # Session Config
        self._num_workers = config.session.num_workers
        self._instance_id = config.session.instance_id
        self._timeout_seconds = config.session.timeout_seconds
        self._retry_time_seconds = config.session.retry_time_seconds

        # Vineyard Config
        # self._vineyard_socket = config.vineyard.socket
        self._vineyard_rpc_port = config.vineyard.rpc_port
        self._vineyard_deployment = config.vineyard.deployment_name

        # Launcher Config
        self._namespace = launcher_config.namespace
        self._delete_namespace = launcher_config.delete_namespace

        # Coordinator Config
        self._coordinator_name = config.coordinator.deployment_name
        self._coordinator_service_name = self._coordinator_name

        self._image_registry = launcher_config.image.registry
        self._image_repository = launcher_config.image.repository
        self._image_tag = launcher_config.image.tag
        self._image_pull_policy = launcher_config.image.pull_policy
        self._image_pull_secrets = launcher_config.image.pull_secrets

        self._vineyard_resource = config.vineyard.resource

        self._volumes = launcher_config.volumes

        self._owner_references = self.get_coordinator_owner_references()

        self._engine_pod_prefix = "gs-engine-"

        self._vineyard_image = config.vineyard.image
        self._vineyard_mem = config.vineyard.resource.requests.memory
        self._vineyard_cpu = config.vineyard.resource.requests.cpu

        self._service_type = launcher_config.service_type

        self._waiting_for_delete = launcher_config.waiting_for_delete

        # check the validity of deploy mode
        self._deploy_mode = launcher_config.deployment_mode
        if self._deploy_mode not in ["eager", "lazy"]:
            logger.error(
                "Invalid mode %s, choose from 'eager' or 'lazy'. Proceeding with default mode: 'eager'",
                self._deploy_mode,
            )
            self._deploy_mode = "eager"

        self._vineyard_pod_name_list = []

        # set the kube config file
        self._k8s_config_file = launcher_config.config_file
        if self._k8s_config_file is None:
            self._k8s_config_file = os.environ.get("KUBECONFIG", "~/.kube/config")

        if self._vineyard_deployment is not None:
            self._deploy_vineyard_deployment_if_not_exist()
            # check the if the vineyard deployment is ready again
            if not self._check_if_vineyard_deployment_exist():
                # if not ready, then set the vineyard deployment to None
                logger.error(
                    "Vineyard deployment %s is not ready, please check the deployment status."
                    "Proceeding with none vineyard deployment mode.",
                    self._vineyard_deployment,
                )
                self._vineyard_deployment = None

        # if the vineyard deployment is not set and use the eager mode,
        # which means deploy the engine as a single pod and there is no
        # external vineyard deployment. The vineyard objects are not
        # shared between the engine pods, so report an error here and set
        # the mode to eager.
        if self._deploy_mode == "lazy" and self._vineyard_deployment is None:
            logger.error(
                "Lazy mode is only possible with a vineyard deployment, "
                "please add a vineyard deployment name by k8s_vineyard_deployment='vineyardd-sample'. "
                "Proceeding with default mode: 'eager'"
            )
            self._deploy_mode = "eager"

        self._pod_name_list = []
        self._pod_ip_list = []
        self._pod_host_ip_list = []

        # analytical engine
        self._analytical_pod_name = []
        self._analytical_pod_ip = []
        self._analytical_pod_host_ip = []
        # analytical java engine
        self._analytical_java_pod_name = []
        self._analytical_java_pod_ip = []
        self._analytical_java_pod_host_ip = []
        # interactive engine
        self._interactive_resource_object = {}
        self._interactive_pod_name = {}
        self._interactive_pod_ip = {}
        self._interactive_pod_host_ip = {}
        # graphlearn engine
        self._graphlearn_resource_object = {}
        self._graphlearn_pod_name = {}
        self._graphlearn_pod_ip = {}
        self._graphlearn_pod_host_ip = {}
        # graphlearn_torch engine
        self._graphlearn_torch_resource_object = {}
        self._graphlearn_torch_pod_name = {}
        self._graphlearn_torch_pod_ip = {}
        self._graphlearn_torch_pod_host_ip = {}

        self._analytical_engine_endpoint = None
        self._mars_service_endpoint = None

        self._analytical_engine_process = None
        self._random_analytical_engine_rpc_port = random.randint(56001, 57000)
        # interactive engine
        # executor inter-processing port
        # executor rpc port
        # frontend port
        self._interactive_port = 8233
        # 8000 ~ 9000 is exposed
        self._graphlearn_start_port = 8000
        # 9001 ~ 10001 is exposed
        self._graphlearn_torch_start_port = 9001

        self._graphlearn_services = {}
        self._graphlearn_instance_processes = {}

        self._graphlearn_torch_services = {}
        self._graphlearn_torch_instance_processes = {}

        # workspace
        self._instance_workspace = os.path.join(WORKSPACE, self._instance_id)
        os.makedirs(self._instance_workspace, exist_ok=True)
        self._session_workspace = None

        self._engine_cluster = self._build_engine_cluster()
        self._vineyard_socket = self._engine_cluster.vineyard_ipc_socket

        self._vineyard_service_endpoint = None
        self._vineyard_internal_service_endpoint = None
        self._mars_service_endpoint = None
        if self._config.kubernetes_launcher.mars.enable:
            self._mars_cluster = MarsCluster(
                self._instance_id, self._namespace, self._service_type
            )

    def __del__(self):
        self.stop()

    def type(self):
        return types_pb2.K8S

    # the argument `with_analytical_` means whether to add the analytical engine
    # container to the engine statefulsets, and the other three arguments are similar.
    def _build_engine_cluster(self):
        return EngineCluster(
            config=self._config,
            engine_pod_prefix=self._engine_pod_prefix,
            graphlearn_start_port=self._graphlearn_start_port,
            graphlearn_torch_start_port=self._graphlearn_torch_start_port,
        )

    def get_coordinator_owner_references(self):
        owner_references = []
        if self._coordinator_name:
            try:
                deployment = self._apps_api.read_namespaced_deployment(
                    self._coordinator_name, self._namespace
                )
                owner_references.append(
                    kube_client.V1OwnerReference(
                        api_version="apps/v1",
                        kind="Deployment",
                        name=self._coordinator_name,
                        uid=deployment.metadata.uid,
                    )
                )
            except K8SApiException:
                logger.error("Coordinator %s not found", self._coordinator_name)

        return owner_references

    def waiting_for_delete(self):
        return self._waiting_for_delete

    def get_namespace(self):
        return self._namespace

    def get_vineyard_stream_info(self):
        if self._vineyard_deployment is not None:
            hosts = [
                f"{self._namespace}:{host}" for host in self._vineyard_pod_name_list
            ]
        else:
            hosts = [f"{self._namespace}:{host}" for host in self._pod_name_list]
        return "kubernetes", hosts

    def set_session_workspace(self, session_id):
        self._session_workspace = os.path.join(self._instance_workspace, session_id)
        os.makedirs(self._session_workspace, exist_ok=True)

    def launch_etcd(self):
        pass

    def configure_etcd_endpoint(self):
        pass

    @property
    def hosts(self):
        """list of pod name"""
        return self._pod_name_list

    @property
    def hosts_list(self):
        return self._get_analytical_hosts()

    @property
    def vineyard_endpoint(self) -> str:
        if self._check_if_vineyard_deployment_exist():
            return self._vineyard_service_endpoint
        else:
            return self._vineyard_internal_endpoint

    def distribute_file(self, path):
        pod_name_list, _, _ = self._allocate_analytical_engine()
        for pod in pod_name_list:
            container = ANALYTICAL_CONTAINER_NAME
            try:
                # The library may exist in the analytical pod.
                test_cmd = f"test -f {path}"
                logger.debug(delegate_command_to_pod(test_cmd, pod, container))
                logger.info("Library exists, skip distribute")
            except RuntimeError:
                cmd = f"mkdir -p {os.path.dirname(path)}"
                logger.debug(delegate_command_to_pod(cmd, pod, container))
                logger.debug(run_kube_cp_command(path, path, pod, container, True))

    def close_analytical_instance(self):
        pass

    def launch_vineyard(self):
        """Launch vineyardd in k8s cluster."""
        # vineyardd is auto launched in vineyardd container
        # args = f"vineyardd \
        #  -socket {self._engine_cluster._sock} -etcd_endpoint http://{self._pod_ip_list[0]}:2379"
        pass

    def close_etcd(self):
        # etcd is managed by vineyard
        pass

    def close_vineyard(self):
        # No need to close vineyardd
        # Use delete deployment instead
        pass

    def check_if_engine_exist(self, engine_type, object_id=None):
        """Checks if the engine with the given type exists.

        Args:
            engine_type: The type of engine to check for.
            object_id: The object id of the engine to check for.

        Returns:
            True if the engine exists, False otherwise.
        """

        if object_id:
            engine_pod_name_dict = getattr(self, f"_{engine_type}_pod_name")
            engine_pod_name_list = engine_pod_name_dict.get(object_id, [])
            engine_pod_ip_dict = getattr(self, f"_{engine_type}_pod_ip")
            engine_pod_ip_list = engine_pod_ip_dict.get(object_id, [])
            engine_pod_host_ip_dict = getattr(self, f"_{engine_type}_pod_host_ip")
            engine_pod_host_ip_list = engine_pod_host_ip_dict.get(object_id, [])
        else:
            engine_pod_name_list = getattr(self, f"_{engine_type}_pod_name")
            engine_pod_ip_list = getattr(self, f"_{engine_type}_pod_ip")
            engine_pod_host_ip_list = getattr(self, f"_{engine_type}_pod_host_ip")

        return engine_pod_name_list and engine_pod_ip_list and engine_pod_host_ip_list

    def deploy_engine(self, engine_type, object_id=None):
        """Deploys the engine with the given type.

        Args:
            engine_type: The type of engine to deploy.
            object_id: The object ID to deploy the engine with.

        Returns:
            A tuple of the pod names, IP addresses, and host IP addresses of the
            deployed engine and the response of the engine and service.
        """

        if not self.check_if_engine_exist(engine_type, object_id):
            self._engine_pod_prefix = f"gs-{engine_type}-" + (
                f"{object_id}-" if object_id else ""
            ).replace("_", "-")
            self._config.kubernetes_launcher.engine.enable_gae = (
                engine_type == "analytical"
            )
            self._config.kubernetes_launcher.engine.enable_gae_java = (
                engine_type == "analytical-java"
            )
            self._config.kubernetes_launcher.engine.enable_gie = (
                engine_type == "interactive"
            )
            self._config.kubernetes_launcher.engine.enable_gle = (
                engine_type == "graphlearn"
            )
            self._config.kubernetes_launcher.engine.enable_glt = (
                engine_type == "graphlearn-torch"
            )

            self._engine_cluster = self._build_engine_cluster()
            response = self._create_engine_stateful_set()
            self._waiting_for_services_ready()

            if object_id:
                resource_object = getattr(self, f"_{engine_type}_resource_object")
                pod_name = getattr(self, f"_{engine_type}_pod_name")
                pod_ip = getattr(self, f"_{engine_type}_pod_ip")
                pod_host_ip = getattr(self, f"_{engine_type}_pod_host_ip")
                resource_object[object_id] = response
                pod_name[object_id] = self._pod_name_list
                pod_ip[object_id] = self._pod_ip_list
                pod_host_ip[object_id] = self._pod_host_ip_list
            else:
                # Set the engine pod info
                setattr(self, f"_{engine_type}_pod_name", self._pod_name_list)
                setattr(self, f"_{engine_type}_pod_ip", self._pod_ip_list)
                setattr(self, f"_{engine_type}_pod_host_ip", self._pod_host_ip_list)

        return (
            (
                getattr(self, f"_{engine_type}_pod_name")
                if object_id is None
                else getattr(self, f"_{engine_type}_pod_name")[object_id]
            ),
            (
                getattr(self, f"_{engine_type}_pod_ip")
                if object_id is None
                else getattr(self, f"_{engine_type}_pod_ip")[object_id]
            ),
            (
                getattr(self, f"_{engine_type}_pod_host_ip")
                if object_id is None
                else getattr(self, f"_{engine_type}_pod_host_ip")[object_id]
            ),
        )

    def delete_engine_stateful_set_with_object_id(self, engine_type, object_id):
        """delete the engine stateful set with the given object id.

        Args:
            engine_type(str): the type of engine
            object_id (int): The object id of the engine to delete.
        """
        resource_object = getattr(self, f"_{engine_type}_resource_object")
        obj = resource_object.get(object_id, {})
        if obj:
            delete_kubernetes_object(
                api_client=self._api_client,
                target=obj,
                wait=self._waiting_for_delete,
                timeout_seconds=self._timeout_seconds,
            )

            pod_name = getattr(self, f"_{engine_type}_pod_name")
            pod_ip = getattr(self, f"_{engine_type}_pod_ip")
            pod_host_ip = getattr(self, f"_{engine_type}_pod_host_ip")
            del resource_object[object_id]
            del pod_name[object_id]
            del pod_ip[object_id]
            del pod_host_ip[object_id]

    def deploy_analytical_engine(self):
        return self.deploy_engine("analytical")

    def deploy_analytical_java_engine(self):
        return self.deploy_engine("analytical-java")

    def deploy_interactive_engine(self, object_id):
        pod_name_list, pod_ip_list, pod_host_ip_list = self.deploy_engine(
            "interactive", object_id
        )
        try:
            response = self._core_api.read_namespaced_pod(
                pod_name_list[0], self._namespace
            )
        except K8SApiException:
            logger.exception(
                "Get pod %s error, please check if the pod is ready",
                pod_name_list[0],
            )
        owner_references = [
            kube_client.V1OwnerReference(
                api_version=response.metadata.owner_references[0].api_version,
                kind=response.metadata.owner_references[0].kind,
                name=response.metadata.owner_references[0].name,
                uid=response.metadata.owner_references[0].uid,
            )
        ]
        name = f"gs-interactive-frontend-{object_id}-{self._instance_id}"
        self._create_frontend_deployment(name, owner_references)

        return pod_name_list, pod_ip_list, pod_host_ip_list

    def deploy_graphlearn_engine(self, object_id):
        return self.deploy_engine("graphlearn", object_id)

    def deploy_graphlearn_torch_engine(self, object_id):
        return self.deploy_engine("graphlearn-torch", object_id)

    def delete_interactive_engine(self, object_id):
        self.delete_engine_stateful_set_with_object_id("interactive", object_id)

    def delete_graphlearn_engine(self, object_id):
        self.delete_engine_stateful_set_with_object_id("graphlearn", object_id)

    def delete_graphlearn_torch_engine(self, object_id):
        self.delete_engine_stateful_set_with_object_id("graphlearn-torch", object_id)

    def _allocate_interactive_engine(self, object_id):
        # check the interactive engine flag
        if not self._config.kubernetes_launcher.engine.enable_gie:
            raise NotImplementedError("Interactive engine not enabled")

        # allocate analytical engine based on the mode
        if self._deploy_mode == "eager":
            return self._pod_name_list, self._pod_ip_list, self._pod_host_ip_list
        return self.deploy_interactive_engine(object_id)

    def _distribute_interactive_process(
        self,
        hosts,
        object_id: int,
        schema_path: str,
        params: dict,
        with_cypher: bool,
        engine_selector: str,
    ):
        """
        Args:
            hosts (str): hosts of the graph.
            object_id (int): object id of the graph.
            schema_path (str): path of the schema file.
            engine_selector(str): the label selector of the engine.
        """
        env = os.environ.copy()
        env["GRAPHSCOPE_HOME"] = GRAPHSCOPE_HOME
        container = INTERACTIVE_EXECUTOR_CONTAINER_NAME

        params = "\n".join([f"{k}={v}" for k, v in params.items()])
        params = base64.b64encode(params.encode("utf-8")).decode("utf-8")
        neo4j_disabled = "true" if not with_cypher else "false"
        cmd = [
            INTERACTIVE_ENGINE_SCRIPT,
            "create_gremlin_instance_on_k8s",
            self._session_workspace,
            str(object_id),
            schema_path,
            hosts,
            container,
            str(self._interactive_port),  # executor port
            str(self._interactive_port + 1),  # executor rpc port
            str(self._interactive_port + 2),  # frontend gremlin port
            str(self._interactive_port + 3),  # frontend cypher port
            self._coordinator_name,
            engine_selector,
            neo4j_disabled,
            params,
        ]
        self._interactive_port += 4
        logger.info("Create GIE instance with command: %s", " ".join(cmd))
        process = subprocess.Popen(
            cmd,
            start_new_session=True,
            cwd=os.getcwd(),
            env=env,
            encoding="utf-8",
            errors="replace",
            stdin=subprocess.DEVNULL,
            stdout=subprocess.PIPE,
            stderr=subprocess.STDOUT,
            bufsize=1,
            universal_newlines=True,
        )
        return process

    def create_interactive_instance(
        self, object_id: int, schema_path: str, params: dict, with_cypher: bool
    ):
        pod_name_list, _, _ = self._allocate_interactive_engine(object_id)
        if not pod_name_list:
            raise RuntimeError("Failed to allocate interactive engine")
        hosts = ",".join(pod_name_list)

        engine_selector = "gs-engine-" + self._instance_id
        if self._deploy_mode == "lazy":
            engine_selector = (
                "gs-interactive-" + str(object_id) + "-" + self._instance_id
            )

        return self._distribute_interactive_process(
            hosts, object_id, schema_path, params, with_cypher, engine_selector
        )

    def close_interactive_instance(self, object_id):
        if self._deploy_mode == "lazy":
            logger.info("Close interactive instance with object id: %d", object_id)
            self.delete_interactive_engine(object_id)
            return None
        pod_name_list, _, _ = self._allocate_interactive_engine(object_id)
        hosts = ",".join(pod_name_list)
        env = os.environ.copy()
        env["GRAPHSCOPE_HOME"] = GRAPHSCOPE_HOME
        container = INTERACTIVE_EXECUTOR_CONTAINER_NAME
        cmd = [
            INTERACTIVE_ENGINE_SCRIPT,
            "close_gremlin_instance_on_k8s",
            self._session_workspace,
            str(object_id),
            hosts,
            container,
            self._instance_id,
        ]
        logger.info("Close GIE instance with command: %s", " ".join(cmd))
        process = subprocess.Popen(
            cmd,
            start_new_session=True,
            cwd=os.getcwd(),
            env=env,
            encoding="utf-8",
            errors="replace",
            stdin=subprocess.DEVNULL,
            stdout=subprocess.PIPE,
            stderr=subprocess.STDOUT,
            universal_newlines=True,
            bufsize=1,
        )
        return process

    def _create_mars_scheduler(self):
        logger.info("Launching mars scheduler pod for GraphScope ...")
        deployment = self._mars_cluster.get_mars_deployment()
        deployment.metadata.owner_references = self._owner_references
        response = self._apps_api.create_namespaced_deployment(
            self._namespace, deployment
        )
        self._resource_object.append(response)

    # The function is used to inject vineyard as a sidecar container into the workload
    # and return the json string of new workload which is injected with vineyard sidecar
    #
    # Assume we have a workload json as below:
    #
    # {
    #  "apiVersion": "apps/v1",
    #  "kind": "Deployment",
    #  "metadata": {
    #    "name": "nginx-deployment",
    #    "namespace": "vineyard-job"
    #  },
    #  "spec": {
    #    "selector": {
    #      "matchLabels": {
    #        "app": "nginx"
    #      }
    #    },
    #    "template": {
    #      "metadata": {
    #        "labels": {
    #          "app": "nginx"
    #        }
    #      },
    #      "spec": {
    #        "containers": [
    #          {
    #            "name": "nginx",
    #            "image": "nginx:1.14.2",
    #            "ports": [
    #              {
    #                "containerPort": 80
    #              }
    #            ]
    #          }
    #        ]
    #      }
    #    }
    #  }
    # }
    #
    # The function will return a new workload json as below:
    #
    # {
    #  "apiVersion": "apps/v1",
    #  "kind": "Deployment",
    #  "metadata": {
    #    "creationTimestamp": null,
    #    "name": "nginx-deployment",
    #    "namespace": "vineyard-job"
    #  },
    #  "spec": {
    #    "selector": {
    #      "matchLabels": {
    #        "app": "nginx"
    #      }
    #    }
    #  },
    #  "template": {
    #    "metadata": null,
    #    "labels": {
    #      "app": "nginx",
    #      "app.vineyard.io/name": "vineyard-sidecar"
    #    },
    #    "spec": {
    #      "containers": [
    #        {
    #          "command": null,
    #          "image": "nginx:1.14.2",
    #          "name": "nginx",
    #          "ports": [
    #            {
    #              "containerPort": 80
    #            }
    #          ],
    #          "volumeMounts": [
    #            {
    #              "mountPath": "/var/run",
    #              "name": "vineyard-socket"
    #            }
    #          ]
    #        },
    #        {
    #          "command": [
    #            "/bin/bash",
    #            "-c",
    #            "/usr/bin/wait-for-it.sh -t 60 vineyard-sidecar-etcd-service.vineyard-job.svc.cluster.local:2379; \\\n
    #             sleep 1; /usr/local/bin/vineyardd --sync_crds true --socket /var/run/vineyard.sock --size 256Mi \\\n
    #             --stream_threshold 80 --etcd_cmd etcd --etcd_prefix /vineyard \\\n
    #             --etcd_endpoint http://vineyard-sidecar-etcd-service:2379\n"
    #          ],
    #          "env": [
    #            {
    #              "name": "VINEYARDD_UID",
    #              "value": null
    #            },
    #            {
    #              "name": "VINEYARDD_NAME",
    #              "value": "vineyard-sidecar"
    #            },
    #            {
    #              "name": "VINEYARDD_NAMESPACE",
    #              "value": "vineyard-job"
    #            }
    #          ],
    #          "image": "vineyardcloudnative/vineyardd:latest",
    #          "imagePullPolicy": "IfNotPresent",
    #          "name": "vineyard-sidecar",
    #          "ports": [
    #            {
    #              "containerPort": 9600,
    #              "name": "vineyard-rpc",
    #              "protocol": "TCP"
    #            }
    #          ],
    #          "volumeMounts": [
    #            {
    #              "mountPath": "/var/run",
    #              "name": "vineyard-socket"
    #            }
    #          ]
    #        }
    #      ],
    #      "volumes": [
    #        {
    #          "emptyDir": {},
    #          "name": "vineyard-socket"
    #        }
    #      ]
    #    }
    #  }
    # }

    def _inject_vineyard_as_sidecar(self, workload):
        import vineyard

        # create the annotations for the workload's template if not exists
        if workload.spec.template.metadata.annotations is None:
            workload.spec.template.metadata.annotations = {}

        # create the labels for the workload's template if not exists
        if workload.spec.template.metadata.labels is None:
            workload.spec.template.metadata.labels = {}

        workload_json = json.dumps(
            self._api_client.sanitize_for_serialization(workload)
        )

        sts_name = (
            f"{self._engine_cluster.engine_stateful_set_name}-{self._instance_id}"
        )

        owner_reference_json = self._get_owner_reference_as_json()
        # inject vineyard sidecar into the workload
        #
        # the name is used to specify the name of the sidecar container, which is also the
        # labelSelector of the rpc service and the etcd service.
        #
        # the apply_resources is used to apply resources to the kubernetes cluster during
        # the injection.
        #
        # for more details about vineyardctl inject, please refer to the link below:
        # https://github.com/v6d-io/v6d/tree/main/k8s/cmd#vineyardctl-inject

        new_workload_json = vineyard.deploy.vineyardctl.inject(
            kubeconfig=self._k8s_config_file,
            resource=workload_json,
            sidecar_volume_mountpath="/tmp/vineyard_workspace",
            name=sts_name + "-vineyard",
            apply_resources=True,
            owner_references=owner_reference_json,
            sidecar_image=self._vineyard_image,
            sidecar_cpu=self._vineyard_cpu,
            sidecar_memory=self._vineyard_mem,
            sidecar_service_type=self._service_type,
            output="json",
            capture=True,
        )

        normalized_workload_json = json.loads(new_workload_json)
        final_workload_json = json.loads(normalized_workload_json["workload"])

        fake_kube_response = FakeKubeResponse(final_workload_json)

        new_workload = self._api_client.deserialize(fake_kube_response, type(workload))
        return new_workload

    def _create_engine_stateful_set(self):
        logger.info("Creating engine pods...")

        stateful_set = self._engine_cluster.get_engine_stateful_set()
        if self._vineyard_deployment is not None:
            # schedule engine statefulset to the same node with vineyard deployment
            stateful_set = self._add_pod_affinity_for_vineyard_deployment(
                workload=stateful_set
            )
        else:
            stateful_set = self._inject_vineyard_as_sidecar(stateful_set)

        response = self._apps_api.create_namespaced_stateful_set(
            self._namespace, stateful_set
        )
        self._resource_object.append(response)
        return response

    def _create_frontend_deployment(self, name=None, owner_references=None):
        logger.info("Creating frontend pods...")
        deployment = self._engine_cluster.get_interactive_frontend_deployment()
        if name is not None:
            deployment.metadata.name = name
        deployment.metadata.owner_references = owner_references
        response = self._apps_api.create_namespaced_deployment(
            self._namespace, deployment
        )
        self._resource_object.append(response)

    def _create_frontend_service(self):
        logger.info("Creating frontend service...")
        service = self._engine_cluster.get_interactive_frontend_service(8233, 7687)
        service.metadata.owner_references = self._owner_references
        response = self._core_api.create_namespaced_service(self._namespace, service)
        self._resource_object.append(response)

    def _create_graphlearn_service(self, object_id):
        logger.info("Creating graphlearn service...")
        service = self._engine_cluster.get_graphlearn_service(
            object_id, self._graphlearn_start_port
        )
        service.metadata.owner_references = self._owner_references
        response = self._core_api.create_namespaced_service(self._namespace, service)
        self._graphlearn_services[object_id] = response
        self._resource_object.append(response)

    def _create_graphlearn_torch_service(self, object_id):
        logger.info("Creating graphlearn torch service...")
        service = self._engine_cluster.get_graphlearn_torch_service(
            object_id, self._graphlearn_torch_start_port
        )
        service.metadata.owner_references = self._owner_references
        response = self._core_api.create_namespaced_service(self._namespace, service)
        self._graphlearn_torch_services[object_id] = response
        self._resource_object.append(response)

    def get_engine_config(self):
        config = {
            "vineyard_service_name": self._engine_cluster.vineyard_service_name,
            "vineyard_rpc_endpoint": self._vineyard_service_endpoint,
        }
        if self._config.kubernetes_launcher.mars.enable:
            config["mars_endpoint"] = self._mars_service_endpoint
        return config

    def _create_services(self):
        self._create_engine_stateful_set()
        if self._config.kubernetes_launcher.engine.enable_gie:
            self._create_frontend_deployment(owner_references=self._owner_references)
            # self._create_frontend_service()
        if self._config.kubernetes_launcher.mars.enable:
            # scheduler used by Mars
            self._create_mars_scheduler()

    def _waiting_for_services_ready(self):
        logger.info("Waiting for services ready...")
        selector = ""
        namespace = self._namespace
        start_time = time.time()
        event_messages = []
        while True:
            # TODO: Add label selector to filter out deployments.
            statefulsets = self._apps_api.list_namespaced_stateful_set(namespace)
            service_available = False
            for rs in statefulsets.items:
                if rs.metadata.name == self._engine_cluster.engine_stateful_set_name:
                    # logger.info(
                    #     "Engine pod: %s ready / %s total",
                    #     rs.status.ready_replicas,
                    #     self._num_workers,
                    # )
                    if rs.status.ready_replicas == self._num_workers:
                        # service is ready
                        service_available = True
                        break

                    # check container status
                    labels = rs.spec.selector.match_labels
                    selector = ",".join(f"{k}={v}" for k, v in labels.items())

                    pods = self._core_api.list_namespaced_pod(
                        namespace=namespace, label_selector=selector
                    )

                    for pod in pods.items:
                        pod_name = pod.metadata.name
                        field_selector = "involvedObject.name=" + pod_name
                        stream = kube_watch.Watch().stream(
                            self._core_api.list_namespaced_event,
                            namespace,
                            field_selector=field_selector,
                            timeout_seconds=1,
                        )
                        for event in stream:
                            msg = f"[{pod_name}]: {event['object'].message}"
                            if msg not in event_messages:
                                event_messages.append(msg)
                                logger.info(msg)
                                if event["object"].reason == "Failed":
                                    raise RuntimeError("Kubernetes event error: " + msg)

            if service_available:
                break
            if self._timeout_seconds + start_time < time.time():
                raise TimeoutError("GraphScope Engines launching timeout.")
            time.sleep(self._retry_time_seconds)

        self._pod_name_list = []
        self._pod_ip_list = []
        self._pod_host_ip_list = []
        pods = self._core_api.list_namespaced_pod(
            namespace=namespace, label_selector=selector
        )
        for pod in pods.items:
            self._pod_name_list.append(pod.metadata.name)
            self._pod_ip_list.append(pod.status.pod_ip)
            self._pod_host_ip_list.append(pod.status.host_ip)
        assert len(self._pod_ip_list) > 0

        self._vineyard_service_endpoint = (
            self._engine_cluster.get_vineyard_service_endpoint(self._api_client)
        )
        self._vineyard_internal_endpoint = (
            f"{self._pod_ip_list[0]}:{self._engine_cluster._vineyard_service_port}"
        )

        logger.info("GraphScope engines pod is ready.")
        logger.info("Engines pod name list: %s", self._pod_name_list)
        logger.info("Engines pod ip list: %s", self._pod_ip_list)
        logger.info("Engines pod host ip list: %s", self._pod_host_ip_list)
        logger.info("Vineyard service endpoint: %s", self._vineyard_service_endpoint)
        if self._config.kubernetes_launcher.mars.enable:
            self._mars_service_endpoint = self._mars_cluster.get_mars_service_endpoint(
                self._api_client
            )
            logger.info("Mars service endpoint: %s", self._mars_service_endpoint)

    # the function will add the podAffinity to the engine workload so that the workload
    # will be scheduled to the same node with vineyard deployment.
    # e.g. the vineyard deployment is named "vineyard-deployment" and the namespace is "graphscope-system",
    # the podAffinity will be added to the engine workload as below:
    # spec:
    #   affinity:
    #     podAffinity:
    #       requiredDuringSchedulingIgnoredDuringExecution:
    #       - labelSelector:
    #           matchExpressions:
    #           - key: app.kubernetes.io/instance
    #             operator: In
    #             values:
    #             - graphscope-system-vineyard-deployment # [vineyard deployment namespace]-[vineyard deployment name]
    #         topologyKey: kubernetes.io/hostname
    def _add_pod_affinity_for_vineyard_deployment(self, workload):
        import vineyard

        workload_json = json.dumps(
            self._api_client.sanitize_for_serialization(workload)
        )
        new_workload_json = vineyard.deploy.vineyardctl.schedule.workload(
            kubeconfig=self._k8s_config_file,
            resource=workload_json,
            vineyardd_name=self._vineyard_deployment,
            vineyardd_namespace=self._namespace,
            capture=True,
        )

        normalized_workload_json = json.loads(new_workload_json)
        fake_kube_response = FakeKubeResponse(normalized_workload_json)
        new_workload = self._api_client.deserialize(fake_kube_response, type(workload))
        return new_workload

    def _dump_resource_object(self):
        resource = {}
        if self._delete_namespace:
            resource[self._namespace] = "Namespace"
        else:
            # coordinator info
            resource[self._coordinator_name] = "Deployment"
            resource[self._coordinator_service_name] = "Service"
        self._resource_object.dump(extra_resource=resource)

    def _get_analytical_hosts(self):
        pod_name_list = self._pod_name_list
        if self._analytical_pod_name:
            pod_name_list = self._analytical_pod_name
        return pod_name_list

    def _allocate_analytical_engine(self):
        # allocate analytical engine based on the mode
        if self._deploy_mode == "eager":
            return self._pod_name_list, self._pod_ip_list, self._pod_host_ip_list
        else:
            if self._config.kubernetes_launcher.engine.enable_gae:
                return self.deploy_analytical_engine()
            elif self._config.kubernetes_launcher.engine.enable_gae_java:
                return self.deploy_analytical_java_engine()
            else:
                logger.warning("analytical is not enabled, skip allocating")

    def _distribute_analytical_process(self, pod_name_list, pod_ip_list):
        # generate and distribute hostfile
        hosts = os.path.join(get_tempdir(), "hosts_of_nodes")
        with open(hosts, "w") as f:
            for i, pod_ip in enumerate(pod_ip_list):
                f.write(f"{pod_ip} {pod_name_list[i]}\n")

        container = ANALYTICAL_CONTAINER_NAME
        for pod in pod_name_list:
            logger.debug(
                run_kube_cp_command(hosts, "/tmp/hosts_of_nodes", pod, container, True)
            )

        # launch engine
        rmcp = ResolveMPICmdPrefix(rsh_agent=True)
        cmd, mpi_env = rmcp.resolve(self._num_workers, pod_name_list)

        cmd.append(ANALYTICAL_ENGINE_PATH)
        cmd.extend(["--host", "0.0.0.0"])
        cmd.extend(["--port", str(self._random_analytical_engine_rpc_port)])

        cmd.extend(["-v", str(self._glog_level)])
        mpi_env["GLOG_v"] = str(self._glog_level)

        cmd.extend(["--vineyard_socket", self._engine_cluster.vineyard_ipc_socket])
        logger.info("Analytical engine launching command: %s", " ".join(cmd))

        env = os.environ.copy()
        env["GRAPHSCOPE_HOME"] = GRAPHSCOPE_HOME
        env.update(mpi_env)

        self._analytical_engine_process = subprocess.Popen(
            cmd,
            env=env,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            encoding="utf-8",
            errors="replace",
            universal_newlines=True,
            bufsize=1,
        )

        stdout_watcher = PipeWatcher(
            self._analytical_engine_process.stdout, sys.stdout, drop=True
        )
        stderr_watcher = PipeWatcher(
            self._analytical_engine_process.stderr, sys.stderr, drop=True
        )
        setattr(self._analytical_engine_process, "stdout_watcher", stdout_watcher)
        setattr(self._analytical_engine_process, "stderr_watcher", stderr_watcher)

    def create_analytical_instance(self):
        pod_name_list, pod_ip_list, _ = self._allocate_analytical_engine()
        if not pod_name_list or not pod_ip_list:
            raise RuntimeError("Failed to allocate analytical engine.")
        self._distribute_analytical_process(pod_name_list, pod_ip_list)
        self._analytical_engine_endpoint = (
            f"{self._pod_ip_list[0]}:{self._random_analytical_engine_rpc_port}"
        )
        logger.info(
            "GAE rpc service is listening on %s ...", self._analytical_engine_endpoint
        )

    def _delete_dangling_coordinator(self):
        # delete service
        try:
            self._core_api.delete_namespaced_service(
                self._coordinator_service_name, self._namespace
            )
        except K8SApiException as ex:
            if ex.status == 404:
                logger.warning(
                    "coordinator service %s not found", self._coordinator_service_name
                )
            else:
                logger.exception(
                    "Deleting dangling coordinator service %s failed",
                    self._coordinator_service_name,
                )
        try:
            self._apps_api.delete_namespaced_deployment(
                self._coordinator_name, self._namespace
            )
        except K8SApiException as ex:
            if ex.status == 404:
                logger.warning(
                    "coordinator deployment %s not found", self._coordinator_name
                )
            else:
                logger.exception(
                    "Deleting dangling coordinator %s failed", self._coordinator_name
                )

        if self._waiting_for_delete:
            start_time = time.time()
            while True:
                try:
                    self._apps_api.read_namespaced_deployment(
                        self._coordinator_name, self._namespace
                    )
                except K8SApiException as ex:
                    if ex.status != 404:
                        logger.exception(
                            "Deleting dangling coordinator %s failed",
                            self._coordinator_name,
                        )
                    break
                else:
                    if time.time() - start_time > self._timeout_seconds:
                        logger.error(
                            "Deleting dangling coordinator %s timeout",
                            self._coordinator_name,
                        )
                    time.sleep(self._retry_time_seconds)

    def _get_owner_reference_as_json(self):
        if self._owner_references:
            owner_reference = [
                {
                    "apiVersion": self._owner_references[0].api_version,
                    "kind": self._owner_references[0].kind,
                    "name": self._owner_references[0].name,
                    "uid": self._owner_references[0].uid,
                }
            ]
            owner_reference_json = json.dumps(owner_reference)
        else:
            owner_reference_json = json.dumps([])
        return owner_reference_json

    def _check_if_vineyard_deployment_exist(self):
        if self._vineyard_deployment is None or self._vineyard_deployment == "":
            return False
        try:
            self._apps_api.read_namespaced_deployment(
                self._vineyard_deployment, self._namespace
            )
        except K8SApiException:
            logger.info(
                "Vineyard deployment %s/%s not exist",
                self._namespace,
                self._vineyard_deployment,
            )
            return False
        return True

    def _deploy_vineyard_deployment_if_not_exist(self):
        if not self._check_if_vineyard_deployment_exist():
            self._deploy_vineyard_deployment()
        else:
            logger.info(
                "The external vineyard deployment %s is ready."
                "Please make sure the type of the vineyard rpc service is the same as %s.",
                self._vineyard_deployment,
                self._service_type,
            )

    def _deploy_vineyard_deployment(self):
        import vineyard

        owner_reference_json = self._get_owner_reference_as_json()
        vineyard.deploy.vineyardctl.deploy.vineyard_deployment(
            kubeconfig=self._k8s_config_file,
            name=self._vineyard_deployment,
            namespace=self._namespace,
            replicas=self._num_workers,
            etcd_replicas=1,
            vineyardd_image=self._vineyard_image,
            vineyardd_memory=self._vineyard_mem,
            vineyardd_cpu=self._vineyard_cpu,
            vineyardd_service_type=self._service_type,
            owner_references=owner_reference_json,
        )
        vineyard_pods = self._core_api.list_namespaced_pod(
            self._namespace,
            label_selector=f"app.kubernetes.io/instance={self._namespace}-{self._vineyard_deployment}",
        )
        self._vineyard_pod_name_list.extend(
            [pod.metadata.name for pod in vineyard_pods.items]
        )

    def start(self):
        if self._serving:
            return True
        try:
            if self._deploy_mode == "eager":
                self._create_services()
                self._waiting_for_services_ready()
                self._dump_resource_object()
                self._serving = True
        except Exception:  # pylint: disable=broad-except
            time.sleep(1)
            logger.exception("Error when launching GraphScope on kubernetes cluster")
            self.stop()
            return False
        return True

    def stop(self, is_dangling=False):
        if self._serving:
            logger.info("Cleaning up kubernetes resources")
            for target in self._resource_object:
                delete_kubernetes_object(
                    api_client=self._api_client,
                    target=target,
                    wait=self._waiting_for_delete,
                    timeout_seconds=self._timeout_seconds,
                )
            self._resource_object.clear()

            if is_dangling:
                logger.info("Dangling coordinator detected, cleaning up...")
                # delete everything inside namespace of graphscope instance
                if self._delete_namespace:
                    # delete namespace created by graphscope
                    self._core_api.delete_namespace(self._namespace)
                    if self._waiting_for_delete:
                        start_time = time.time()
                        while True:
                            try:
                                self._core_api.read_namespace(self._namespace)
                            except K8SApiException as ex:
                                if ex.status != 404:
                                    logger.exception(
                                        "Deleting dangling namespace %s failed",
                                        self._namespace,
                                    )
                                break
                            else:
                                if time.time() - start_time > self._timeout_seconds:
                                    logger.error(
                                        "Deleting namespace %s timeout", self._namespace
                                    )
                                time.sleep(self._retry_time_seconds)

                else:
                    # delete coordinator deployment and service
                    self._delete_dangling_coordinator()
            self._serving = False
            logger.info("Kubernetes launcher stopped")

    def _allocate_graphlearn_engine(self, object_id):
        # check the graphlearn engine flag
        if not self._config.kubernetes_launcher.engine.enable_gle:
            raise NotImplementedError("GraphLearn engine not enabled")

        # allocate graphlearn engine based on the mode
        if self._deploy_mode == "eager":
            return self._pod_name_list, self._pod_ip_list, self._pod_host_ip_list
        return self.deploy_graphlearn_engine(object_id)

    def _allocate_graphlearn_torch_engine(self, object_id):
        # check the graphlearn torch engine flag
        if not self._config.kubernetes_launcher.engine.enable_glt:
            raise NotImplementedError("GraphLearn torch engine not enabled")

        # allocate graphlearn engine based on the mode
        if self._deploy_mode == "eager":
            return self._pod_name_list, self._pod_ip_list, self._pod_host_ip_list
        return self.deploy_graphlearn_torch_engine(object_id)

    def _distribute_graphlearn_process(
        self, pod_name_list, pod_host_ip_list, object_id, handle, config
    ):
        # allocate service for ports
        # prepare arguments
        handle = json.loads(
            base64.b64decode(handle.encode("utf-8", errors="ignore")).decode(
                "utf-8", errors="ignore"
            )
        )
        hosts = ",".join(
            [
                f"{pod_name}:{port}"
                for pod_name, port in zip(
                    pod_name_list,
                    self._engine_cluster.get_graphlearn_ports(
                        self._graphlearn_start_port
                    ),
                )
            ]
        )
        handle["server"] = hosts
        handle = base64.b64encode(
            json.dumps(handle).encode("utf-8", errors="ignore")
        ).decode("utf-8", errors="ignore")

        # launch the server
        self._graphlearn_instance_processes[object_id] = []
        for pod_index, pod in enumerate(self._pod_name_list):
            container = GRAPHLEARN_CONTAINER_NAME
            sub_cmd = f"python3 -m gscoordinator.launch_graphlearn {handle} {config} {pod_index}"
            cmd = f"kubectl -n {self._namespace} exec -it -c {container} {pod} -- {sub_cmd}"
            # logger.debug("launching learning server: %s", " ".join(cmd))
            proc = subprocess.Popen(
                shlex.split(cmd),
                stdout=subprocess.PIPE,
                stderr=subprocess.STDOUT,
                encoding="utf-8",
                errors="replace",
                universal_newlines=True,
                bufsize=1,
            )
            stdout_watcher = PipeWatcher(
                proc.stdout,
                sys.stdout,
                drop=True,
                suppressed=(not logger.isEnabledFor(logging.DEBUG)),
            )
            setattr(proc, "stdout_watcher", stdout_watcher)
            self._graphlearn_instance_processes[object_id].append(proc)

        # Create Service
        self._create_graphlearn_service(object_id)
        # update the port usage record
        self._graphlearn_start_port += len(pod_name_list)
        # parse the service hosts and ports
        return self._engine_cluster.get_graphlearn_service_endpoint(
            self._api_client, object_id, pod_host_ip_list
        )

    def _distribute_graphlearn_torch_process(
        self, pod_name_list, pod_ip_list, object_id, handle, config
    ):
        # allocate service for ports
        # prepare arguments
        handle = json.loads(
            base64.b64decode(handle.encode("utf-8", errors="ignore")).decode(
                "utf-8", errors="ignore"
            )
        )

        ports = self._engine_cluster.get_graphlearn_torch_ports(
            self._graphlearn_torch_start_port
        )
        handle["master_addr"] = pod_ip_list[0]
        handle["server_client_master_port"] = ports[0]
        server_list = [f"{pod_ip_list[0]}:{ports[i]}" for i in range(4)]

        server_handle = base64.b64encode(
            json.dumps(handle).encode("utf-8", errors="ignore")
        ).decode("utf-8", errors="ignore")

        # launch the server
        self._graphlearn_torch_instance_processes[object_id] = []
        for pod_index, pod in enumerate(self._pod_name_list):
            container = GRAPHLEARN_TORCH_CONTAINER_NAME
            sub_cmd = f"env PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python \
                python3 -m gscoordinator.launch_graphlearn_torch \
                {server_handle} {config} {pod_index}"
            cmd = f"kubectl -n {self._namespace} exec -it -c {container} {pod} -- {sub_cmd}"
            # logger.debug("launching learning server: %s", " ".join(cmd))
            proc = subprocess.Popen(
                shlex.split(cmd),
                stdout=subprocess.PIPE,
                stderr=subprocess.STDOUT,
                encoding="utf-8",
                errors="replace",
                universal_newlines=True,
                bufsize=1,
            )
            stdout_watcher = PipeWatcher(
                proc.stdout,
                sys.stdout,
                suppressed=(not logger.isEnabledFor(logging.DEBUG)),
            )

            time.sleep(5)
            logger.debug("process status: %s", proc.poll())

            setattr(proc, "stdout_watcher", stdout_watcher)
            self._graphlearn_torch_instance_processes[object_id].append(proc)

        # Create Service
        self._create_graphlearn_torch_service(object_id)
        # update the port usage record
        self._graphlearn_torch_start_port += len(pod_name_list)

        # prepare config map for client scripts
        config_map = kube_client.V1ConfigMap(
            api_version="v1",
            kind="ConfigMap",
            metadata=kube_client.V1ObjectMeta(
                name="graphlearn-torch-client-config",
                namespace=self._namespace,
            ),
            data=handle["client_content"],
        )
        self._core_api.create_namespaced_config_map(self._namespace, config_map)

        # prepare the manifest
        pytorch_job_manifest = replace_string_in_dict(
            handle["manifest"], "${MASTER_ADDR}", handle["master_addr"]
        )
        # parse the pytorchjob yaml
        group = pytorch_job_manifest["apiVersion"].split("/")[0]
        version = pytorch_job_manifest["apiVersion"].split("/")[1]
        name = pytorch_job_manifest["metadata"]["name"]
        namespace = pytorch_job_manifest["metadata"]["namespace"]
        plural = "pytorchjobs"  # This is PyTorchJob CRD's plural name

        try:
            # create PyTorchJob
            api_response = self._pytorchjobs_api.create_namespaced_custom_object(
                group=group,
                version=version,
                namespace=namespace,
                plural=plural,
                body=pytorch_job_manifest,
            )
            logger.info(api_response)
        except K8SApiException as e:
            logger.info(
                f"Exception when calling CustomObjectsApi->create_namespaced_custom_object: {e}"
            )
            raise

        # set Watcher to monitor the state of the PyTorchJob
        w = kube_watch.Watch()

        # loop checking the state of PyTorchJob
        for event in w.stream(
            self._pytorchjobs_api.list_namespaced_custom_object,
            group,
            version,
            namespace,
            plural,
        ):
            pytorch_job = event["object"]
            if pytorch_job.get("metadata", {}).get("name") == name:
                status = pytorch_job.get("status", {})
                if status:  # check status existence
                    conditions = status.get("conditions", [])
                    for condition in conditions:
                        if (
                            condition.get("type") == "Succeeded"
                            and condition.get("status") == "True"
                        ):
                            logger.info(f"PyTorchJob {name} has succeeded!")
                            w.stop()
                            break
                        elif (
                            condition.get("type") == "Failed"
                            and condition.get("status") == "True"
                        ):
                            logger.info(f"PyTorchJob {name} has failed!")
                            w.stop()
                            break

        self.close_graphlearn_torch_client(group, name, version, plural, namespace)

        return server_list

    def create_learning_instance(self, object_id, handle, config, learning_backend):
        if learning_backend == message_pb2.LearningBackend.GRAPHLEARN:
            pod_name_list, _, pod_host_ip_list = self._allocate_graphlearn_engine(
                object_id
            )
            if not pod_name_list or not pod_host_ip_list:
                raise RuntimeError("Failed to allocate learning engine")
            return self._distribute_graphlearn_process(
                pod_name_list, pod_host_ip_list, object_id, handle, config
            )
        elif learning_backend == message_pb2.LearningBackend.GRAPHLEARN_TORCH:
            (
                pod_name_list,
                pod_ip_list,
                pod_host_ip_list,
            ) = self._allocate_graphlearn_torch_engine(object_id)
            if not pod_name_list or not pod_host_ip_list:
                raise RuntimeError("Failed to allocate learning engine")
            return self._distribute_graphlearn_torch_process(
                pod_name_list, pod_ip_list, object_id, handle, config
            )
        else:
            raise ValueError("invalid learning backend")

    def close_learning_instance(self, object_id, learning_backend):
        if learning_backend == message_pb2.LearningBackend.GRAPHLEARN:
            self.close_graphlearn_instance(object_id)
        elif learning_backend == message_pb2.LearningBackend.GRAPHLEARN_TORCH:
            self.close_graphlearn_torch_instance(object_id)
        else:
            raise ValueError("invalid learning backend")

    def close_graphlearn_instance(self, object_id):
        if self._deploy_mode == "lazy":
            self.delete_graphlearn_engine(object_id)
            return
        if object_id not in self._graphlearn_instance_processes:
            return
        # delete the services
        target = self._graphlearn_services[object_id]
        try:
            delete_kubernetes_object(
                api_client=self._api_client,
                target=target,
                wait=self._waiting_for_delete,
                timeout_seconds=self._timeout_seconds,
            )
        except Exception:  # pylint: disable=broad-except
            logger.exception("Failed to delete graphlearn service for %s", object_id)

        # terminate the process
        for proc in self._graphlearn_instance_processes[object_id]:
            try:
                proc.terminate()
                proc.wait(1)
            except Exception:  # pylint: disable=broad-except
                logger.exception("Failed to terminate graphlearn server")
        self._graphlearn_instance_processes[object_id].clear()

    def close_graphlearn_torch_instance(self, object_id):
        if self._deploy_mode == "lazy":
            self.delete_graphlearn_torch_engine(object_id)
            return
        if object_id not in self._graphlearn_torch_instance_processes:
            return
        # delete the services
        target = self._graphlearn_torch_services[object_id]
        try:
            delete_kubernetes_object(
                api_client=self._api_client,
                target=target,
                wait=self._waiting_for_delete,
                timeout_seconds=self._timeout_seconds,
            )
        except Exception:  # pylint: disable=broad-except
            logger.exception(
                "Failed to delete graphlearn torch service for %s", object_id
            )

        # terminate the process
        for proc in self._graphlearn_torch_instance_processes[object_id]:
            try:
                proc.terminate()
                proc.wait(1)
            except Exception:  # pylint: disable=broad-except
                logger.exception("Failed to terminate graphlearn torch server")
        self._graphlearn_torch_instance_processes[object_id].clear()

    def close_graphlearn_torch_client(self, group, name, version, plural, namespace):
        # clear PyTorchJob
        logger.info(f"Deleting PyTorchJob {name}...")
        try:
            response = self._pytorchjobs_api.delete_namespaced_custom_object(
                group=group,
                name=name,
                version=version,
                plural=plural,
                namespace=namespace,
                body=kube_client.V1DeleteOptions(
                    propagation_policy="Foreground",
                ),
            )
            logger.info(f"PyTorchJob {name} deleted. Response: {response}")
        except K8SApiException as e:
            logger.info(
                f"Exception when calling CustomObjectsApi->delete_namespaced_custom_object: {e}"
            )

        try:
            response = self._core_api.delete_namespaced_config_map(
                name="graphlearn-torch-client-config",
                namespace=self._namespace,
            )
            logger.info(
                f"ConfigMap graphlearn-torch-client-config deleted. Response: {response}"
            )
        except K8SApiException as e:
            logger.info(
                f"Exception when calling CoreV1Api->delete_namespaced_config_map: {e}"
            )


class ResourceManager(object):
    """A class to manager kubernetes object.

    Object managed by this class will dump meta info to disk file
    for pod preStop lifecycle management.

    meta info format:

        {
            "my-deployment": "Deployment",
            "my-service": "Service"
        }
    """

    _resource_object_path = os.path.join(get_tempdir(), "resource_object")  # fixed

    def __init__(self, api_client):
        self._api_client = api_client
        self._resource_object = []
        self._meta_info = {}

    def append(self, target):
        self._resource_object.append(target)
        self._meta_info.update(
            get_kubernetes_object_info(api_client=self._api_client, target=target)
        )
        self.dump()

    def extend(self, targets):
        self._resource_object.extend(targets)
        for target in targets:
            self._meta_info.update(
                get_kubernetes_object_info(api_client=self._api_client, target=target)
            )
        self.dump()

    def clear(self):
        self._resource_object.clear()
        self._meta_info.clear()

    def __str__(self):
        return str(self._meta_info)

    def __getitem__(self, index):
        return self._resource_object[index]

    def dump(self, extra_resource=None):
        """Dump meta info to disk file.
        Args:
            extra_resource (dict): extra resource to dump.
                A typical scenario is dumping meta info of namespace
                for coordinator dangling processing.
        """
        if extra_resource is not None:
            rlt = copy.deepcopy(self._meta_info)
            rlt.update(extra_resource)
        else:
            rlt = self._meta_info
        with open(self._resource_object_path, "w") as f:
            json.dump(rlt, f)