Skip to content

vllm.entrypoints.serve.sleep.api_router ¶

logger `module-attribute` ¶

logger = init_logger(__name__)

router `module-attribute` ¶

router = APIRouter()

attach_router ¶

attach_router(app: FastAPI)

Source code in vllm/entrypoints/serve/sleep/api_router.py

def attach_router(app: FastAPI):
    if not envs.VLLM_SERVER_DEV_MODE:
        return
    logger.warning(
        "SECURITY WARNING: Development endpoints are enabled! "
        "This should NOT be used in production!"
    )

    app.include_router(router)

engine_client ¶

engine_client(request: Request) -> EngineClient

Source code in vllm/entrypoints/serve/sleep/api_router.py

def engine_client(request: Request) -> EngineClient:
    return request.app.state.engine_client

is_sleeping `async` ¶

is_sleeping(raw_request: Request)

Source code in vllm/entrypoints/serve/sleep/api_router.py

@router.get("/is_sleeping")
async def is_sleeping(raw_request: Request):
    logger.info("check whether the engine is sleeping")
    is_sleeping = await engine_client(raw_request).is_sleeping()
    return JSONResponse(content={"is_sleeping": is_sleeping})

sleep `async` ¶

sleep(raw_request: Request)

Source code in vllm/entrypoints/serve/sleep/api_router.py

@router.post("/sleep")
async def sleep(raw_request: Request):
    # get POST params
    level = raw_request.query_params.get("level", "1")
    await engine_client(raw_request).sleep(int(level))
    # FIXME: in v0 with frontend multiprocessing, the sleep command
    # is sent but does not finish yet when we return a response.
    return Response(status_code=200)

wake_up `async` ¶

wake_up(raw_request: Request)

Source code in vllm/entrypoints/serve/sleep/api_router.py

@router.post("/wake_up")
async def wake_up(raw_request: Request):
    tags = raw_request.query_params.getlist("tags")
    if tags == []:
        # set to None to wake up all tags if no tags are provided
        tags = None
    logger.info("wake up the engine with tags: %s", tags)
    await engine_client(raw_request).wake_up(tags)
    # FIXME: in v0 with frontend multiprocessing, the wake-up command
    # is sent but does not finish yet when we return a response.
    return Response(status_code=200)