vllm.entrypoints.serve.rlhf.api_router ¶

logger `module-attribute` ¶

logger = init_logger(__name__)

router `module-attribute` ¶

router = APIRouter()

attach_router ¶

attach_router(app: FastAPI)

Source code in vllm/entrypoints/serve/rlhf/api_router.py

def attach_router(app: FastAPI):
    app.include_router(router)

engine_client ¶

engine_client(request: Request) -> EngineClient

Source code in vllm/entrypoints/serve/rlhf/api_router.py

def engine_client(request: Request) -> EngineClient:
    return request.app.state.engine_client

is_paused `async` ¶

is_paused(raw_request: Request) -> JSONResponse

Return the current pause status.

Source code in vllm/entrypoints/serve/rlhf/api_router.py

@router.get("/is_paused")
async def is_paused(raw_request: Request) -> JSONResponse:
    """Return the current pause status."""

    engine = engine_client(raw_request)

    try:
        paused = await engine.is_paused()
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to fetch pause status")
        return JSONResponse(
            content={"error": f"Failed to fetch pause status: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

    return JSONResponse(content={"is_paused": paused})

pause_generation `async` ¶

pause_generation(
    raw_request: Request,
    wait_for_inflight_requests: bool = Query(False),
    clear_cache: bool = Query(True),
) -> JSONResponse

Pause generation requests to allow weight updates.

Parameters:

Name	Type	Description	Default
`wait_for_inflight_requests`	`bool`	When `True` waits for in-flight requests to finish before pausing. When `False` (default), aborts any in-flight requests immediately.	`Query(False)`
`clear_cache`	`bool`	Whether to clear KV/prefix caches after draining.	`Query(True)`

Source code in vllm/entrypoints/serve/rlhf/api_router.py

@router.post("/pause")
async def pause_generation(
    raw_request: Request,
    wait_for_inflight_requests: bool = Query(False),
    clear_cache: bool = Query(True),
) -> JSONResponse:
    """Pause generation requests to allow weight updates.

    Args:
        wait_for_inflight_requests: When ``True`` waits for in-flight
            requests to finish before pausing. When ``False`` (default),
            aborts any in-flight requests immediately.
        clear_cache: Whether to clear KV/prefix caches after draining.
    """

    engine = engine_client(raw_request)

    try:
        await engine.pause_generation(
            wait_for_inflight_requests=wait_for_inflight_requests,
            clear_cache=clear_cache,
        )
        return JSONResponse(
            content={"status": "paused"},
            status_code=HTTPStatus.OK.value,
        )

    except ValueError as err:
        return JSONResponse(
            content={"error": str(err)},
            status_code=HTTPStatus.BAD_REQUEST.value,
        )
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to pause generation")
        return JSONResponse(
            content={"error": f"Failed to pause generation: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

resume_generation `async` ¶

resume_generation(raw_request: Request) -> JSONResponse

Resume generation after a pause.

Source code in vllm/entrypoints/serve/rlhf/api_router.py

@router.post("/resume")
async def resume_generation(raw_request: Request) -> JSONResponse:
    """Resume generation after a pause."""

    engine = engine_client(raw_request)

    try:
        await engine.resume_generation()
        return JSONResponse(
            content={"status": "resumed"},
            status_code=HTTPStatus.OK.value,
        )
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to resume generation")
        return JSONResponse(
            content={"error": f"Failed to resume generation: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

vllm.entrypoints.serve.rlhf.api_router ¶

logger module-attribute ¶

router module-attribute ¶

attach_router ¶

engine_client ¶

is_paused async ¶

pause_generation async ¶

resume_generation async ¶

logger `module-attribute` ¶

router `module-attribute` ¶

is_paused `async` ¶

pause_generation `async` ¶

resume_generation `async` ¶