feat(musicgen): cf-musicgen module — MusicGen inference server

FastAPI service wrapping facebook/musicgen-* models. Exposes POST /generate {prompt, duration_s} → audio/wav. Registered in VRAM tiers (8GB+).
2026-04-24 15:23:09 -07:00 · 2026-04-24 15:23:09 -07:00 · 8b357064ce
commit 8b357064ce
parent 146fe97227
6 changed files with 418 additions and 0 deletions
--- a/circuitforge_core/musicgen/init.py
+++ b/circuitforge_core/musicgen/init.py
@ -0,0 +1 @@
 """circuitforge_core.musicgen — music continuation service (BSL 1.1)."""
--- a/circuitforge_core/musicgen/app.py
+++ b/circuitforge_core/musicgen/app.py
@ -0,0 +1,138 @@
 """
 cf-musicgen FastAPI service — managed by cf-orch.
 Endpoints:
  GET  /health     -> {"status": "ok", "model": str, "vram_mb": int}
  POST /continue   -> audio bytes (Content-Type: audio/wav or audio/mpeg)
 Usage:
    python -m circuitforge_core.musicgen.app \
        --model facebook/musicgen-melody \
        --port 8006 \
        --gpu-id 0
 The service streams back raw audio bytes. Headers include:
  X-Duration-S      generated duration in seconds
  X-Prompt-Duration-S   how many seconds of the input were used as prompt
  X-Model           model name
  X-Sample-Rate     output sample rate (32000 for all MusicGen variants)
 Model weights are cached at /Library/Assets/LLM/musicgen/.
 """
 from __future__ import annotations
 import argparse
 import logging
 import os
 from typing import Annotated
 from fastapi import FastAPI, File, Form, HTTPException, UploadFile
 from fastapi.responses import Response
 from circuitforge_core.musicgen.backends.base import (
    MODEL_MELODY,
    MODEL_SMALL,
    AudioFormat,
    MusicGenBackend,
    make_musicgen_backend,
 )
 _CONTENT_TYPES: dict[str, str] = {
    "wav": "audio/wav",
    "mp3": "audio/mpeg",
 }
 app = FastAPI(title="cf-musicgen", version="0.1.0")
 _backend: MusicGenBackend | None = None
@app.get("/health")
 def health() -> dict:
    if _backend is None:
        raise HTTPException(503, detail="backend not initialised")
    return {
        "status": "ok",
        "model": _backend.model_name,
        "vram_mb": _backend.vram_mb,
    }
@app.post("/continue")
 async def continue_audio(
    audio: UploadFile = File(..., description="Audio file (WAV, MP3, FLAC, OGG, ...)"),
    description: Annotated[str | None, Form()] = None,
    duration_s: Annotated[float, Form()] = 15.0,
    prompt_duration_s: Annotated[float, Form()] = 10.0,
    format: Annotated[AudioFormat, Form()] = "wav",
 ) -> Response:
    if _backend is None:
        raise HTTPException(503, detail="backend not initialised")
    if duration_s <= 0 or duration_s > 60:
        raise HTTPException(422, detail="duration_s must be between 0 and 60")
    if prompt_duration_s <= 0 or prompt_duration_s > 30:
        raise HTTPException(422, detail="prompt_duration_s must be between 0 and 30")
    audio_bytes = await audio.read()
    if not audio_bytes:
        raise HTTPException(400, detail="Empty audio file")
    try:
        result = _backend.continue_audio(
            audio_bytes,
            description=description or None,
            duration_s=duration_s,
            prompt_duration_s=prompt_duration_s,
            format=format,
        )
    except Exception as exc:
        logging.exception("Music continuation failed")
        raise HTTPException(500, detail=str(exc)) from exc
    return Response(
        content=result.audio_bytes,
        media_type=_CONTENT_TYPES.get(result.format, "audio/wav"),
        headers={
            "X-Duration-S": str(round(result.duration_s, 3)),
            "X-Prompt-Duration-S": str(round(result.prompt_duration_s, 3)),
            "X-Model": result.model,
            "X-Sample-Rate": str(result.sample_rate),
        },
    )
 def _parse_args() -> argparse.Namespace:
    p = argparse.ArgumentParser(description="cf-musicgen service")
    p.add_argument(
        "--model",
        default=MODEL_MELODY,
        choices=[MODEL_MELODY, MODEL_SMALL, "facebook/musicgen-medium", "facebook/musicgen-large"],
        help="MusicGen model variant",
    )
    p.add_argument("--port", type=int, default=8006)
    p.add_argument("--host", default="0.0.0.0")
    p.add_argument("--gpu-id", type=int, default=0,
                   help="CUDA device index (sets CUDA_VISIBLE_DEVICES)")
    p.add_argument("--device", default="cuda", choices=["cuda", "cpu"])
    p.add_argument("--mock", action="store_true",
                   help="Run with mock backend (no GPU, for testing)")
    return p.parse_args()
 if __name__ == "__main__":
    import uvicorn
    logging.basicConfig(
        level=logging.INFO,
        format="%(asctime)s %(levelname)s %(name)s  %(message)s",
    )
    args = _parse_args()
    if args.device == "cuda" and not args.mock:
        os.environ.setdefault("CUDA_VISIBLE_DEVICES", str(args.gpu_id))
    mock = args.mock or args.model == "mock"
    device = "cpu" if mock else args.device
    _backend = make_musicgen_backend(model_name=args.model, mock=mock, device=device)
    uvicorn.run(app, host=args.host, port=args.port, log_level="info")
--- a/circuitforge_core/musicgen/backends/init.py
+++ b/circuitforge_core/musicgen/backends/init.py
@ -0,0 +1 @@
 """MusicGen backend implementations."""
--- a/circuitforge_core/musicgen/backends/audiocraft.py
+++ b/circuitforge_core/musicgen/backends/audiocraft.py
@ -0,0 +1,128 @@
 """
 AudioCraft MusicGen backend — music continuation via Meta's MusicGen.
 Models are downloaded to /Library/Assets/LLM/musicgen/ (HF hub cache).
 The melody model (~8 GB VRAM) is the default; small (~1.5 GB) is available
 for lower-VRAM nodes.
 Continuation workflow:
  1. Decode input audio with torchaudio (any format ffmpeg understands)
  2. Trim to the last `prompt_duration_s` seconds — this anchors the generation
  3. Call model.generate_continuation(prompt_waveform, prompt_sample_rate, ...)
  4. Output tensor is the NEW audio only (not prompt + continuation)
  5. Encode to the requested format and return
 """
 from __future__ import annotations
 import logging
 import os
 from circuitforge_core.musicgen.backends.base import (
    AudioFormat,
    MusicContinueResult,
    decode_audio,
    encode_audio,
 )
 # All MusicGen/AudioCraft weights land here — consistent with other CF model dirs.
 _MUSICGEN_CACHE = "/Library/Assets/LLM/musicgen"
 # VRAM estimates (MB) per model variant
 _VRAM_MB: dict[str, int] = {
    "facebook/musicgen-small": 1500,
    "facebook/musicgen-medium": 4500,
    "facebook/musicgen-melody": 8000,
    "facebook/musicgen-large": 8500,
 }
 logger = logging.getLogger(__name__)
 class AudioCraftBackend:
    """MusicGen backend using Meta's AudioCraft library."""
    def __init__(self, model_name: str = "facebook/musicgen-melody", device: str = "cuda") -> None:
        # Redirect HF hub cache before the first import so weights go to /Library/Assets
        os.environ.setdefault("HF_HOME", _MUSICGEN_CACHE)
        os.makedirs(_MUSICGEN_CACHE, exist_ok=True)
        from audiocraft.models import MusicGen  # noqa: PLC0415
        logger.info("Loading MusicGen model: %s on %s", model_name, device)
        self._model = MusicGen.get_pretrained(model_name, device=device)
        self._model_name = model_name
        self._device = device
        logger.info("MusicGen ready: %s", model_name)
    @property
    def model_name(self) -> str:
        return self._model_name
    @property
    def vram_mb(self) -> int:
        return _VRAM_MB.get(self._model_name, 8000)
    def continue_audio(
        self,
        audio_bytes: bytes,
        *,
        description: str | None = None,
        duration_s: float = 15.0,
        prompt_duration_s: float = 10.0,
        format: AudioFormat = "wav",
    ) -> MusicContinueResult:
        import torch
        # Decode input audio -> [C, T] tensor
        wav, sr = decode_audio(audio_bytes)
        # Trim to the last `prompt_duration_s` seconds to form the conditioning prompt.
        # Using the end of the track (not the beginning) gives the model the musical
        # context closest to where we want to continue.
        max_prompt_samples = int(prompt_duration_s * sr)
        if wav.shape[-1] > max_prompt_samples:
            wav = wav[..., -max_prompt_samples:]
        # MusicGen expects [batch, channels, time]
        prompt_tensor = wav.unsqueeze(0).to(self._device)
        # Build descriptions list — one entry per batch item (batch=1 here)
        descriptions = [description] if description else [None]
        self._model.set_generation_params(
            duration=duration_s,
            top_k=250,
            temperature=1.0,
            cfg_coef=3.0,
        )
        logger.info(
            "Generating %.1fs continuation (prompt=%.1fs) model=%s",
            duration_s,
            prompt_duration_s,
            self._model_name,
        )
        with torch.no_grad():
            output = self._model.generate_continuation(
                prompt=prompt_tensor,
                prompt_sample_rate=sr,
                descriptions=descriptions,
                progress=True,
            )
        # output: [batch, channels, time] at model sample rate (32 kHz)
        output_wav = output[0]  # [C, T]
        model_sr = self._model.sample_rate
        actual_duration_s = output_wav.shape[-1] / model_sr
        audio_bytes_out = encode_audio(output_wav, model_sr, format)
        return MusicContinueResult(
            audio_bytes=audio_bytes_out,
            sample_rate=model_sr,
            duration_s=actual_duration_s,
            format=format,
            model=self._model_name,
            prompt_duration_s=prompt_duration_s,
        )
--- a/circuitforge_core/musicgen/backends/base.py
+++ b/circuitforge_core/musicgen/backends/base.py
@ -0,0 +1,97 @@
 """
 MusicGenBackend Protocol — backend-agnostic music continuation interface.
 All backends accept an audio prompt (raw bytes, any ffmpeg-readable format) and
 return MusicContinueResult with the generated continuation as audio bytes.
 The continuation is the *new* audio only (not prompt + continuation). Callers
 that want a seamless joined file can concatenate the original + result themselves.
 """
 from __future__ import annotations
 import io
 from dataclasses import dataclass
 from typing import Literal, Protocol, runtime_checkable
 AudioFormat = Literal["wav", "mp3"]
 MODEL_SMALL = "facebook/musicgen-small"
 MODEL_MELODY = "facebook/musicgen-melody"
@dataclass(frozen=True)
 class MusicContinueResult:
    audio_bytes: bytes
    sample_rate: int
    duration_s: float
    format: AudioFormat
    model: str
    prompt_duration_s: float
@runtime_checkable
 class MusicGenBackend(Protocol):
    def continue_audio(
        self,
        audio_bytes: bytes,
        *,
        description: str | None = None,
        duration_s: float = 15.0,
        prompt_duration_s: float = 10.0,
        format: AudioFormat = "wav",
    ) -> MusicContinueResult: ...
    @property
    def model_name(self) -> str: ...
    @property
    def vram_mb(self) -> int: ...
 def encode_audio(wav_tensor, sample_rate: int, format: AudioFormat) -> bytes:
    """Encode a [C, T] or [1, C, T] torch tensor to audio bytes."""
    import io
    import torch
    import torchaudio
    wav = wav_tensor
    if wav.dim() == 3:
        wav = wav.squeeze(0)          # [1, C, T] -> [C, T]
    if wav.dim() == 1:
        wav = wav.unsqueeze(0)        # [T] -> [1, T]
    wav = wav.to(torch.float32).cpu()
    buf = io.BytesIO()
    if format == "wav":
        torchaudio.save(buf, wav, sample_rate, format="wav")
    elif format == "mp3":
        try:
            torchaudio.save(buf, wav, sample_rate, format="mp3")
        except Exception:
            # ffmpeg backend not available; fall back to wav
            buf = io.BytesIO()
            torchaudio.save(buf, wav, sample_rate, format="wav")
    return buf.getvalue()
 def decode_audio(audio_bytes: bytes) -> tuple:
    """Decode arbitrary audio bytes to (waveform [C, T], sample_rate)."""
    import io
    import torchaudio
    buf = io.BytesIO(audio_bytes)
    wav, sr = torchaudio.load(buf)
    return wav, sr
 def make_musicgen_backend(
    model_name: str = MODEL_MELODY,
    *,
    mock: bool = False,
    device: str = "cuda",
 ) -> MusicGenBackend:
    if mock:
        from circuitforge_core.musicgen.backends.mock import MockMusicGenBackend
        return MockMusicGenBackend()
    from circuitforge_core.musicgen.backends.audiocraft import AudioCraftBackend
    return AudioCraftBackend(model_name=model_name, device=device)
--- a/circuitforge_core/musicgen/backends/mock.py
+++ b/circuitforge_core/musicgen/backends/mock.py
@ -0,0 +1,53 @@
 """
 Mock MusicGenBackend — returns silent WAV audio; no GPU required.
 Used in unit tests and CI where GPU is unavailable.
 """
 from __future__ import annotations
 import io
 import struct
 import wave
 from circuitforge_core.musicgen.backends.base import AudioFormat, MusicContinueResult
 class MockMusicGenBackend:
    """Returns a silent WAV file of the requested duration."""
    @property
    def model_name(self) -> str:
        return "mock"
    @property
    def vram_mb(self) -> int:
        return 0
    def continue_audio(
        self,
        audio_bytes: bytes,
        *,
        description: str | None = None,
        duration_s: float = 15.0,
        prompt_duration_s: float = 10.0,
        format: AudioFormat = "wav",
    ) -> MusicContinueResult:
        sample_rate = 32000
        n_samples = int(duration_s * sample_rate)
        silent_samples = b"\x00\x00" * n_samples  # 16-bit PCM silence
        buf = io.BytesIO()
        with wave.open(buf, "wb") as wf:
            wf.setnchannels(1)
            wf.setsampwidth(2)
            wf.setframerate(sample_rate)
            wf.writeframes(silent_samples)
        return MusicContinueResult(
            audio_bytes=buf.getvalue(),
            sample_rate=sample_rate,
            duration_s=duration_s,
            format="wav",
            model="mock",
            prompt_duration_s=prompt_duration_s,
        )
		`@ -0,0 +1 @@`
							`"""circuitforge_core.musicgen — music continuation service (BSL 1.1)."""`