feat(tts): add cf-tts module with ChatterboxTurbo backend and FastAPI service

- TTSBackend Protocol + TTSResult dataclass (audio_bytes, sample_rate, duration_s, format) - MockTTSBackend: silent WAV clip, no GPU required, Protocol assert at import - ChatterboxTurboBackend: ResembleAI chatterbox-turbo via chatterbox-tts package - from_local() loads model from snapshot dir - audio_prompt voice cloning via temp file - _encode_audio helper: OGG (default), WAV, MP3 via torchaudio - circuitforge_core.tts module-level synthesize() singleton (CF_TTS_MODEL / CF_TTS_MOCK) - FastAPI app: GET /health, POST /synthesize (multipart form, returns audio bytes) - default format: ogg (smaller than WAV, no patents) - X-Duration-S / X-Model / X-Sample-Rate response headers - CLI: --model --port --host --gpu-id --mock - pyproject.toml: tts-chatterbox + tts-service extras - Sample rate: 24000 Hz (S3GEN_SR from chatterbox internals)
2026-04-08 23:15:05 -07:00 · 2026-04-08 23:15:05 -07:00 · 3075e5d3da
commit 3075e5d3da
parent 67493048e2
7 changed files with 426 additions and 0 deletions
--- a/circuitforge_core/tts/init.py
+++ b/circuitforge_core/tts/init.py
@ -0,0 +1,87 @@
+"""
+circuitforge_core.tts — Text-to-speech service module.
+
+Quick start (mock mode — no GPU or model required):
+
+    import os; os.environ["CF_TTS_MOCK"] = "1"
+    from circuitforge_core.tts import synthesize
+
+    result = synthesize("Hello world")
+    open("out.ogg", "wb").write(result.audio_bytes)
+
+Real inference (chatterbox-turbo):
+
+    export CF_TTS_MODEL=/Library/Assets/LLM/chatterbox/hub/models--ResembleAI--chatterbox-turbo/snapshots/<hash>
+    from circuitforge_core.tts import synthesize
+
+cf-orch service profile:
+
+    service_type: cf-tts
+    max_mb:       768
+    max_concurrent: 1
+    shared:       true
+    managed:
+      exec:       python -m circuitforge_core.tts.app
+      args:       --model <path> --port {port} --gpu-id {gpu_id}
+      port:       8005
+      health:     /health
+"""
+from __future__ import annotations
+
+import os
+
+from circuitforge_core.tts.backends.base import (
+    AudioFormat,
+    TTSBackend,
+    TTSResult,
+    make_tts_backend,
+)
+from circuitforge_core.tts.backends.mock import MockTTSBackend
+
+_backend: TTSBackend | None = None
+
+
+def _get_backend() -> TTSBackend:
+    global _backend
+    if _backend is None:
+        model_path = os.environ.get("CF_TTS_MODEL", "mock")
+        mock = model_path == "mock" or os.environ.get("CF_TTS_MOCK", "") == "1"
+        _backend = make_tts_backend(model_path, mock=mock)
+    return _backend
+
+
+def synthesize(
+    text: str,
+    *,
+    exaggeration: float = 0.5,
+    cfg_weight: float = 0.5,
+    temperature: float = 0.8,
+    audio_prompt: bytes | None = None,
+    format: AudioFormat = "ogg",
+) -> TTSResult:
+    """Synthesize speech from text using the process-level backend."""
+    return _get_backend().synthesize(
+        text,
+        exaggeration=exaggeration,
+        cfg_weight=cfg_weight,
+        temperature=temperature,
+        audio_prompt=audio_prompt,
+        format=format,
+    )
+
+
+def reset_backend() -> None:
+    """Reset the process-level singleton. Test teardown only."""
+    global _backend
+    _backend = None
+
+
+__all__ = [
+    "AudioFormat",
+    "TTSBackend",
+    "TTSResult",
+    "MockTTSBackend",
+    "make_tts_backend",
+    "synthesize",
+    "reset_backend",
+]
--- a/circuitforge_core/tts/app.py
+++ b/circuitforge_core/tts/app.py
@ -0,0 +1,103 @@
+"""
+cf-tts FastAPI service — managed by cf-orch.
+
+Endpoints:
+  GET  /health       → {"status": "ok", "model": str, "vram_mb": int}
+  POST /synthesize   → audio bytes (Content-Type: audio/ogg or audio/wav or audio/mpeg)
+
+Usage:
+    python -m circuitforge_core.tts.app \
+        --model /Library/Assets/LLM/chatterbox/hub/models--ResembleAI--chatterbox-turbo/snapshots/<hash> \
+        --port 8005 \
+        --gpu-id 0
+"""
+from __future__ import annotations
+
+import argparse
+import os
+from typing import Annotated, Literal
+
+from fastapi import FastAPI, Form, HTTPException, UploadFile
+from fastapi.responses import Response
+
+from circuitforge_core.tts.backends.base import AudioFormat, TTSBackend, make_tts_backend
+
+_CONTENT_TYPES: dict[str, str] = {
+    "ogg": "audio/ogg",
+    "wav": "audio/wav",
+    "mp3": "audio/mpeg",
+}
+
+app = FastAPI(title="cf-tts")
+_backend: TTSBackend | None = None
+
+
+@app.get("/health")
+def health() -> dict:
+    if _backend is None:
+        raise HTTPException(503, detail="backend not initialised")
+    return {"status": "ok", "model": _backend.model_name, "vram_mb": _backend.vram_mb}
+
+
+@app.post("/synthesize")
+async def synthesize(
+    text: Annotated[str, Form()],
+    format: Annotated[AudioFormat, Form()] = "ogg",
+    exaggeration: Annotated[float, Form()] = 0.5,
+    cfg_weight: Annotated[float, Form()] = 0.5,
+    temperature: Annotated[float, Form()] = 0.8,
+    audio_prompt: UploadFile | None = None,
+) -> Response:
+    if _backend is None:
+        raise HTTPException(503, detail="backend not initialised")
+    if not text.strip():
+        raise HTTPException(422, detail="text must not be empty")
+
+    prompt_bytes: bytes | None = None
+    if audio_prompt is not None:
+        prompt_bytes = await audio_prompt.read()
+
+    result = _backend.synthesize(
+        text,
+        exaggeration=exaggeration,
+        cfg_weight=cfg_weight,
+        temperature=temperature,
+        audio_prompt=prompt_bytes,
+        format=format,
+    )
+    return Response(
+        content=result.audio_bytes,
+        media_type=_CONTENT_TYPES.get(result.format, "audio/ogg"),
+        headers={
+            "X-Duration-S": str(round(result.duration_s, 3)),
+            "X-Model": result.model,
+            "X-Sample-Rate": str(result.sample_rate),
+        },
+    )
+
+
+def _parse_args() -> argparse.Namespace:
+    p = argparse.ArgumentParser(description="cf-tts service")
+    p.add_argument("--model", required=True)
+    p.add_argument("--port", type=int, default=8005)
+    p.add_argument("--host", default="0.0.0.0")
+    p.add_argument("--gpu-id", type=int, default=0)
+    p.add_argument("--mock", action="store_true")
+    return p.parse_args()
+
+
+if __name__ == "__main__":
+    import uvicorn
+
+    args = _parse_args()
+
+    os.environ["CUDA_VISIBLE_DEVICES"] = str(args.gpu_id)
+
+    mock = args.mock or args.model == "mock"
+    device = "cpu" if mock else "cuda"
+
+    global _backend
+    _backend = make_tts_backend(args.model, mock=mock, device=device)
+    print(f"cf-tts backend ready: {_backend.model_name} ({_backend.vram_mb} MB)")
+
+    uvicorn.run(app, host=args.host, port=args.port)
--- a/circuitforge_core/tts/backends/init.py
+++ b/circuitforge_core/tts/backends/init.py
@ -0,0 +1,4 @@
+from .base import AudioFormat, TTSBackend, TTSResult, make_tts_backend
+from .mock import MockTTSBackend
+
+__all__ = ["AudioFormat", "TTSBackend", "TTSResult", "make_tts_backend", "MockTTSBackend"]
--- a/circuitforge_core/tts/backends/base.py
+++ b/circuitforge_core/tts/backends/base.py
@ -0,0 +1,84 @@
+"""
+TTSBackend Protocol — backend-agnostic TTS interface.
+
+All backends return TTSResult with audio bytes in the requested format.
+Supported formats: ogg (default, smallest), wav (uncompressed, always works), mp3.
+"""
+from __future__ import annotations
+
+import io
+from dataclasses import dataclass, field
+from typing import Literal, Protocol, runtime_checkable
+
+AudioFormat = Literal["ogg", "wav", "mp3"]
+
+
+@dataclass(frozen=True)
+class TTSResult:
+    audio_bytes: bytes
+    sample_rate: int
+    duration_s: float
+    format: AudioFormat = "ogg"
+    model: str = ""
+
+
+@runtime_checkable
+class TTSBackend(Protocol):
+    def synthesize(
+        self,
+        text: str,
+        *,
+        exaggeration: float = 0.5,
+        cfg_weight: float = 0.5,
+        temperature: float = 0.8,
+        audio_prompt: bytes | None = None,
+        format: AudioFormat = "ogg",
+    ) -> TTSResult: ...
+
+    @property
+    def model_name(self) -> str: ...
+
+    @property
+    def vram_mb(self) -> int: ...
+
+
+def _encode_audio(
+    wav_tensor,        # torch.Tensor shape [1, T] or [T]
+    sample_rate: int,
+    format: AudioFormat,
+) -> bytes:
+    """Convert a torch tensor to audio bytes in the requested format."""
+    import torch
+    import torchaudio
+
+    wav = wav_tensor
+    if wav.dim() == 1:
+        wav = wav.unsqueeze(0)
+    wav = wav.to(torch.float32).cpu()
+
+    buf = io.BytesIO()
+    if format == "wav":
+        torchaudio.save(buf, wav, sample_rate, format="wav")
+    elif format == "ogg":
+        torchaudio.save(buf, wav, sample_rate, format="ogg", encoding="vorbis")
+    elif format == "mp3":
+        # torchaudio MP3 encode requires ffmpeg backend; fall back to wav on failure
+        try:
+            torchaudio.save(buf, wav, sample_rate, format="mp3")
+        except Exception:
+            buf = io.BytesIO()
+            torchaudio.save(buf, wav, sample_rate, format="wav")
+    return buf.getvalue()
+
+
+def make_tts_backend(
+    model_path: str,
+    *,
+    mock: bool = False,
+    device: str = "cuda",
+) -> TTSBackend:
+    if mock:
+        from circuitforge_core.tts.backends.mock import MockTTSBackend
+        return MockTTSBackend()
+    from circuitforge_core.tts.backends.chatterbox import ChatterboxTurboBackend
+    return ChatterboxTurboBackend(model_path=model_path, device=device)
--- a/circuitforge_core/tts/backends/chatterbox.py
+++ b/circuitforge_core/tts/backends/chatterbox.py
@ -0,0 +1,82 @@
+"""ChatterboxTurboBackend — ResembleAI chatterbox-turbo TTS via chatterbox-tts package."""
+from __future__ import annotations
+
+import io
+import os
+import tempfile
+
+from circuitforge_core.tts.backends.base import (
+    AudioFormat,
+    TTSBackend,
+    TTSResult,
+    _encode_audio,
+)
+
+_VRAM_MB = 768  # conservative estimate for chatterbox-turbo weights
+
+
+class ChatterboxTurboBackend:
+    def __init__(self, model_path: str, device: str = "cuda") -> None:
+        os.environ.setdefault("CUDA_VISIBLE_DEVICES", "0")
+        from chatterbox.models.s3gen import S3GEN_SR
+        from chatterbox.tts import ChatterboxTTS
+
+        self._sr = S3GEN_SR
+        self._device = device
+        self._model = ChatterboxTTS.from_local(model_path, device=device)
+        self._model_path = model_path
+
+    @property
+    def model_name(self) -> str:
+        return f"chatterbox-turbo@{os.path.basename(self._model_path)}"
+
+    @property
+    def vram_mb(self) -> int:
+        return _VRAM_MB
+
+    def synthesize(
+        self,
+        text: str,
+        *,
+        exaggeration: float = 0.5,
+        cfg_weight: float = 0.5,
+        temperature: float = 0.8,
+        audio_prompt: bytes | None = None,
+        format: AudioFormat = "ogg",
+    ) -> TTSResult:
+        audio_prompt_path: str | None = None
+        _tmp = None
+
+        if audio_prompt is not None:
+            _tmp = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
+            _tmp.write(audio_prompt)
+            _tmp.flush()
+            audio_prompt_path = _tmp.name
+
+        try:
+            wav = self._model.generate(
+                text,
+                exaggeration=exaggeration,
+                cfg_weight=cfg_weight,
+                temperature=temperature,
+                audio_prompt_path=audio_prompt_path,
+            )
+        finally:
+            if _tmp is not None:
+                _tmp.close()
+                os.unlink(_tmp.name)
+
+        duration_s = wav.shape[-1] / self._sr
+        audio_bytes = _encode_audio(wav, self._sr, format)
+        return TTSResult(
+            audio_bytes=audio_bytes,
+            sample_rate=self._sr,
+            duration_s=duration_s,
+            format=format,
+            model=self.model_name,
+        )
+
+
+assert isinstance(
+    ChatterboxTurboBackend.__new__(ChatterboxTurboBackend), TTSBackend
+), "ChatterboxTurboBackend must satisfy TTSBackend Protocol"
--- a/circuitforge_core/tts/backends/mock.py
+++ b/circuitforge_core/tts/backends/mock.py
@ -0,0 +1,56 @@
+"""MockTTSBackend — no GPU, no model required. Returns a silent WAV clip."""
+from __future__ import annotations
+
+import io
+import struct
+import wave
+
+from circuitforge_core.tts.backends.base import AudioFormat, TTSBackend, TTSResult
+
+_SAMPLE_RATE = 24000
+
+
+def _silent_wav(duration_s: float = 0.5, sample_rate: int = _SAMPLE_RATE) -> bytes:
+    num_samples = int(duration_s * sample_rate)
+    buf = io.BytesIO()
+    with wave.open(buf, "wb") as w:
+        w.setnchannels(1)
+        w.setsampwidth(2)
+        w.setframerate(sample_rate)
+        w.writeframes(struct.pack(f"<{num_samples}h", *([0] * num_samples)))
+    return buf.getvalue()
+
+
+class MockTTSBackend:
+    """Minimal TTSBackend implementation for tests and CI."""
+
+    @property
+    def model_name(self) -> str:
+        return "mock-tts"
+
+    @property
+    def vram_mb(self) -> int:
+        return 0
+
+    def synthesize(
+        self,
+        text: str,
+        *,
+        exaggeration: float = 0.5,
+        cfg_weight: float = 0.5,
+        temperature: float = 0.8,
+        audio_prompt: bytes | None = None,
+        format: AudioFormat = "ogg",
+    ) -> TTSResult:
+        duration_s = max(0.1, len(text.split()) * 0.3)
+        audio = _silent_wav(duration_s)
+        return TTSResult(
+            audio_bytes=audio,
+            sample_rate=_SAMPLE_RATE,
+            duration_s=duration_s,
+            format="wav",
+            model=self.model_name,
+        )
+
+
+assert isinstance(MockTTSBackend(), TTSBackend), "MockTTSBackend must satisfy TTSBackend Protocol"
--- a/pyproject.toml
+++ b/pyproject.toml
@ -39,6 +39,16 @@ stt-service = [
    "uvicorn[standard]>=0.29",
    "python-multipart>=0.0.9",
 ]
+tts-chatterbox = [
+    "chatterbox-tts>=0.1",
+    "torchaudio>=2.0",
+]
+tts-service = [
+    "circuitforge-core[tts-chatterbox]",
+    "fastapi>=0.110",
+    "uvicorn[standard]>=0.29",
+    "python-multipart>=0.0.9",
+]
 dev = [
    "circuitforge-core[manage]",
    "pytest>=8.0",