Add Qwen3-TTS model download to build process

Fix TTS engine failure due to missing tokenizer by downloading Qwen3-TTS models during Docker build: - Download model.safetensors, config.json, tokenizer.json, and tokenizer_config.json from Qwen/Qwen3-TTS-12Hz-0.6B-Base - Download speech tokenizer from Qwen/Qwen3-TTS-Tokenizer-12Hz - Add QWEN3_TTS_DIR environment variable to Dockerfile - Script supports both env var override and default path Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
author: soryu <soryu@soryu.co> 2026-01-28 12:51:46 +0000
committer: soryu <soryu@soryu.co> 2026-01-28 12:51:46 +0000
commit: 6026e169e8cbc892ead3643608e20b03605ecd93 (patch)
tree: f8850b565ac37187ac6d79a307ea92f33c43db43
parent: d0436686f047f1d82c30da26cf83f9eca6727292 (diff)
download: soryu-6026e169e8cbc892ead3643608e20b03605ecd93.tar.gz
soryu-6026e169e8cbc892ead3643608e20b03605ecd93.zip
2 files changed, 37 insertions, 0 deletions
diff --git a/Dockerfile b/Dockerfile
index e6c3d8b..a7d093c 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -19,6 +19,7 @@ RUN chmod +x /app/download-models.sh
 ARG MODEL_BASE_URL
 ENV MODEL_BASE_URL=${MODEL_BASE_URL}
 ENV MODELS_DIR=/models
+ENV QWEN3_TTS_DIR=/app/models/qwen3-tts
 RUN /app/download-models.sh echo "Models downloaded"
 
 # Copy workspace files
@@ -40,6 +41,7 @@ ENV RUST_LOG=makima=info,tower_http=info
 ENV PARAKEET_MODEL_DIR=/app/models/parakeet-tdt-0.6b-v3
 ENV PARAKEET_EOU_DIR=/app/models/realtime_eou_120m-v1-onnx
 ENV SORTFORMER_MODEL_PATH=/app/models/diarization/diar_streaming_sortformer_4spk-v2.1.onnx
+ENV QWEN3_TTS_DIR=/app/models/qwen3-tts
 
 EXPOSE 8080
 
diff --git a/makima/sh/download-models.sh b/makima/sh/download-models.sh
index 0381e15..1aefad8 100755
--- a/makima/sh/download-models.sh
+++ b/makima/sh/download-models.sh
@@ -114,5 +114,40 @@ else
     echo "All models downloaded successfully"
 fi
 
+# Download Qwen3-TTS models (for TTS functionality)
+QWEN3_TTS_DIR="${QWEN3_TTS_DIR:-/app/models/qwen3-tts}"
+
+download_qwen3_tts() {
+    if [ -d "$QWEN3_TTS_DIR" ] && [ -f "$QWEN3_TTS_DIR/model.safetensors" ] && [ -f "$QWEN3_TTS_DIR/speech_tokenizer.safetensors" ]; then
+        echo "Qwen3-TTS models already exist, skipping..."
+        return 0
+    fi
+
+    echo "Downloading Qwen3-TTS models..."
+    mkdir -p "$QWEN3_TTS_DIR"
+
+    # Download base TTS model files from Qwen/Qwen3-TTS-12Hz-0.6B-Base
+    echo "Downloading Qwen3-TTS-12Hz-0.6B-Base..."
+    huggingface-cli download Qwen/Qwen3-TTS-12Hz-0.6B-Base \
+        model.safetensors \
+        config.json \
+        tokenizer.json \
+        tokenizer_config.json \
+        --local-dir "$QWEN3_TTS_DIR"
+
+    # Download speech tokenizer from Qwen/Qwen3-TTS-Tokenizer-12Hz
+    echo "Downloading Qwen3-TTS-Tokenizer-12Hz..."
+    local tmpdir=$(mktemp -d)
+    huggingface-cli download Qwen/Qwen3-TTS-Tokenizer-12Hz \
+        model.safetensors \
+        --local-dir "$tmpdir"
+    mv "$tmpdir/model.safetensors" "$QWEN3_TTS_DIR/speech_tokenizer.safetensors"
+    rm -rf "$tmpdir"
+
+    echo "Qwen3-TTS models downloaded successfully"
+}
+
+download_qwen3_tts
+
 # Execute the main command
 exec "$@"
author	soryu <soryu@soryu.co>	2026-01-28 12:51:46 +0000
committer	soryu <soryu@soryu.co>	2026-01-28 12:51:46 +0000
commit	6026e169e8cbc892ead3643608e20b03605ecd93 (patch)
tree	f8850b565ac37187ac6d79a307ea92f33c43db43
parent	d0436686f047f1d82c30da26cf83f9eca6727292 (diff)
download	soryu-6026e169e8cbc892ead3643608e20b03605ecd93.tar.gz soryu-6026e169e8cbc892ead3643608e20b03605ecd93.zip