Run Whisper on a Cloud GPU

Transcribe audio files on a dedicated GPU using faster-whisper. An RTX 4090 transcribes 1 hour of audio in ~2 minutes. No rate limits, no data leaving your instance.

1. Deploy an instance

runcrate instances create --name whisper --gpu RTX4090
runcrate instances status whisper

2. Install faster-whisper

runcrate ssh whisper -- "pip install faster-whisper"

3. Upload audio files

runcrate cp ./audio/ whisper:/workspace/audio/

4. Transcribe a single file

runcrate ssh whisper -- "python -c \"
from faster_whisper import WhisperModel
model = WhisperModel('large-v3', device='cuda', compute_type='float16')
segments, info = model.transcribe('/workspace/audio/interview.mp3', beam_size=5)
print(f'Language: {info.language} (prob: {info.language_probability:.2f})')
for s in segments:
    print(f'[{s.start:.1f}s -> {s.end:.1f}s] {s.text}')
\""

5. Batch transcribe a directory

# transcribe_batch.py
import json, os
from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
audio_dir, out_dir = "/workspace/audio", "/workspace/transcripts"
os.makedirs(out_dir, exist_ok=True)

for f in sorted(os.listdir(audio_dir)):
    if not f.endswith((".mp3", ".wav", ".m4a", ".flac")):
        continue
    print(f"Transcribing {f}...")
    segments, info = model.transcribe(os.path.join(audio_dir, f), beam_size=5)
    result = {"file": f, "language": info.language,
              "segments": [{"start": s.start, "end": s.end, "text": s.text} for s in segments]}
    with open(os.path.join(out_dir, f.rsplit(".", 1)[0] + ".json"), "w") as out:
        json.dump(result, out, indent=2)
print("Done.")

runcrate cp ./transcribe_batch.py whisper:/workspace/transcribe_batch.py
runcrate ssh whisper -- "cd /workspace && python transcribe_batch.py"

6. Download results

runcrate cp whisper:/workspace/transcripts/ ./transcripts/

Model sizes

Model	VRAM	Speed (1hr audio)
tiny / base	~1 GB	~10-15 sec
small	~2 GB	~25 sec
medium	~5 GB	~50 sec
large-v3	~10 GB	~2 min

Tips

Use large-v3 for production accuracy. Use small for fast iteration.
faster-whisper supports word_timestamps=True for word-level alignment.
The model downloads on first use (~3 GB for large-v3). Attach a volume to cache it.

Cleanup

runcrate instances delete whisper

​1. Deploy an instance

​2. Install faster-whisper

​3. Upload audio files

​4. Transcribe a single file

​5. Batch transcribe a directory

​6. Download results

​Model sizes

​Tips

​Cleanup

1. Deploy an instance

2. Install faster-whisper

3. Upload audio files

4. Transcribe a single file

5. Batch transcribe a directory

6. Download results

Model sizes

Tips

Cleanup