Vergleichen Sie die reale Leistung unserer GPU-Flotte für KI-Workloads. Alle Benchmarks werden automatisch von laufenden Servern erfasst.
Laden der Benchmark-Daten...
Vergleichen Sie diese GPUs einzeln:
Jede GPU in unserer Mietflotte durchläuft kontinuierliche Leistungstests, um Ihnen transparente, realitätsnahe Daten zu liefern. Im Gegensatz zu synthetischen Benchmarks, die in kontrollierten Laborumgebungen laufen, stammen unsere Ergebnisse von tatsächlichen Produktionsservern, die reale Arbeitslasten verarbeiten. Jeder Server meldet automatisch Leistungsmetriken mehrmals während seines Lebenszyklus, wodurch ein umfassender Datensatz entsteht, der echte betriebliche Fähigkeiten widerspiegelt und nicht idealisierte Szenarien.
Unsere Infrastruktur umfasst mehrere GPU-Generationen, um unterschiedliche Anforderungen an Arbeitslasten und Budgets zu erfüllen. Die RTX Pro 6000 Blackwell stellt unsere Flaggschiff-Klasse mit massiver VRAM-Kapazität dar, ideal für das Training großer Modelle und das Ausführen der größten LLMs ohne Quantisierung. Die RTX 5090 bietet außergewöhnliche Single-GPU-Leistung mit modernster Ada Lovelace-Architektur und zeichnet sich bei Inferenzaufgaben aus, bei denen rohe Geschwindigkeit am wichtigsten ist.
Für Produktions-AI-Workloads A100 bleibt der Goldstandard im Rechenzentrum mit Tensor-Kernen, optimiert für Transformer-Architekturen und exzellente Multi-Instance-GPU (MIG)-Unterstützung. Der RTX 4090 und RTX 4090 Pro bieten herausragende Preis-Leistungs-Verhältnisse und bewältigen die meisten LLM-Inferenz- und Bildgenerierungsaufgaben mit beeindruckender Effizienz. Unsere RTX 3090 bietet einen kostengünstigen Zugang zu leistungsfähiger Hardware, während V100 und RTX A4000 Karten bedienen leichtere Arbeitslasten und Entwicklungsumgebungen, bei denen die Kostenoptimierung im Vordergrund steht.
Wir bewerten die Leistung von Sprachmodellen anhand von zwei unterschiedlichen Frameworks, die reale Nutzungsmuster widerspiegeln:
vLLM High-Throughput-Benchmarks Messen Sie die Leistung von GPUs unter Produktionslast mit mehreren gleichzeitigen Anfragen. Durch die Verwendung von FP8-Quantisierung auf neueren Architekturen (NVIDIA Ada GPUs wie 40-Serie und neuer) oder bfloat16 auf älteren GPUs für optimale Effizienz verarbeitet vLLM 16 bis 64 parallele Anfragen gleichzeitig (abhängig von der GPU-VRAM-Kapazität). Ihr Server bleibt vollständig privat – hoher Durchsatz bedeutet einfach, dass er mehrere Anfragen gleichzeitig bearbeitet, ideal für Chatbots in Produktionsqualität, die viele Benutzer bedienen, Multi-Agent-KI-Systeme, in denen Agenten parallel kommunizieren, oder Batch-Verarbeitungspipelines. GPUs mit höherem VRAM können mehr gleichzeitige Anfragen verarbeiten, was die RTX Pro 6000 und A100 in diesen Benchmarks besonders stark macht.
Ollama Single-User-Benchmarks messen die reine Inferenzgeschwindigkeit für eine Anfrage nach der anderen – das Erlebnis, das Sie beim Ausführen eines lokalen Chatbots oder eines persönlichen KI-Assistenten erhalten. Diese Ergebnisse zeigen die schnellstmögliche Antwortzeit ohne Anfrage-Warteschlange oder Batch-Overhead. Wenn Sie einen persönlichen Coding-Assistenten erstellen, eine private Dokumentenanalyse durchführen oder vor der Skalierung prototypisieren, zeigen Ihnen die Ollama-Benchmarks genau, wie reaktionsschnell Ihre GPU sein wird.
Unsere Testsuite umfasst Modelle, die von effizienten 8B-Parameter-Varianten wie Llama 3.1 und Qwen3 bis hin zu anspruchsvollen 70B+ Modellen inklusive DeepSeek-R1 und GPT-OSS. Die Geschwindigkeit der Token-Generierung (Token pro Sekunde) bestimmt direkt, wie schnell Ihre Chatbots antworten, wie schnell Sie Dokumente verarbeiten können und wie gut die gesamte Benutzererfahrung in konversationellen KI-Anwendungen ist.
Diffusionsmodell-Benchmarks decken das gesamte Spektrum von leichtgewichtig ab Stable Diffusion 1.5 zu ressourcenintensiven Flux und SD3.5-groß Architekturen. Wir messen sowohl den Durchsatz (Bilder pro Minute) für Batch-Verarbeitungsszenarien als auch die Latenz (Sekunden pro Bild) für interaktive Anwendungen. SDXL-Turbo Ergebnisse sind besonders relevant für die Echtzeitgenerierung, während Standard- SDXL und Flux Die Benchmarks spiegeln qualitätsorientierte Produktions-Workloads wider.
Vision Benchmarks bewerten multimodale und Dokumentverarbeitungsfähigkeiten unter hohe parallele Last (16–64 parallele Anfragen) um den realistischen Produktionsdurchsatz zu messen. Wir verwenden reale Testdaten, um Genauigkeit zu gewährleisten:
Tests für Vision-Language-Modelle: LLaVA 1.5 7B (7 Milliarden Parameter multimodales Modell) verarbeitet ein Foto einer älteren Frau auf einem Blumenfeld mit einem Golden Retriever. Das Modell muss die Szene beschreiben, Objekte identifizieren und Fragen zum Bildinhalt beantworten. Bei Verwendung einer Batchgröße von 32 (32 parallele Bildanalyseanfragen) messen wir Bilder pro Minute - entscheidend für Anwendungen wie Produktfotoanalyse, Inhaltsmoderation, visuelle Frage-Antwort-Systeme oder automatisierte Bildtagging in großem Maßstab.
OCR-Dokumentenverarbeitung: TrOCR-base (transformer-basiertes OCR-Modell mit 334 Millionen Parametern) scannt historischen Text aus Shakespeares Hamlet – authentische Buchseiten aus vergangenen Jahrhunderten mit zeitgenössischer Typografie und gealterter Papierstruktur. Um den Seiten pro Minute-Durchsatz genau zu messen, replizieren wir diese gescannten Seiten, um einen 2.750-seitigen Testkorpus zu erstellen, der reale Dokumentdigitalisierungs-Workloads simuliert. Mit einer Batchgröße von 16 (16 Seiten werden gleichzeitig verarbeitet) messen wir. Seiten pro Minute für automatisierte Dokumentenverarbeitung, Rechnungsprüfung, Digitalisierung historischer Archive und groß angelegte Textextraktions-Workflows. Höherer Durchsatz bedeutet, dass Ihre GPU mehr gleichzeitige Benutzer verarbeiten oder größere Dokumenten-Batches schneller bearbeiten kann.
Die GPU-Leistung allein erzählt nicht die ganze Geschichte. Unsere Benchmarks umfassen CPU-Rechenleistung (Einzelkern- und Mehrkernoperationen pro Sekunde), die sich auf die Datenvorverarbeitung, Tokenisierung und Modellladezeiten auswirken. NVMe-Speichergeschwindigkeiten bestimmen, wie schnell Sie große Datensätze laden, Checkpoint-Modelle nutzen und zwischen verschiedenen KI-Projekten wechseln können. Diese Faktoren werden zu kritischen Engpässen, wenn Sie mit großem Training arbeiten oder mehrere gleichzeitige Benutzer bedienen.
Datenqualität: Alle Metriken stellen durchschnittliche Werte aus mehreren Testläufen über verschiedene Zeiten und Systemzustände dar. Die Leistung kann aufgrund von thermischen Bedingungen, gleichzeitigen Arbeitslasten und Treiberversionen schwanken. Unsere historische Datenakkumulation sorgt für zunehmend genaue Durchschnittswerte im Laufe der Zeit.
Als KI-Entwickler selbst standen wir vor einem frustrierenden Problem: Wie vergleicht man GPUs tatsächlich für reale KI-Workloads? NVIDIA veröffentlicht theoretische TFLOPS-Werte, aber diese synthetischen Zahlen sagen Ihnen nichts darüber, wie Ihre LLMs laufen oder wie schnell Ihre Bildgenerierung sein wird. Eine GPU mit 100 TFLOPS kann aufgrund der Speicherbandbreite, der Tensor Core-Auslastung oder der Softwareoptimierung eine GPU mit 150 TFLOPS bei tatsächlichen Inferenzaufgaben übertreffen.
Bei der Wahl zwischen einer RTX 4090, A100 oder RTX 5090 für Ihre Produktions-API ist Ihnen die theoretische Spitzenleistung unter perfekten Laborbedingungen egal. Sie müssen wissen: Welche GPU liefert mir schnellere Inferenz für Llama 3.1 70B? Welche verarbeitet SDXL-Bilder effizienter? Welche bewältigt Vision Workloads besser?
Wir haben erstellt TAIFlops Die (Trooper AI FLOPS) Punktzahl soll genau dieses Problem lösen. Es ist eine einzelne Zahl, die Leistung von KI in der realen Welt bezogen auf die Arbeitslasten, die für Entwickler tatsächlich wichtig sind:
Im Gegensatz zu synthetischen Benchmarks stammen TAIFlops aus echte Produktionsserver in unserer Flotte mit realen KI-Workloads. Jeder Wert wird über Hunderte von Benchmark-Durchläufen von realer Hardware gemittelt, die echte Kunden bedienen. Wenn eine GPU beispielsweise 300 TAIFlops erreicht, ist sie in realen KI-Workloads etwa 3x schneller als die RTX 3090.
Leistungswerte für KI in der Praxis. RTX 3090 = 100 als Basislinie. Höher ist besser.
TAIFlops verwendet einen mathematisch strengen Ansatz, der Ihnen genaue, vergleichbare Leistungswerte liefern soll. Hier ist die vollständige Methodik:
Wir verwenden die RTX 3090 24GB als unsere Basislinie bei genau 100 TAIFlopsWarum die RTX 3090? Sie ist weit verbreitet, gut verstanden und repräsentiert eine solide Leistung im mittleren Bereich der KI. Sie ist der "1x Geschwindigkeit"-Referenzpunkt – alles andere skaliert relativ dazu.
Jede GPU in unserer Mietflotte führt automatisch umfassende Benchmarks mehrmals während ihres Lebenszyklus aus. Wir erfassen:
Jeder Benchmark wird mehr als 10 Mal ausgeführt, um statistische Zuverlässigkeit zu gewährleisten. Wir speichern jedes Ergebnis in unserer Datenbank und erstellen so im Laufe der Zeit einen umfassenden Leistungsdatensatz.
Für jeden Benchmark, bei dem sowohl die Test-GPU als auch die RTX 3090-Basislinie Daten vorliegen, berechnen wir ein Performance-Verhältnis:
ratio = test_gpu_value / baseline_gpu_value
Dieses Verhältnis zeigt, wie viel schneller (oder langsamer) die Test-GPU im Vergleich zu unserer Basislinie arbeitet. Ein Verhältnis von 1,50 bedeutet, dass die GPU 50 % schneller als RTX 3090 ist, während 0,80 20 % langsamer bedeutet.
Wichtig: Wir behandeln "kleiner ist besser"-Metriken (wie Sekunden/Bild) indem wir sie invertieren - wenn eine GPU 2,61 s/Bild benötigt und die RTX 3090 5,40 s/Bild, berechnen wir das Verhältnis als 5,40 / 2,61 = 2,07x schneller.
Hier geschieht die Magie. Wir verwenden keinen einfachen Durchschnitt, da dies statistisch falsch wäre – eine GPU, die bei einem Benchmark doppelt so schnell ist wie eine andere, ist nicht wirklich „1,5-mal schneller insgesamt“. Stattdessen verwenden wir geometrisches Mittel:
geometric_mean = (ratio₁ × ratio₂ × ratio₃ × ... × ratioₙ)^(1/n)
Der geometrische Mittelwert berücksichtigt korrekt multiplikative Beziehungen. Wenn eine GPU in allen Benchmarks konstant 1,5-mal schneller ist, beträgt ihr geometrischer Mittelwert 1,5. Wenn sie in der Hälfte der Benchmarks doppelt so schnell und in der anderen Hälfte einmal so schnell ist, zeigt der geometrische Mittelwert korrekt ~1,41 (nicht 1,5 wie bei einem einfachen Durchschnitt).
Schließlich skalieren wir den geometrischen Mittelwert auf unsere 100-Punkte-Basislinie:
TAIFlops = geometric_mean × 100
Wenn der geometrische Mittelwert der GPU über alle KI-Benchmarks 2,02x höher ist als der der RTX 3090, erreicht sie 202 TAIFlops. Wenn eine andere GPU einen Mittelwert von 0,55x erreicht, erzielt sie 55 TAIFlops.
TAIFlops bietet Ihnen sofortige Leistungsvergleiche:
Beim Vergleich zweier GPUs teilen Sie deren TAIFlops: Eine 238 TAIFlops GPU (RTX 4090 Pro) ist 238/207 = 1,15x schneller als eine 207 TAIFlops GPU (RTX 5090) über alle KI-Workloads hinweg.
Jedes Benchmark-Ergebnis, das in die TAIFlops-Berechnungen einfließt, ist in der obigen Tabelle sichtbar. Sie können die genauen Token/s, Bilder/min und Seiten/min-Werte für jede GPU und jedes Modell einsehen. Diese Transparenz bedeutet, dass Sie:
Fazit: TAIFlops liefert Ihnen eine einzelne, vertrauenswürdige Zahl, die auf echten Produktionsdaten basiert. Wenn Sie bei uns einen GPU mieten, wissen Sie genau, welche Leistung Sie erhalten - keine Überraschungen, keine übertriebenen Marketingzahlen, sondern genaue, realitätsnahe KI-Leistungswerte.