3 mei 2026
De strategische architectuur van lokale AI-systemen: Geoptimaliseerde hardwareselectie en de onderschatte kracht van geïntegreerde graphics
De explosieve groei van lokale Large Language Models (LLM’s) en de opkomst van autonome AI-agenten hebben een fundamentele verschuiving teweeggebracht in de manier waarop professionals hun computerhardware selecteren. Waar voorheen de nadruk lag op traditionele rekenkracht voor grafisch ontwerp of softwareontwikkeling, draait het huidige paradigma om de maximalisatie van het videogeheugen (VRAM), geheugenbandbreedte en de strategische verdeling van inferentietaken over heterogene computerbronnen. De keuze voor een AI-werkstation is niet langer een eenvoudige afweging tussen een Apple Mac Studio of een zelfbouwsysteem; het is een complexe oefening in systeemarchitectuur waarbij elk component, inclusief de vaak genegeerde geïntegreerde grafische processor (iGPU), een specifieke rol speelt in het ontsluiten van maximale prestaties en contextcapaciteit.
Het hardwarelandschap: NVIDIA 50-serie, Mac Studio en Strix Halo
Bij het ontwerpen van een modern AI-systeem in 2025 staan drie primaire architecturen centraal. De introductie van de NVIDIA GeForce RTX 50-serie, gebaseerd op de Blackwell-architectuur, heeft de lat voor consumentenhardware aanzienlijk verhoogd. Het vlaggenschip, de RTX 5090, beschikt over 32 GB aan supersnel GDDR7-geheugen met een bandbreedte van maar liefst 1,79 TB/s. Dit is een verbetering van ongeveer 78% ten opzichte van de bandbreedte van de RTX 4090, wat cruciaal is omdat de snelheid van token-generatie bij LLM’s vrijwel lineair schaalt met de geheugenbandbreedte. Voor modellen die voorheen net niet op een 24 GB-kaart pasten zonder zware kwantisering, biedt deze 32 GB een cruciale ademruimte.
De Apple Mac Studio, met name de Ultra-varianten, behoudt echter zijn unieke positie door de Unified Memory Architecture (UMA). In een M3 Ultra- of de verwachte M4 Ultra-configuratie kan het systeem beschikken over maximaal 512 GB aan geheugen dat direct toegankelijk is voor zowel de CPU als de GPU.1 Hoewel de RTX 5090 superieur is in pure rekenkracht en bandbreedte voor inferentie van kleinere modellen, blijft de Mac Studio de enige realistische optie voor het draaien van gigantische modellen (zoals 400B+ parameters) op een enkel consumentensysteem.2
AMD biedt met de Strix Halo-architectuur (Ryzen AI Max) een krachtig alternatief in de mid-range markt. Met maximaal 128 GB geünificeerd LPDDR5X-geheugen en een bandbreedte van ongeveer 273 GB/s, biedt dit platform een efficiënte oplossing voor gebruikers die een balans zoeken tussen geheugencapaciteit en prijs.
| Systeemarchitectuur | Geheugen (Max) | Bandbreedte (Theoretisch) | Primaire AI-Workload |
|---|---|---|---|
| NVIDIA RTX 5090 | 32 GB GDDR7 | 1,79 TB/s | Ultrasnelle inferentie, FP8-precisie |
| Apple M3/M4 Ultra | 512 GB Unified | 800+ GB/s | Extreem grote modellen (400B+), Lange context 1 |
| AMD Ryzen AI Max+ | 128 GB Unified | 273 GB/s | Mid-range agents, Efficiënte RAG-pijplijnen 3 |
| NVIDIA RTX 5080 | 16 GB GDDR7 | 960 GB/s | 8B-14B modellen, Vision-modellen |
| Intel Core Ultra (iGPU) | Gedeeld RAM | 50-120 GB/s | Embeddings, Hulpmodellen, Preprocessing 4 |
De strategische rol van de geïntegreerde graphics (iGPU)
Zelfs met de komst van krachtige 32 GB kaarten zoals de RTX 5090, blijft de rol van de iGPU cruciaal in een professionele AI-omgeving. Het fundamentele probleem is dat de honger naar contextruimte en grotere modellen sneller groeit dan de VRAM-capaciteit op grafische kaarten.6 Een complexe AI-agent of een RAG-pijplijn (Retrieval-Augmented Generation) vereist vaak dat er meerdere modellen parallel actief zijn: een groot redeneermodel en een kleiner model voor tekst-embeddings.5
Het laden van een embeddings-model op een RTX 5090 verbruikt weliswaar relatief weinig geheugen (vaak minder dan 1 GB), maar het blokkeert kostbare CUDA-kernen en de bijbehorende contextruimte die essentieel zijn voor het hoofdmodel.5 Door deze embeddings-taken te delegeren naar de iGPU van bijvoorbeeld een Intel Core Ultra 200S of een AMD Ryzen 9000-serie, blijft de volledige VRAM en rekenkracht van de dGPU gereserveerd voor de zware inferentie-taken.
Moderne iGPU’s, zoals de Intel Arc-architectuur (Xe2 ‘Battlemage’) in de Lunar Lake-chips, bieden bovendien een aanzienlijke energie-efficiëntie. In scenario’s waar een agent continu data indexeert, kan de iGPU deze taak tot drie keer zuiniger uitvoeren dan de CPU, terwijl de CPU vrij blijft voor de orchestratielogica.6
De wiskunde van geheugenbesparing en contextuitbreiding
Het vrijmaken van geheugen op de primaire GPU heeft een directe impact op de maximale contextlengte. Het geheugenverbruik van een LLM bestaat uit de vaste modelgewichten en de variabel schalende Key-Value (KV) cache.7 Bij zeer lange contexten (zoals de 128K-limiet van Llama 3.1 of de 1M+ van Llama 4) kan de KV-cache zelfs de omvang van de modelgewichten overtreffen.8
De formule voor het KV-cache verbruik per token is:
Waarbij het aantal lagen is, het aantal aandachtskoppen, de dimensie per kop en de bytes per element.9 Voor een 70B-model in FP16 voegt de KV-cache bij 128.000 tokens ongeveer 40 GB toe aan de geheugenbehoefte.8 In een systeem met een RTX 5090 kan de besparing van 1 tot 2 GB door het verplaatsen van hulpmodellen naar de iGPU betekenen dat een gebruiker duizenden extra tokens aan context kan toevoegen voordat het systeem gedwongen wordt tot trage CPU-offloading.9
Technische Deep Dive: kwantisering en bandbreedte-voordelen
Kwantisering blijft de belangrijkste methode om modellen passend te maken. Met de introductie van de NVIDIA 50-serie is er verbeterde hardware-ondersteuning voor FP4 en FP8 precisie, wat de inferentie-snelheid op de RTX 5090 spectaculair verhoogt. Waar de RTX 4090 vaak werd beperkt door 24 GB VRAM bij het draaien van een 70B-model in 4-bit (wat ongeveer 35-40 GB aan gewichten vereist), stelt de 32 GB van de RTX 5090 gebruikers in staat om dergelijke modellen met minder agressieve kwantisering of een grotere context te draaien.
| Kwantiseringsniveau | Geheugenbesparing | Kwaliteitsverlies | Aanbevolen Gebruik |
|---|---|---|---|
| FP16 (Baseline) | 0% | 0% | Training, Maximaal resultaat 5 |
| FP8 (Blackwell-native) | ~50% | Verwaarloosbaar | Productie-inferentie op RTX 5090 |
| Q4_K_M (4-bit) | ~72% | 3-5% | Standaard lokale inferentie 5 |
| IQ2_XS (2-bit) | ~82% | 10-20% | Grote modellen op budget hardware 10 |
Heterogene computing in de praktijk
In een geoptimaliseerd AI-workstation wordt de workload verdeeld op basis van de sterktes van elk component. De dGPU (RTX 5090) blinkt uit in rekenintensieve matrix-matrix vermenigvuldigingen (compute-bound), terwijl de iGPU en NPU vaak efficiënter zijn voor matrix-vector operaties en geheugengebonden taken zoals tekst-embeddings.6
Softwareframeworks zoals llama.cpp en ipex-llm maken het nu mogelijk om deze heterogene kracht te benutten.11 De OpenVINO-backend in llama.cpp stelt gebruikers in staat om specifieke lagen of modellen direct naar de Intel iGPU te sturen.15 Zo kan een gebruiker een “altijd aan” agent (zoals een DeepSeek-R1 Distill 7B) permanent op de iGPU laten draaien, terwijl de RTX 5090 in een slaapstand blijft of wordt ingezet voor zware batch-verwerkingen.
Software-implementatie en systeemoptimalisatie
Om de heterogene kracht van een AI-werkstation met een NVIDIA 50-serie kaart en een moderne CPU te ontsluiten, is een juiste configuratie essentieel. Voor Intel-systemen biedt de combinatie van de OpenVINO-toolkit en IPEX-LLM de mogelijkheid om modellen op zowel de dGPU als de iGPU te draaien met minimale latency.
In een RAG-omgeving via LangChain of LlamaIndex kan de gebruiker de device=“gpu” parameter gebruiken om het embedding-model expliciet naar de geïntegreerde graphics te dwingen.12 Voor Windows-gebruikers is het daarnaast van belang om in het BIOS de “UMA buffer size” van de iGPU handmatig te verhogen (vaak tot 16 GB of meer bij systemen met 64 GB+ RAM) om te voorkomen dat inferentie-taken vastlopen door een gebrek aan toegewezen geheugen.13
Benchmarkanalyse: RTX 5090 vs iGPU-efficiëntie
De prestaties van de RTX 5090 zijn ongekend: in benchmarks zoals de Procyon AI XL (FP16) test is de 5090 ongeveer 40% sneller dan de 4090. Voor token-generatie op Llama 3.1 8B bereikt de 5090 snelheden tot wel 3.500 tokens per seconde in FP16, wat de kaart ideaal maakt voor multi-user API-servers.
Tegelijkertijd tonen benchmarks aan dat de iGPU van een Intel Core Ultra 5 125H tot 30% sneller is dan inferentie op de CPU-kernen, terwijl het stroomverbruik aanzienlijk lager ligt.3 Dit onderstreept het voordeel: de dGPU voor snelheid en grote modellen, de iGPU voor efficiëntie en achtergrondtaken.
Conclusie: de strategie van de AI-Builder
Het bouwen van een AI-machine vereist een holistische blik. De komst van de NVIDIA RTX 50-serie met 32 GB VRAM verschuift de grenzen van wat lokaal mogelijk is, maar heft de noodzaak voor slimme architectuur niet op. Juist door de kracht van de nieuwe dGPU’s te combineren met de vaak onbenutte capaciteit van de iGPU, ontstaat een systeem dat niet alleen sneller is, maar ook intelligenter omgaat met zijn bronnen.
Of u nu kiest voor de enorme geheugenpoel van een Mac Studio of de rauwe rekenkracht van een RTX 5090 zelfbouwsysteem, de sleutel tot succes ligt in het begrijpen dat elke transistor in uw systeem een rol heeft. Door embeddings en kleine agenten naar de iGPU te verhuizen, geeft u uw primaire GPU de ruimte om te excelleren waar het er echt toe doet: diepe redenering en gigantische contextvensters.
Referenties
Footnotes
-
Unpopular Opinion: I don’t care about t/s. I need 256GB VRAM. (Mac Studio M3 Ultra vs. Waiting) - Reddit, accessed May 3, 2026, https://www.reddit.com/r/LocalLLM/comments/1p3wgj3/unpopular_opinion_i_dont_care_about_ts_i_need/ ↩ ↩2
-
I agree and disagree. Many of the best models are open source, just *too big* to… | Hacker News, accessed May 3, 2026, https://news.ycombinator.com/item?id=44841760 ↩
-
DGX Spark vs Mac Studio & Halo: Benchmarks & Alternatives, accessed May 3, 2026, https://aimultiple.com/dgx-spark-alternatives ↩
-
Pushing the Envelope of LLM Inference on AI-PC and Intel GPUs - arXiv, accessed May 3, 2026, https://arxiv.org/html/2508.06753v2 ↩
-
VRAM Calculator for Local Open Source LLMs - Accurate Memory Requirements 2025, accessed May 3, 2026, https://localllm.in/blog/interactive-vram-calculator ↩ ↩2 ↩3 ↩4
-
Performance Analysis of Intel iGPUs in VLM and LLM applications …, accessed May 3, 2026, https://nikolasent.github.io/hardware/deeplearning/2025/02/09/iGPU-Benchmark-VLM.html ↩ ↩2
-
Context Kills VRAM: How to Run LLMs on consumer GPUs | by Lyx | Medium, accessed May 3, 2026, https://medium.com/@lyx_62906/context-kills-vram-how-to-run-llms-on-consumer-gpus-a785e8035632 ↩
-
GPU Memory Requirements for LLMs: VRAM Calculator | Spheron Blog, accessed May 3, 2026, https://www.spheron.network/blog/gpu-memory-requirements-llm/ ↩ ↩2
-
Context Kills VRAM (Running LLMs on a Local GPU) | by Lyx - Medium, accessed May 3, 2026, https://medium.com/@lyx_62906/context-kills-vram-running-llms-on-a-local-gpu-ee500dc9390f ↩
-
GitHub - intel/ipex-llm: Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, DeepSeek, Mixtral, Gemma, Phi, MiniCPM, Qwen-VL, MiniCPM-V, etc.) on Intel XPU (e.g., local PC with iGPU and NPU, discrete GPU such as Arc, Flex and Max); seamlessly integrate with llama.cpp, Ollama, HuggingFace, LangChain, LlamaIndex, vLLM, DeepSpeed, Axolotl, etc., accessed May 3, 2026, https://github.com/intel/ipex-llm ↩
-
OpenVINO™ Lands in llama.cpp: Run GGUF Models on Intel CPU …, accessed May 3, 2026, https://medium.com/openvino-toolkit/openvino-lands-in-llama-cpp-run-gguf-models-on-intel-cpu-gpu-and-npu-d6fca1d633e8 ↩
-
Local Embeddings with OpenVINO | LlamaIndex OSS Documentation, accessed May 3, 2026, https://developers.llamaindex.ai/python/framework/integrations/embeddings/openvino/ ↩
-
Quickstart Guide: Ollama With GPU Support (No ROCM Needed) - Framework Community, accessed May 3, 2026, https://community.frame.work/t/quickstart-guide-ollama-with-gpu-support-no-rocm-needed/79186 ↩
Deel dit artikel