Como Configurar o NVLink em um Servidor Dedicado
NVLink é o interconector proprietário de alta velocidade entre GPU da NVIDIA que substitui o barramento PCIe como caminho de comunicação principal entre GPU — e em arquiteturas selecionadas, entre GPU e CPU. Oferece largura de banda bidirecional de até 600 GB/s por ligação em hardware de geração Hopper, em comparação com um máximo teórico de aproximadamente 64 GB/s no PCIe 5.0 x16. Para cargas de trabalho como treino de modelos de linguagem de grande escala, simulação de dinâmica molecular ou inferência multi-GPU, esta diferença não é marginal — é arquitetural.
Este guia fornece um percurso completo e de nível de produção para configurar NVLink num servidor dedicado: desde a instalação física do hardware e configuração do stack de drivers até à verificação de topologia, integração na camada de aplicação e monitorização contínua do desempenho.
O Que é Realmente o NVLink — e o Que Não É
NVLink não é simplesmente um cabo mais rápido. É um tecido de interconexão coerente e ponto a ponto construído diretamente no die da GPU. Cada lane NVLink transporta dados em ambas as direções simultaneamente usando um protocolo de sinalização diferencial serializado. Múltiplas lanes são agrupadas numa única ligação lógica, e múltiplas ligações podem conectar o mesmo par de GPU para largura de banda aditiva.
De forma crítica, NVLink suporta acesso à memória com coerência de cache. Isto significa que a GPU A pode ler da memória framebuffer da GPU B sem encaminhar dados através da RAM do host ou do controlador de memória da CPU. Esta propriedade é o que permite o modelo de programação de “memória unificada” em CUDA — um único espaço de endereço virtual que abrange múltiplas memórias físicas de GPU.
O que NVLink não é: não é um substituto para NVSwitch em sistemas de grande escala. Em configurações com mais de duas GPU, a NVIDIA usa NVSwitch — um chip de comutação crossbar dedicado — para fornecer conectividade NVLink all-to-all. O DGX A100, por exemplo, usa seis chips NVSwitch para dar a cada uma das suas oito GPU A100 largura de banda NVLink total para todas as outras GPU simultaneamente. Se estiver a construir uma estação de trabalho com duas GPU ou um servidor com quatro GPU com uma bridge suportada, está a trabalhar com ligações NVLink diretas. Se estiver a trabalhar com oito ou mais GPU, quase certamente está em território NVSwitch.
Largura de Banda NVLink por Geração de GPU
Compreender o limite de largura de banda do seu hardware específico é essencial antes de fazer benchmarking ou planeamento de capacidade.
| Geração de GPU | Versão NVLink | Links por GPU | Largura de Banda Bidirecional Total |
|---|---|---|---|
| Volta (V100) | NVLink 2.0 | 6 | 300 GB/s |
| Turing (RTX 2080 Ti) | NVLink 2.0 | 2 | 100 GB/s |
| Ampere (A100 SXM) | NVLink 3.0 | 12 | 600 GB/s |
| Ampere (RTX 3090) | NVLink 3.0 | 2 | 112.5 GB/s |
| Ada Lovelace (RTX 4090) | NVLink 4.0 | 2 | 112.5 GB/s |
| Hopper (H100 SXM) | NVLink 4.0 | 18 | 900 GB/s |
| Blackwell (B200) | NVLink 5.0 | 18 | 1800 GB/s |
PCIe 4.0 x16 fornece aproximadamente 32 GB/s bidirecional. PCIe 5.0 x16 duplica isso para aproximadamente 64 GB/s. Mesmo uma bridge NVLink de consumidor com duas ligações em cartões RTX 3090 fornece quase o dobro da largura de banda do PCIe 5.0 — e as GPU de data center estão numa categoria completamente diferente.
Pré-requisitos e Compatibilidade de Hardware
Antes de tocar num único ficheiro de configuração, confirme o seguinte:
Compatibilidade de GPU. NVLink não está disponível em todas as GPU NVIDIA. Os cartões de consumidor abaixo do RTX 2080 Ti não o suportam. O RTX 4080 não suporta NVLink apesar de ser um cartão de gama alta — apenas o RTX 4090 o suporta na geração Ada. Verifique sempre na folha de especificações oficial da GPU da NVIDIA para o seu SKU exato.
Bridge NVLink. Para GPU de consumidor e prosumer, é necessário um conector de bridge NVLink físico. Estas bridges são específicas da geração — uma bridge Turing não encaixará num cartão Ampere. As GPU de data center (A100, H100) em formato SXM usam uma placa mezzanine proprietária e não utilizam uma bridge discreta.
Espaçamento da motherboard e slot PCIe. A bridge NVLink requer que as duas GPU estejam em slots PCIe x16 adjacentes com uma distância física específica. A maioria das bridges de consumidor abrange dois slots. Algumas bridges de gama alta abrangem três slots. Verifique o espaçamento dos slots da sua motherboard em relação às dimensões da bridge antes de comprar.
Definições de BIOS. Ative “Above 4G Decoding” e “Resizable BAR” (também chamado Smart Access Memory em plataformas AMD) no UEFI. Alguns sistemas também requerem a desativação do CSM (Compatibility Support Module) para permitir a alocação completa do espaço de endereços PCIe para múltiplas GPU.
Fornecimento de energia. Duas GPU de gama alta sob carga total acelerada por NVLink podem consumir 600W ou mais combinadas. Certifique-se de que a sua PSU tem margem suficiente e que os conectores de energia da GPU estão em rails separados sempre que possível.
Sistema operativo. Este guia cobre Linux (Ubuntu 22.04 LTS / Debian 12) como alvo principal, que é o ambiente padrão para cargas de trabalho de IA e HPC em Servidores Dedicados. Os passos específicos para Windows são indicados onde diferem significativamente.
Passo 1: Instalação Física da GPU e Bridge
Desligue completamente o servidor e desconecte-o da alimentação elétrica. Use uma pulseira antiestática antes de manusear qualquer cartão PCIe.
- Remova as tampas dos slots PCIe para os slots alvo.
- Insira a primeira GPU no slot x16 primário (tipicamente o mais próximo da CPU).
- Insira a segunda GPU no slot x16 adjacente, garantindo que a distância física corresponde à sua bridge NVLink.
- Assente ambos os cartões firmemente até os clipes de retenção PCIe fazerem clique.
- Conecte todos os conectores de energia PCIe necessários da PSU a cada GPU. Não use conectores em cadeia para cartões de alto TDP — use cabos separados da PSU.
- Alinhe a bridge NVLink sobre os pads de conector dourados na extremidade superior de ambas as GPU. Pressione firmemente e uniformemente até assentar completamente. Uma bridge parcialmente assentada fará com que a ligação falhe silenciosamente ou opere com largura reduzida.
- Se as suas GPU suportam bridges NVLink duplas (por exemplo, RTX 2080 Ti tem dois conectores NVLink), instale ambas as bridges para largura de banda máxima.
- Feche o chassis e reconecte a alimentação.
Passo 2: Configuração de BIOS e UEFI
Arranque para a configuração UEFI (tipicamente Del ou F2 no POST).
- Ative Above 4G Decoding.
- Ative Resizable BAR se suportado.
- Defina a velocidade de ligação PCIe para Auto ou Gen4/Gen5 conforme apropriado para o seu hardware.
- Desative CSM se o seu SO arrancar via UEFI.
- Guarde e saia.
Passo 3: Instalar Drivers NVIDIA no Linux
A NVIDIA fornece múltiplos caminhos de instalação. O método de gestor de pacotes é preferido para ambientes de servidor porque se integra com DKMS (Dynamic Kernel Module Support), que reconstrói automaticamente o módulo do kernel após atualizações do kernel.
Primeiro, adicione o repositório de pacotes NVIDIA e instale o driver:
sudo apt-get update
sudo apt-get install -y software-properties-common
sudo add-apt-repository -y ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install -y nvidia-driver-545 nvidia-dkms-545Substitua 545 pela versão mais recente do ramo de produção disponível para a sua GPU. Pode consultar as versões disponíveis com:
apt-cache search nvidia-driver | grep "^nvidia-driver"Após a instalação, reinicie:
sudo rebootApós o reinício, verifique se o driver carregou corretamente:
nvidia-smiA saída deve listar ambas as GPU com a sua versão de driver, compatibilidade de versão CUDA e estado de energia atual. Se apenas uma GPU aparecer, o segundo cartão pode não estar corretamente assentado ou pode ter um problema de fornecimento de energia.
Um problema crítico: Se tiver o Nouveau (o driver NVIDIA de código aberto) carregado, irá entrar em conflito com o driver proprietário. Coloque-o na lista negra explicitamente:
echo -e "blacklist nouveaunoptions nouveau modeset=0" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u
sudo rebootPasso 4: Instalar o CUDA Toolkit
A capacidade total do NVLink — particularmente o acesso à memória peer-to-peer e as comunicações coletivas — requer o CUDA toolkit. Instale-o através do repositório NVIDIA CUDA para a correspondência de versão mais fiável:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y cuda-toolkit-12-4Adicione binários e bibliotecas CUDA ao seu ambiente de shell:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrcVerifique a instalação:
nvcc --versionDeverá ver uma saída identificando a versão do compilador CUDA. Execute também a amostra CUDA deviceQuery se tiver as amostras instaladas — irá enumerar ambas as GPU e reportar flags de capacidade NVLink.
Passo 5: Verificar a Topologia e Estado NVLink
Este é o passo mais importante do ponto de vista de diagnóstico. nvidia-smi fornece vários subcomandos especificamente para inspeção NVLink.
Verifique a matriz de topologia do sistema:
nvidia-smi topo -mA saída é uma matriz que mostra o tipo de interconexão entre cada par de dispositivos no sistema. Procure etiquetas NV# entre as suas GPU, onde # é o número de bridges NVLink que as conectam. Uma etiqueta de NV2 significa que duas bridges NVLink estão ativas. Uma etiqueta de PIX ou PHB significa que as GPU estão a comunicar via PCIe — NVLink não está ativo.
Exemplo de saída para um sistema dual-GPU corretamente configurado:
GPU0 GPU1 CPU Affinity NUMA Affinity
GPU0 X NV2 0-23 0
GPU1 NV2 X 0-23 0Verifique o estado de ligação NVLink por GPU:
nvidia-smi nvlink --status -i 0Isto mostra o estado de cada porta NVLink na GPU 0. As ligações ativas mostrarão o estado Active e a velocidade negociada.
Verifique os contadores de erros NVLink:
nvidia-smi nvlink --errorcounters -i 0Contagens de erros de replay ou recuperação diferentes de zero indicam um problema na camada física — uma bridge parcialmente assentada, um conector danificado ou problemas de integridade de sinal por fornecimento de energia inadequado.
Monitorize o débito NVLink em tempo real:
nvidia-smi nvlink -sIsto imprime contadores de débito cumulativos. Para monitorização delta em tempo real, combine com watch:
watch -n 1 nvidia-smi nvlink -sPasso 6: Ativar e Verificar o Acesso à Memória Peer-to-Peer
O acesso à memória coerente do NVLink requer que o peer-to-peer (P2P) esteja ativado ao nível CUDA. Pode verificar isto programaticamente:
cat << 'EOF' > check_p2p.py
import subprocess
result = subprocess.run(['nvidia-smi', 'topo', '-p2p', 'r'], capture_output=True, text=True)
print(result.stdout)
EOF
python3 check_p2p.pyOu use um programa CUDA C com cudaDeviceCanAccessPeer(). Para validação rápida, as amostras CUDA simpleP2P e p2pBandwidthLatencyTest são as ferramentas definitivas:
cd /usr/local/cuda/samples/1_Utilities/p2pBandwidthLatencyTest
make
./p2pBandwidthLatencyTestA saída mostrará a largura de banda bidirecional entre pares de GPU. Sobre NVLink, deverá ver valores consistentes com a tabela de largura de banda acima. Se vir largura de banda ao nível PCIe (~10–30 GB/s), P2P sobre NVLink não está ativo — verifique se a bridge está completamente assentada e se nenhuma definição IOMMU está a bloquear o acesso peer.
Consideração IOMMU: Em plataformas AMD EPYC e alguns Intel Xeon, o IOMMU pode estar ativado por padrão e pode bloquear o acesso P2P entre GPU. Se P2P não estiver a funcionar, adicione iommu=pt (modo passthrough) ou amd_iommu=on iommu=pt à linha de comando do kernel em /etc/default/grub:
sudo nano /etc/default/grub
# Add iommu=pt to GRUB_CMDLINE_LINUX_DEFAULT
sudo update-grub
sudo rebootPasso 7: Configurar Frameworks de Deep Learning para Usar NVLink
Os frameworks modernos detetam NVLink automaticamente através de NCCL (NVIDIA Collective Communications Library), mas compreender como verificar e ajustar este comportamento é essencial para implementações em produção.
Variáveis de ambiente NCCL para otimização NVLink:
export NCCL_DEBUG=INFO
export NCCL_P2P_LEVEL=NVL # Force NVLink for P2P transfers
export NCCL_SHM_DISABLE=0 # Keep shared memory enabled
export NCCL_SOCKET_IFNAME=eth0 # Specify network interface for multi-nodeDefinir NCCL_DEBUG=INFO faz com que NCCL imprima a sua deteção de topologia em tempo de execução. Verá linhas como [0] NCCL INFO Channel 00 : 0[...] -> 1[...] via NVL confirmando que NVLink está a ser usado para transferências entre GPU.
Verificação multi-GPU PyTorch:
import torch
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")
for i in range(torch.cuda.device_count()):
for j in range(torch.cuda.device_count()):
if i != j:
can_access = torch.cuda.can_device_access_peer(i, j)
print(f"GPU {i} -> GPU {j} P2P access: {can_access}")Se can_device_access_peer retornar True para ambas as direções, DataParallel e DistributedDataParallel do PyTorch usarão NVLink para sincronização de gradientes automaticamente.
Verificação multi-GPU TensorFlow:
import tensorflow as tf
gpus = tf.config.list_physical_devices('GPU')
print(f"Detected GPUs: {len(gpus)}")
for gpu in gpus:
print(gpu)
# Enable memory growth to prevent TF from allocating all VRAM at startup
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)TensorFlow usa NCCL para operações coletivas ao executar com MirroredStrategy, portanto as variáveis de ambiente NCCL acima aplicam-se igualmente.
Passo 8: Benchmark do Desempenho NVLink
Antes de comprometer cargas de trabalho de produção, estabeleça uma linha de base de desempenho. Isto também serve como teste de regressão após atualizações de driver ou alterações de hardware.
Teste de largura de banda all-reduce NCCL (o benchmark mais representativo para treino distribuído):
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make CUDA_HOME=/usr/local/cuda
./build/all_reduce_perf -b 8 -e 512M -f 2 -g 2O flag -g 2 especifica duas GPU. Observe a coluna busbw — esta é a largura de banda efetiva do barramento. Sobre NVLink em cartões RTX 3090, deverá ver valores próximos de 100 GB/s. Sobre PCIe, espere 20–30 GB/s.
Benchmark cuBLAS GEMM para cargas de trabalho limitadas por computação:
/usr/local/cuda/extras/demo_suite/bandwidthTest --mode=shmooPasso 9: Monitorização Contínua e Alertas
Para ambientes de produção, nvidia-smi em modo daemon ou integração com Prometheus via dcgm-exporter é a abordagem recomendada.
Instale DCGM (Data Center GPU Manager):
sudo apt-get install -y datacenter-gpu-manager
sudo systemctl enable nvidia-dcgm
sudo systemctl start nvidia-dcgmConsulte métricas específicas de NVLink via DCGM:
dcgmi dmon -e 1011,1012,1013,1014Os IDs de campo 1011–1014 correspondem a contadores de largura de banda NVLink (TX/RX por ligação). Estes podem ser exportados para Prometheus e visualizados no Grafana para análise de tendências a longo prazo.
Para monitorização mais leve, um simples loop nvidia-smi captura o essencial:
nvidia-smi dmon -s pucvmet -d 5Os flags -s pucvmet ativam relatórios de energia, utilização, clock, VRAM, largura de banda de memória, ECC e temperatura em intervalos de 5 segundos.
NVLink vs. PCIe vs. NVSwitch: Quando Cada Arquitetura se Aplica
| Cenário | Interconexão Recomendada | Justificação |
|---|---|---|
| Estação de trabalho de consumidor com 2 GPU | Bridge NVLink | Económico, 2x largura de banda PCIe |
| Servidor prosumer com 2-4 GPU | Bridge NVLink (se suportado) | Ganho significativo de largura de banda para treino |
| Nó de data center com 8 GPU | Tecido NVSwitch | Conectividade all-to-all, sem bottleneck |
| Treino distribuído multi-nó | InfiniBand + NVLink | NVLink dentro do nó, IB entre nós |
| Serviço de inferência (crítico em latência) | NVLink | Reduz a latência de sincronização entre GPU |
| Transcodificação de vídeo (paralelamente embaraçoso) | PCIe suficiente | Não é necessária comunicação entre GPU |
Modos de Falha Comuns e Resolução de Problemas
NVLink não detetado após instalação física. Execute nvidia-smi topo -m e verifique se há PIX em vez de NV#. Reassente a bridge. Verifique se ambas as GPU estão no mesmo complexo raiz PCIe — GPU em diferentes sockets de CPU conectadas via QPI/UPI não formarão um par NVLink mesmo com uma bridge instalada.
A largura de banda P2P corresponde às velocidades PCIe apesar da bridge NVLink. O IOMMU está quase certamente a bloquear o acesso peer. Aplique o parâmetro de kernel iommu=pt conforme descrito acima.
Erros NVLink a acumular em nvidia-smi nvlink --errorcounters. Problema na camada física. Inspecione os pads do conector da bridge para verificar se há detritos ou danos. Tente reassentar a bridge. Se os erros persistirem, a própria bridge pode estar defeituosa.
NCCL não está a usar NVLink apesar da topologia mostrar NV2. Defina NCCL_P2P_LEVEL=NVL explicitamente. Verifique também a compatibilidade da versão NCCL com a sua versão CUDA — incompatibilidades fazem com que NCCL recorra a memória partilhada ou transporte por socket.
A instalação do driver falha com erros DKMS. Os cabeçalhos do kernel para o seu kernel em execução podem não estar instalados. Corrija com:
sudo apt-get install -y linux-headers-$(uname -r)
sudo dkms autoinstallEscolher a Infraestrutura de Servidor Certa para Cargas de Trabalho NVLink
A configuração NVLink é apenas tão eficaz quanto a plataforma de servidor subjacente. Vários fatores de infraestrutura afetam diretamente o desempenho NVLink na prática:
Topologia PCIe. Em plataformas EPYC ou Xeon de socket duplo, as lanes PCIe são distribuídas por ambas as CPU. As GPU conectadas a diferentes CPU comunicam via tecido inter-socket (Infinity Fabric ou UPI), o que adiciona latência e reduz a largura de banda efetiva para transferências GPU-a-GPU que devem cruzar o limite de socket. Sempre que possível, instale GPU emparelhadas por NVLink em slots PCIe ligados ao mesmo socket de CPU.
Largura de banda de memória. Mesmo com NVLink a gerir as transferências GPU-a-GPU, o subsistema de memória da CPU permanece o bottleneck para a ingestão de dados. Plataformas equipadas com DDR5 de alta largura de banda ou HBM reduzem o tempo gasto a preparar dados antes de chegarem à GPU.
Débito de armazenamento. Grandes checkpoints de modelos e conjuntos de dados de treino requerem armazenamento rápido. SSDs NVMe com velocidades de leitura sequencial acima de 7 GB/s impedem que a camada de armazenamento se torne o bottleneck durante o carregamento de dados.
Arrefecimento. Duas GPU de alto TDP sob carga sustentada acelerada por NVLink geram calor substancial. Garanta fluxo de ar adequado ou capacidade de arrefecimento líquido. O throttling térmico reduzirá as velocidades de clock da GPU e negará a vantagem de largura de banda que NVLink proporciona.
Para equipas que executam treino de IA multi-GPU ou simulações HPC, Servidores Dedicados com armazenamento NVMe e acesso root fornecem o controlo de hardware necessário para implementar a configuração completa descrita neste guia. Para cargas de trabalho especificamente aceleradas por GPU, GPU Hosting oferece ambientes pré-configurados com drivers NVIDIA já instalados. As equipas que precisam de uma base flexível para ambientes CUDA personalizados também podem achar o VPS Hosting útil para desenvolvimento e testes antes de escalar para hardware dedicado.
Principais Conclusões e Lista de Verificação de Decisão
Antes de implementar NVLink em produção, verifique cada item:
- Hardware confirmado: Ambas as GPU estão na lista de compatibilidade NVLink da NVIDIA para o seu SKU específico, não apenas a família de produtos.
- Geração da bridge correspondida: A geração da bridge NVLink corresponde à geração da GPU (bridge Turing para GPU Turing, bridge Ampere para GPU Ampere).
- Instalação física verificada:
nvidia-smi topo -mmostraNV1ouNV2entre pares de GPU, nãoPIXouPHB. - Acesso P2P confirmado:
p2pBandwidthLatencyTestreporta largura de banda ao nível NVLink (não ao nível PCIe). - IOMMU tratado: Se executar em EPYC ou Xeon,
iommu=ptestá definido nos parâmetros do kernel. - Transporte NCCL confirmado: A saída
NCCL_DEBUG=INFOmostravia NVLpara canais inter-GPU. - Contadores de erros limpos:
nvidia-smi nvlink --errorcountersmostra zero erros de replay e recuperação após um teste de burn-in. - Monitorização ativa: DCGM ou
nvidia-smi dmonestá a registar largura de banda NVLink e métricas de erros num armazenamento persistente. - Margem térmica confirmada: Ambas as GPU mantêm as velocidades de clock alvo sob carga total sem throttling térmico.
- Versões de driver e CUDA fixadas: Os ambientes de produção usam versões de driver fixadas geridas através de DKMS para evitar que atualizações não intencionais quebrem a configuração.
Perguntas Frequentes
O NVLink funciona em todos os cartões NVIDIA RTX?
Não. O suporte NVLink varia significativamente mesmo dentro da linha RTX. O RTX 4080, por exemplo, não suporta NVLink apesar de ser um cartão Ada Lovelace de gama alta. Apenas o RTX 4090 suporta NVLink nessa geração. Verifique sempre na ficha de dados da GPU específica, não na família de produtos.
O NVLink pode ser usado entre diferentes modelos de GPU?
Em geral, não. NVLink requer que ambas as GPU sejam do mesmo modelo e geração. A NVIDIA não suporta oficialmente configurações NVLink de modelos mistos, e o stack de drivers não formará uma relação NVLink peer-to-peer entre GPU diferentes mesmo que os conectores físicos sejam compatíveis.
O que acontece se a bridge NVLink for removida enquanto o sistema está em execução?
O sistema não irá colidir imediatamente, mas quaisquer transferências P2P ativas sobre NVLink irão falhar, o que tipicamente fará com que a aplicação CUDA em execução lance um erro CUDA e termine. As GPU recorrerão ao PCIe para operações subsequentes. A remoção a quente da bridge não é suportada e arrisca danos físicos nos pads do conector.
O NVLink é usado automaticamente pelo PyTorch e TensorFlow, ou requer configuração explícita?
Ambos os frameworks usam NCCL para operações coletivas multi-GPU, e NCCL deteta a topologia NVLink automaticamente. No entanto, deve sempre verificar com NCCL_DEBUG=INFO que NCCL está realmente a selecionar o caminho de transporte NVLink. Em algumas configurações — particularmente com IOMMU ativado ou versões NCCL/CUDA incompatíveis — NCCL recorrerá silenciosamente a transportes mais lentos.
Como sei se NVLink está realmente a melhorar o meu débito de treino?
Execute o seu trabalho de treino com NCCL_P2P_DISABLE=1 (força PCIe) e depois sem ele (permite NVLink). Compare o tempo de iteração ou amostras por segundo. Para cargas de trabalho com muita comunicação como treino de grandes transformers com operações all-reduce frequentes, NVLink tipicamente reduz o tempo de sincronização entre GPU em 40–70% em comparação com PCIe, traduzindo-se diretamente em tempos de época mais rápidos.
