23.10.2024 Diperbarui: 06.06.2026

Server Khusus

16 +1 15 min

Cara Mengkonfigurasi NVLink pada Server Dedicated

NVLink adalah interkoneksi GPU berkecepatan tinggi milik NVIDIA yang menggantikan bus PCIe sebagai jalur komunikasi utama antar GPU — dan pada arsitektur tertentu, antara GPU dan CPU. Ini memberikan bandwidth bidireksional hingga 600 GB/s per tautan pada perangkat keras generasi Hopper, dibandingkan dengan maksimum teoritis sekitar 64 GB/s pada PCIe 5.0 x16. Untuk beban kerja seperti pelatihan model bahasa besar, simulasi dinamika molekuler, atau inferensi multi-GPU, perbedaan ini bukan hal yang kecil — ini bersifat arsitektural.

Panduan ini menyediakan panduan lengkap tingkat produksi untuk mengonfigurasi NVLink pada server dedicated: mulai dari instalasi perangkat keras fisik dan pengaturan tumpukan driver hingga verifikasi topologi, integrasi lapisan aplikasi, dan pemantauan kinerja yang berkelanjutan.

Apa Sebenarnya NVLink — dan Apa yang Bukan

NVLink bukan sekadar kabel yang lebih cepat. Ini adalah fabric interkoneksi koheren, point-to-point yang dibangun langsung ke dalam die GPU. Setiap jalur NVLink membawa data di kedua arah secara bersamaan menggunakan protokol pensinyalan diferensial yang diserialisasi. Beberapa jalur digabungkan menjadi satu tautan logis, dan beberapa tautan dapat menghubungkan pasangan GPU yang sama untuk bandwidth aditif.

Yang penting, NVLink mendukung akses memori cache-coherent. Ini berarti GPU A dapat membaca dari memori framebuffer GPU B tanpa melakukan staging data melalui RAM host atau pengontrol memori CPU. Properti inilah yang memungkinkan model pemrograman “unified memory” di CUDA — satu ruang alamat virtual yang mencakup beberapa memori GPU fisik.

Yang bukan NVLink: ini bukan pengganti NVSwitch dalam sistem skala besar. Dalam konfigurasi dengan lebih dari dua GPU, NVIDIA menggunakan NVSwitch — chip switching crossbar khusus — untuk menyediakan konektivitas NVLink all-to-all. DGX A100, misalnya, menggunakan enam chip NVSwitch untuk memberikan bandwidth NVLink penuh kepada masing-masing dari delapan GPU A100-nya ke setiap GPU lain secara bersamaan. Jika Anda membangun workstation dua GPU atau server empat GPU dengan bridge yang didukung, Anda bekerja dengan koneksi NVLink langsung. Jika Anda bekerja dengan delapan GPU atau lebih, Anda hampir pasti berada di wilayah NVSwitch.

Bandwidth NVLink berdasarkan Generasi GPU

Memahami batas bandwidth perangkat keras spesifik Anda sangat penting sebelum melakukan benchmarking atau perencanaan kapasitas.

Generasi GPU	Versi NVLink	Tautan per GPU	Total Bandwidth Bidireksional
Volta (V100)	NVLink 2.0	6	300 GB/s
Turing (RTX 2080 Ti)	NVLink 2.0	2	100 GB/s
Ampere (A100 SXM)	NVLink 3.0	12	600 GB/s
Ampere (RTX 3090)	NVLink 3.0	2	112.5 GB/s
Ada Lovelace (RTX 4090)	NVLink 4.0	2	112.5 GB/s
Hopper (H100 SXM)	NVLink 4.0	18	900 GB/s
Blackwell (B200)	NVLink 5.0	18	1800 GB/s

PCIe 4.0 x16 memberikan sekitar 32 GB/s bidireksional. PCIe 5.0 x16 menggandakannya menjadi sekitar 64 GB/s. Bahkan bridge NVLink konsumen dua tautan pada kartu RTX 3090 memberikan hampir dua kali lipat bandwidth PCIe 5.0 — dan GPU pusat data berada dalam kategori yang sama sekali berbeda.

Prasyarat dan Kompatibilitas Perangkat Keras

Sebelum menyentuh satu pun file konfigurasi, konfirmasikan hal-hal berikut:

Kompatibilitas GPU. NVLink tidak tersedia di semua GPU NVIDIA. Kartu konsumen di bawah RTX 2080 Ti tidak mendukungnya. RTX 4080 tidak mendukung NVLink meskipun merupakan kartu kelas atas — hanya RTX 4090 yang mendukungnya di generasi Ada. Selalu verifikasi dengan lembar spesifikasi GPU resmi NVIDIA untuk SKU Anda yang tepat.

Bridge NVLink. Untuk GPU konsumen dan prosumer, diperlukan konektor bridge NVLink fisik. Bridge ini spesifik per generasi — bridge Turing tidak akan cocok dengan kartu Ampere. GPU pusat data (A100, H100) dalam form factor SXM menggunakan papan mezzanine milik NVIDIA dan tidak menggunakan bridge terpisah.

Motherboard dan jarak slot PCIe. Bridge NVLink mengharuskan dua GPU berada di slot PCIe x16 yang berdekatan dengan celah fisik tertentu. Sebagian besar bridge konsumen mencakup dua slot. Beberapa bridge kelas atas mencakup tiga slot. Verifikasi pitch slot motherboard Anda terhadap dimensi bridge sebelum membeli.

Pengaturan BIOS. Aktifkan “Above 4G Decoding” dan “Resizable BAR” (juga disebut Smart Access Memory pada platform AMD) di UEFI. Beberapa sistem juga mengharuskan penonaktifan CSM (Compatibility Support Module) untuk memungkinkan alokasi ruang alamat PCIe penuh untuk beberapa GPU.

Pengiriman daya. Dua GPU kelas atas di bawah beban penuh yang dipercepat NVLink dapat mengonsumsi 600W atau lebih secara gabungan. Pastikan PSU Anda memiliki headroom yang cukup dan konektor daya GPU berada pada rel terpisah jika memungkinkan.

Sistem operasi. Panduan ini mencakup Linux (Ubuntu 22.04 LTS / Debian 12) sebagai target utama, yang merupakan lingkungan standar untuk beban kerja AI dan HPC pada Server Dedicated. Langkah-langkah khusus Windows dicatat di mana perbedaannya signifikan.

Langkah 1: Instalasi GPU dan Bridge Fisik

Matikan server sepenuhnya dan cabut dari daya utama. Groundkan diri Anda menggunakan gelang ESD sebelum menangani kartu PCIe apa pun.

Lepaskan penutup slot PCIe untuk slot target.
Masukkan GPU pertama ke slot x16 utama (biasanya paling dekat dengan CPU).
Masukkan GPU kedua ke slot x16 yang berdekatan, pastikan celah fisik sesuai dengan bridge NVLink Anda.
Pasang kedua kartu dengan kuat hingga klip retensi PCIe berbunyi klik.
Hubungkan semua konektor daya PCIe yang diperlukan dari PSU ke setiap GPU. Jangan gunakan konektor daisy-chain untuk kartu TDP tinggi — gunakan kabel terpisah dari PSU.
Sejajarkan bridge NVLink di atas bantalan konektor emas di tepi atas kedua GPU. Tekan ke bawah dengan kuat dan merata hingga terpasang sepenuhnya. Bridge yang tidak terpasang sebagian akan menyebabkan tautan gagal secara diam-diam atau beroperasi pada lebar yang berkurang.
Jika GPU Anda mendukung bridge NVLink ganda (misalnya, RTX 2080 Ti memiliki dua konektor NVLink), pasang kedua bridge untuk bandwidth maksimum.
Tutup chassis dan sambungkan kembali daya.

Langkah 2: Konfigurasi BIOS dan UEFI

Boot ke pengaturan UEFI (biasanya Del atau F2 saat POST).

Aktifkan Above 4G Decoding.
Aktifkan Resizable BAR jika didukung.
Atur kecepatan tautan PCIe ke Auto atau Gen4/Gen5 sesuai dengan perangkat keras Anda.
Nonaktifkan CSM jika OS Anda boot melalui UEFI.
Simpan dan keluar.

Langkah 3: Instal Driver NVIDIA di Linux

NVIDIA menyediakan beberapa jalur instalasi. Metode package manager lebih disukai untuk lingkungan server karena terintegrasi dengan DKMS (Dynamic Kernel Module Support), yang secara otomatis membangun ulang modul kernel setelah pembaruan kernel.

Pertama, tambahkan repositori paket NVIDIA dan instal driver:

sudo apt-get update
sudo apt-get install -y software-properties-common
sudo add-apt-repository -y ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install -y nvidia-driver-545 nvidia-dkms-545

Ganti 545 dengan versi cabang produksi terbaru yang tersedia untuk GPU Anda. Anda dapat menanyakan versi yang tersedia dengan:

apt-cache search nvidia-driver | grep "^nvidia-driver"

Setelah instalasi, reboot:

sudo reboot

Setelah reboot, verifikasi driver dimuat dengan benar:

nvidia-smi

Output harus mencantumkan kedua GPU dengan versi driver, kompatibilitas versi CUDA, dan status daya saat ini. Jika hanya satu GPU yang muncul, kartu kedua mungkin tidak terpasang dengan benar atau mungkin ada masalah pengiriman daya.

Jebakan kritis: Jika Anda memiliki Nouveau (driver NVIDIA open-source) yang dimuat, itu akan berkonflik dengan driver proprietary. Blacklist secara eksplisit:

echo -e "blacklist nouveaunoptions nouveau modeset=0" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u
sudo reboot

Langkah 4: Instal CUDA Toolkit

Kemampuan penuh NVLink — khususnya akses memori peer-to-peer dan komunikasi kolektif — memerlukan CUDA toolkit. Instal melalui repositori NVIDIA CUDA untuk pencocokan versi yang paling andal:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y cuda-toolkit-12-4

Tambahkan biner dan pustaka CUDA ke lingkungan shell Anda:

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

Verifikasi instalasi:

nvcc --version

Anda akan melihat output yang mengidentifikasi versi compiler CUDA. Juga jalankan sampel CUDA deviceQuery jika Anda memiliki sampel yang terinstal — ini akan menghitung kedua GPU dan melaporkan flag kemampuan NVLink.

Langkah 5: Verifikasi Topologi dan Status NVLink

Ini adalah langkah diagnostik yang paling penting. nvidia-smi menyediakan beberapa subperintah khusus untuk inspeksi NVLink.

Periksa matriks topologi sistem:

nvidia-smi topo -m

Output adalah matriks yang menunjukkan jenis interkoneksi antara setiap pasangan perangkat dalam sistem. Cari label NV# antara GPU Anda, di mana # adalah jumlah bridge NVLink yang menghubungkannya. Label NV2 berarti dua bridge NVLink aktif. Label PIX atau PHB berarti GPU berkomunikasi melalui PCIe — NVLink tidak aktif.

Contoh output untuk sistem dual-GPU yang dikonfigurasi dengan benar:

        GPU0    GPU1    CPU Affinity    NUMA Affinity
GPU0     X      NV2     0-23            0
GPU1    NV2      X      0-23            0

Periksa status tautan NVLink per GPU:

nvidia-smi nvlink --status -i 0

Ini menunjukkan status setiap port NVLink pada GPU 0. Tautan aktif akan menampilkan status Active dan kecepatan yang dinegosiasikan.

Periksa penghitung kesalahan NVLink:

nvidia-smi nvlink --errorcounters -i 0

Jumlah kesalahan replay atau recovery yang tidak nol menunjukkan masalah lapisan fisik — bridge yang tidak terpasang sebagian, konektor yang rusak, atau masalah integritas sinyal akibat pengiriman daya yang tidak memadai.

Pantau throughput NVLink secara real time:

nvidia-smi nvlink -s

Ini mencetak penghitung throughput kumulatif. Untuk pemantauan delta real-time, gabungkan dengan watch:

watch -n 1 nvidia-smi nvlink -s

Langkah 6: Aktifkan dan Verifikasi Akses Memori Peer-to-Peer

Akses memori koheren NVLink memerlukan peer-to-peer (P2P) yang diaktifkan di tingkat CUDA. Anda dapat memverifikasi ini secara terprogram:

cat << 'EOF' > check_p2p.py
import subprocess
result = subprocess.run(['nvidia-smi', 'topo', '-p2p', 'r'], capture_output=True, text=True)
print(result.stdout)
EOF
python3 check_p2p.py

Atau gunakan program CUDA C dengan cudaDeviceCanAccessPeer(). Untuk validasi cepat, sampel CUDA simpleP2P dan p2pBandwidthLatencyTest adalah alat yang definitif:

cd /usr/local/cuda/samples/1_Utilities/p2pBandwidthLatencyTest
make
./p2pBandwidthLatencyTest

Output akan menampilkan bandwidth bidireksional antara pasangan GPU. Melalui NVLink, Anda akan melihat nilai yang konsisten dengan tabel bandwidth di atas. Jika Anda melihat bandwidth tingkat PCIe (~10–30 GB/s), P2P melalui NVLink tidak aktif — periksa apakah bridge terpasang sepenuhnya dan tidak ada pengaturan IOMMU yang memblokir akses peer.

Pertimbangan IOMMU: Pada platform AMD EPYC dan beberapa Intel Xeon, IOMMU mungkin diaktifkan secara default dan dapat memblokir akses P2P GPU. Jika P2P tidak berfungsi, tambahkan iommu=pt (mode passthrough) atau amd_iommu=on iommu=pt ke baris perintah kernel Anda di /etc/default/grub:

sudo nano /etc/default/grub
# Add iommu=pt to GRUB_CMDLINE_LINUX_DEFAULT
sudo update-grub
sudo reboot

Langkah 7: Konfigurasikan Framework Deep Learning untuk Menggunakan NVLink

Framework modern mendeteksi NVLink secara otomatis melalui NCCL (NVIDIA Collective Communications Library), tetapi memahami cara memverifikasi dan menyetel perilaku ini sangat penting untuk penerapan produksi.

Variabel lingkungan NCCL untuk optimasi NVLink:

export NCCL_DEBUG=INFO
export NCCL_P2P_LEVEL=NVL        # Force NVLink for P2P transfers
export NCCL_SHM_DISABLE=0        # Keep shared memory enabled
export NCCL_SOCKET_IFNAME=eth0   # Specify network interface for multi-node

Mengatur NCCL_DEBUG=INFO menyebabkan NCCL mencetak deteksi topologinya saat runtime. Anda akan melihat baris seperti [0] NCCL INFO Channel 00 : 0[...] -> 1[...] via NVL yang mengonfirmasi NVLink digunakan untuk transfer antar-GPU.

Verifikasi multi-GPU PyTorch:

import torch

print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")

for i in range(torch.cuda.device_count()):
    for j in range(torch.cuda.device_count()):
        if i != j:
            can_access = torch.cuda.can_device_access_peer(i, j)
            print(f"GPU {i} -> GPU {j} P2P access: {can_access}")

Jika can_device_access_peer mengembalikan True untuk kedua arah, DataParallel dan DistributedDataParallel PyTorch akan menggunakan NVLink untuk sinkronisasi gradien secara otomatis.

Pemeriksaan multi-GPU TensorFlow:

import tensorflow as tf

gpus = tf.config.list_physical_devices('GPU')
print(f"Detected GPUs: {len(gpus)}")
for gpu in gpus:
    print(gpu)

# Enable memory growth to prevent TF from allocating all VRAM at startup
for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)

TensorFlow menggunakan NCCL untuk operasi kolektif saat berjalan dengan MirroredStrategy, sehingga variabel lingkungan NCCL di atas berlaku sama.

Langkah 8: Benchmark Kinerja NVLink

Sebelum melakukan beban kerja produksi, tetapkan baseline kinerja. Ini juga berfungsi sebagai uji regresi setelah pembaruan driver atau perubahan perangkat keras.

Uji bandwidth all-reduce NCCL (benchmark yang paling representatif untuk pelatihan terdistribusi):

git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make CUDA_HOME=/usr/local/cuda
./build/all_reduce_perf -b 8 -e 512M -f 2 -g 2

Flag -g 2 menentukan dua GPU. Perhatikan kolom busbw — ini adalah bandwidth bus yang efektif. Melalui NVLink pada kartu RTX 3090, Anda akan melihat nilai mendekati 100 GB/s. Melalui PCIe, perkirakan 20–30 GB/s.

Benchmark cuBLAS GEMM untuk beban kerja yang terikat komputasi:

/usr/local/cuda/extras/demo_suite/bandwidthTest --mode=shmoo

Langkah 9: Pemantauan dan Peringatan Berkelanjutan

Untuk lingkungan produksi, nvidia-smi dalam mode daemon atau integrasi dengan Prometheus melalui dcgm-exporter adalah pendekatan yang direkomendasikan.

Instal DCGM (Data Center GPU Manager):

sudo apt-get install -y datacenter-gpu-manager
sudo systemctl enable nvidia-dcgm
sudo systemctl start nvidia-dcgm

Query metrik khusus NVLink melalui DCGM:

dcgmi dmon -e 1011,1012,1013,1014

ID field 1011–1014 sesuai dengan penghitung bandwidth NVLink (TX/RX per tautan). Ini dapat diekspor ke Prometheus dan divisualisasikan di Grafana untuk analisis tren jangka panjang.

Untuk pemantauan yang lebih ringan, loop nvidia-smi sederhana menangkap hal-hal penting:

nvidia-smi dmon -s pucvmet -d 5

Flag -s pucvmet mengaktifkan pelaporan daya, utilisasi, clock, VRAM, bandwidth memori, ECC, dan suhu pada interval 5 detik.

NVLink vs. PCIe vs. NVSwitch: Kapan Setiap Arsitektur Diterapkan

Skenario	Interkoneksi yang Direkomendasikan	Alasan
Workstation konsumen 2-GPU	Bridge NVLink	Hemat biaya, bandwidth 2x PCIe
Server prosumer 2-4 GPU	Bridge NVLink (jika didukung)	Peningkatan bandwidth yang berarti untuk pelatihan
Node pusat data 8-GPU	Fabric NVSwitch	Konektivitas all-to-all, tanpa bottleneck
Pelatihan terdistribusi multi-node	InfiniBand + NVLink	NVLink dalam node, IB antar node
Penyajian inferensi (kritis latensi)	NVLink	Mengurangi latensi sinkronisasi antar-GPU
Transcoding video (embarrassingly parallel)	PCIe sudah cukup	Tidak diperlukan komunikasi antar-GPU

Mode Kegagalan Umum dan Pemecahan Masalah

NVLink tidak terdeteksi setelah instalasi fisik. Jalankan nvidia-smi topo -m dan periksa PIX alih-alih NV#. Pasang ulang bridge. Periksa apakah kedua GPU berada pada kompleks root PCIe yang sama — GPU pada soket CPU yang berbeda yang terhubung melalui QPI/UPI tidak akan membentuk pasangan NVLink meskipun bridge terpasang.

Bandwidth P2P sesuai kecepatan PCIe meskipun ada bridge NVLink. IOMMU hampir pasti memblokir akses peer. Terapkan parameter kernel iommu=pt seperti yang dijelaskan di atas.

Kesalahan NVLink terakumulasi di nvidia-smi nvlink --errorcounters. Masalah lapisan fisik. Periksa bantalan konektor bridge untuk kotoran atau kerusakan. Coba pasang ulang bridge. Jika kesalahan berlanjut, bridge itu sendiri mungkin rusak.

NCCL tidak menggunakan NVLink meskipun topologi menunjukkan NV2. Atur NCCL_P2P_LEVEL=NVL secara eksplisit. Juga verifikasi kompatibilitas versi NCCL dengan versi CUDA Anda — ketidakcocokan menyebabkan NCCL kembali ke transport memori bersama atau soket.

Instalasi driver gagal dengan kesalahan DKMS. Header kernel untuk kernel yang sedang berjalan mungkin tidak terinstal. Perbaiki dengan:

sudo apt-get install -y linux-headers-$(uname -r)
sudo dkms autoinstall

Memilih Infrastruktur Server yang Tepat untuk Beban Kerja NVLink

Konfigurasi NVLink hanya seefektif platform server yang mendasarinya. Beberapa faktor infrastruktur secara langsung memengaruhi kinerja NVLink dalam praktiknya:

Topologi PCIe. Pada platform EPYC atau Xeon dual-socket, jalur PCIe didistribusikan ke kedua CPU. GPU yang terhubung ke CPU yang berbeda berkomunikasi melalui fabric antar-soket (Infinity Fabric atau UPI), yang menambah latensi dan mengurangi bandwidth efektif untuk transfer GPU-ke-GPU yang harus melintasi batas soket. Jika memungkinkan, instal GPU yang dipasangkan NVLink pada slot PCIe yang terpasang ke soket CPU yang sama.

Bandwidth memori. Bahkan dengan NVLink yang menangani transfer GPU-ke-GPU, subsistem memori CPU tetap menjadi bottleneck untuk penyerapan data. Platform DDR5 bandwidth tinggi atau yang dilengkapi HBM mengurangi waktu yang dihabiskan untuk staging data sebelum mencapai GPU.

Throughput penyimpanan. Checkpoint model besar dan dataset pelatihan memerlukan penyimpanan yang cepat. SSD NVMe dengan kecepatan baca sekuensial di atas 7 GB/s mencegah lapisan penyimpanan menjadi bottleneck selama pemuatan data.

Pendinginan. Dua GPU TDP tinggi di bawah beban yang dipercepat NVLink secara berkelanjutan menghasilkan panas yang substansial. Pastikan aliran udara yang memadai atau kapasitas pendinginan cair. Throttling termal akan mengurangi kecepatan clock GPU dan meniadakan keuntungan bandwidth yang diberikan NVLink.

Untuk tim yang menjalankan pelatihan AI multi-GPU atau simulasi HPC, Server Dedicated dengan penyimpanan NVMe dan akses root menyediakan kontrol perangkat keras yang diperlukan untuk mengimplementasikan konfigurasi lengkap yang dijelaskan dalam panduan ini. Untuk beban kerja yang dipercepat GPU secara khusus, GPU Hosting menawarkan lingkungan yang telah dikonfigurasi sebelumnya dengan driver NVIDIA yang sudah terinstal. Tim yang membutuhkan basis fleksibel untuk lingkungan CUDA kustom mungkin juga menemukan VPS Hosting berguna untuk pengembangan dan pengujian sebelum melakukan scaling ke perangkat keras dedicated.

Poin Utama dan Daftar Periksa Keputusan

Sebelum menerapkan NVLink dalam produksi, verifikasi setiap item:

Perangkat keras dikonfirmasi: Kedua GPU ada dalam daftar kompatibilitas NVLink NVIDIA untuk SKU spesifik Anda, bukan hanya keluarga produk.
Generasi bridge dicocokkan: Generasi bridge NVLink sesuai dengan generasi GPU (bridge Turing untuk GPU Turing, bridge Ampere untuk GPU Ampere).
Instalasi fisik diverifikasi: nvidia-smi topo -m menampilkan NV1 atau NV2 antara pasangan GPU, bukan PIX atau PHB.
Akses P2P dikonfirmasi: p2pBandwidthLatencyTest melaporkan bandwidth tingkat NVLink (bukan tingkat PCIe).
IOMMU ditangani: Jika berjalan pada EPYC atau Xeon, iommu=pt diatur dalam parameter kernel.
Transport NCCL dikonfirmasi: Output NCCL_DEBUG=INFO menampilkan via NVL untuk saluran antar-GPU.
Penghitung kesalahan bersih: nvidia-smi nvlink --errorcounters menampilkan nol kesalahan replay dan recovery setelah uji burn-in.
Pemantauan aktif: DCGM atau nvidia-smi dmon mencatat bandwidth NVLink dan metrik kesalahan ke penyimpanan persisten.
Headroom termal dikonfirmasi: Kedua GPU mempertahankan kecepatan clock target di bawah beban penuh tanpa throttling termal.
Versi driver dan CUDA dipinned: Lingkungan produksi menggunakan versi driver yang dipinned yang dikelola melalui DKMS untuk mencegah pembaruan yang tidak disengaja merusak konfigurasi.

Pertanyaan yang Sering Diajukan

Apakah NVLink berfungsi pada semua kartu NVIDIA RTX?

Tidak. Dukungan NVLink bervariasi secara signifikan bahkan dalam jajaran RTX. RTX 4080, misalnya, tidak mendukung NVLink meskipun merupakan kartu Ada Lovelace kelas atas. Hanya RTX 4090 yang mendukung NVLink di generasi tersebut. Selalu verifikasi dengan datasheet GPU spesifik, bukan keluarga produk.

Bisakah NVLink digunakan di berbagai model GPU?

Secara umum, tidak. NVLink mengharuskan kedua GPU memiliki model dan generasi yang sama. NVIDIA tidak secara resmi mendukung konfigurasi NVLink model campuran, dan tumpukan driver tidak akan membentuk hubungan NVLink peer-to-peer antara GPU yang berbeda meskipun konektor fisiknya kompatibel.

Apa yang terjadi jika bridge NVLink dilepas saat sistem sedang berjalan?

Sistem tidak akan langsung crash, tetapi transfer P2P aktif melalui NVLink akan gagal, yang biasanya akan menyebabkan aplikasi CUDA yang sedang berjalan melempar kesalahan CUDA dan berhenti. GPU akan kembali ke PCIe untuk operasi selanjutnya. Pelepasan bridge saat panas tidak didukung dan berisiko merusak bantalan konektor secara fisik.

Apakah NVLink secara otomatis digunakan oleh PyTorch dan TensorFlow, atau memerlukan konfigurasi eksplisit?

Kedua framework menggunakan NCCL untuk operasi kolektif multi-GPU, dan NCCL mendeteksi topologi NVLink secara otomatis. Namun, Anda harus selalu memverifikasi dengan NCCL_DEBUG=INFO bahwa NCCL benar-benar memilih jalur transport NVLink. Dalam beberapa konfigurasi — terutama dengan IOMMU diaktifkan atau versi NCCL/CUDA yang tidak cocok — NCCL akan diam-diam kembali ke transport yang lebih lambat.

Bagaimana cara mengetahui apakah NVLink benar-benar meningkatkan throughput pelatihan saya?

Jalankan pekerjaan pelatihan Anda dengan NCCL_P2P_DISABLE=1 (memaksa PCIe) dan kemudian tanpanya (mengizinkan NVLink). Bandingkan waktu iterasi atau sampel per detik. Untuk beban kerja yang banyak komunikasi seperti pelatihan transformer besar dengan operasi all-reduce yang sering, NVLink biasanya mengurangi waktu sinkronisasi antar-GPU sebesar 40–70% dibandingkan PCIe, yang langsung diterjemahkan menjadi waktu epoch yang lebih cepat.

Hemat untuk semua layanan hosting