Lỗ hổng Rowhammer tấn công Nvidia GPU Workstation GDDR6

bởi Phát Lâm

Một báo cáo nghiên cứu bảo mật mới đây đã khiến cộng đồng công nghệ chú ý khi lần đầu tiên chứng minh lỗ hổng phần cứng Rowhammer có thể tấn công thành công vào GPU workstation Nvidia sử dụng bộ nhớ GDDR6. Phương thức tấn công này, được gọi là GPUHammer, mở rộng phạm vi nguy cơ của Rowhammer từ DRAM máy chủ truyền thống sang các hệ thống GPU cao cấp – yếu tố cốt lõi trong nhiều trung tâm dữ liệu và dự án AI.

Rowhammer là gì? Tại sao GPUHammer nguy hiểm?

Rowhammer là một kỹ thuật tấn công phần cứng được biết đến từ lâu, khai thác cách DRAM lưu trữ dữ liệu. Bằng cách truy cập liên tục vào một hàng bộ nhớ, kẻ tấn công có thể gây ra hiện tượng đảo bit trên các ô nhớ liền kề – một thay đổi nhỏ nhưng có thể gây ra các lỗi nghiêm trọng.

Lỗ Hổng Rowhammer Tấn Công Nvidia Gpu Workstation Gddr6

GPUHammer là biến thể mới, áp dụng phương pháp này lên GDDR6 – loại RAM đồ họa tốc độ cao được dùng phổ biến trên các GPU Nvidia dòng workstation (ví dụ như A6000). Tấn công thành công có thể làm sai lệch dữ liệu lưu trữ trong bộ nhớ GPU, gây ra lỗi tính toán hoặc thậm chí làm sai lệch kết quả của các mô hình AI, với độ chính xác có thể giảm tới 80%. Quan trọng hơn, kỹ thuật này còn có khả năng rò rỉ thông tin nhạy cảm từ bộ nhớ GPU, khiến hệ thống máy trạm, trung tâm dữ liệu AI đối mặt với nguy cơ an ninh nghiêm trọng.

Cách phòng chống hiệu quả: Bật ECC trên GPU

Trước nguy cơ này, Nvidia đã chính thức khuyến nghị người dùng sử dụng mã sửa lỗi ECC (Error-Correcting Code) để bảo vệ GPU khỏi Rowhammer. Khi được kích hoạt, ECC sẽ giúp phát hiện và sửa lỗi đảo bit đơn, giảm thiểu khả năng khai thác thành công của GPUHammer.

Để kiểm tra và cấu hình ECC trên GPU:

  • Với hệ thống hỗ trợ quản lý ngoài băng (OOB), kiểm tra trạng thái ECC qua BMC.
  • Với hệ thống tiêu chuẩn, xác minh và kích hoạt ECC thông qua CPU (InB) hoặc sử dụng công cụ NVIDIA-smi.
  • Tham khảo tài liệu hướng dẫn từ Nvidia để biết cách thực hiện chi tiết cho từng dòng sản phẩm (Blackwell, Ada, Hopper, Ampere, Turing, Volta, Jetson…).

Tuy nhiên, người dùng cần lưu ý: bật ECC có thể khiến hiệu suất GPU giảm nhẹ (khoảng 10% trên một số dòng RTX), đổi lại là khả năng bảo vệ dữ liệu quan trọng.

Ai nên đặc biệt lưu ý đến GPUHammer?

  • Các doanh nghiệp vận hành trung tâm dữ liệu AI, máy trạm đồ họa chuyên nghiệp.
  • Người dùng xử lý dữ liệu nhạy cảm hoặc vận hành mô hình AI quan trọng trên GPU Nvidia workstation.
  • Các tổ chức nghiên cứu sử dụng GPU thế hệ GDDR6 chưa bật ECC.

Với các dòng GPU sử dụng GDDR7 hoặc HBM2, hiện tại chưa phát hiện nguy cơ rõ rệt từ GPUHammer, nhưng không thể loại trừ khả năng xuất hiện biến thể tấn công trong tương lai.

Tổng kết: GPUHammer là lời cảnh báo mới về các rủi ro bảo mật phần cứng – lĩnh vực từng bị xem nhẹ so với các lỗ hổng phần mềm. Do đó, việc nâng cao nhận thức và chủ động áp dụng biện pháp phòng vệ như bật ECC là bước đi cần thiết, đặc biệt với những hệ thống phụ thuộc vào GPU trong xử lý AI và dữ liệu quan trọng. Đây cũng là bài học cho cộng đồng công nghệ về sự cần thiết của an ninh phần cứng trong môi trường điện toán hiện đại.

Bài viết liên quan

Đăng bình luận