Data Science / Data Analysis được kết hợp với các phương pháp từ học máy . Tuy nhiên, việc phân tích, chuẩn bị, pha trộn, làm sạch, trực quan hóa dữ liệu, v.v. đặt ra những thách thức riêng đối với cấu hình hệ thống. Trích xuất, chuyển đổi và tải (ETL) và Phân tích dữ liệu khám phá (EDA) là những thành phần quan trọng của các dự án học máy, đồng thời là những phần không thể thiếu trong các quy trình kinh doanh và dự báo.
Phần cứng “tốt nhất” sẽ tuân theo một số mẫu tiêu chuẩn, nhưng ứng dụng cụ thể của bạn có thể có những yêu cầu tối ưu riêng.
1 - CPU (BỘ XỬ LÝ TRUNG TÂM)
Trong khoa học dữ liệu, cần rất nhiều nỗ lực để chuyển đổi và chuyển đổi các tập dữ liệu lớn. CPU, với khả năng truy cập lượng bộ nhớ lớn, có thể thống trị quy trình công việc trái ngược với tính toán GPU trong ML/DL. Song song đa nhân sẽ tùy thuộc vào nhiệm vụ, nhưng song song trong xử lý dữ liệu thường rất tốt.

CPU nào tốt nhất cho khoa học dữ liệu?
Hai nền tảng CPU được đề xuất là Xeon W của Intel và Threadripper PRO của AMD. Cả hai đều cung cấp số lượng nhân thực cao, hiệu suất và dung lượng bộ nhớ tuyệt vời cũng như số lượng lane PCIe rất lớn. Cụ thể, các phiên bản 32 nhân của một trong hai phiên bản CPU này được khuyên dùng để sử dụng và cân bằng hiệu năng bộ nhớ.
Nhiều nhân thực hơn CPU có giúp quy trình làm việc khoa học dữ liệu nhanh hơn không?
Số lượng nhân thực được chọn sẽ phụ thuộc vào quá trình dự kiến load dữ liệu và tính song song của các tác vụ trong quy trình làm việc của bạn. Số lượng nhân lớn hơn cũng có thể cho phép thực hiện nhiều quy trình đồng thời. Một đề xuất dễ dàng là dành cho 32 nhân với nền tảng Intel hoặc AMD được đề cập ở trên. THREADRIPPER PRO 96 nhân hoặc 64 nhân có thể lý tưởng nếu bạn có các tác vụ song song có lượng dữ liệu cao với lượng thời gian tính toán đáng kể, nhưng việc mở rộng quy mô có thể không hiệu quả như với 32 nhân nếu khả năng truy cập bộ nhớ là một yếu tố hạn chế. Trong mọi trường hợp, bộ xử lý 16 nhân có thể được coi là tối thiểu.
Khoa học dữ liệu hoạt động tốt hơn với CPU Intel hay AMD?
Nó chủ yếu là một vấn đề ưu tiên. Tuy nhiên, nền tảng Intel sẽ được khuyến nghị nếu quy trình làm việc của bạn có thể hưởng lợi từ một số công cụ trong Bộ công cụ phân tích AI oneAPI của Intel , chẳng hạn như Modin thay thế Pandas được tối ưu hóa cho Intel hoặc tiện ích mở rộng AVX-512.
2 - GPU (CARD ĐỒ HỌA)
Kể từ giữa những năm 2010, khả năng tăng tốc GPU đã là động lực thúc đẩy những tiến bộ nhanh chóng trong lĩnh vực học máy và nghiên cứu AI. NVIDIA đã có tác động lớn trong lĩnh vực này. Đối với khoa học dữ liệu, GPU có thể mang lại hiệu suất đáng kể so với CPU đối với một số tác vụ. Tuy nhiên, GPU có thể bị giới hạn bởi dung lượng bộ nhớ và các ứng dụng phù hợp cho các tác vụ dữ liệu ngoài việc đào tạo mô hình.

Loại GPU (card màn hình) nào tốt nhất cho khoa học dữ liệu?
NVIDIA thống trị về khả năng tăng tốc tính toán GPU và chắc chắn là tiêu chuẩn. GPU của họ sẽ được hỗ trợ nhiều nhất và dễ làm việc nhất. NVIDIA cũng cung cấp bộ ứng dụng xử lý dữ liệu tuyệt vời có tên RAPIDS. Các công cụ NVIDIA RAPIDS có thể cung cấp thông lượng công việc đáng kể.
Khoa học dữ liệu cần bao nhiêu VRAM (bộ nhớ video)?
Điều này phụ thuộc vào “không gian tính năng” của dữ liệu của bạn. Dung lượng bộ nhớ trên GPU bị giới hạn so với RAM bộ nhớ hệ thống chính được CPU sử dụng và các ứng dụng có thể bị hạn chế bởi điều này. Đây là lý do tại sao nhà khoa học dữ liệu thường được giao nhiệm vụ “giảm bớt dữ liệu và tính năng” trước khi train mô hình. Đó thường là hơn 80% công việc khó khăn cho các dự án ML/AI. Đối với một số công việc, bộ nhớ GPU có thể là một yếu tố hạn chế ngay cả khi có sẵn công cụ tăng tốc GPU cho công việc xử lý dữ liệu. Đối với các vấn đề về dữ liệu lớn hơn, 48GB có sẵn trên NVIDIA RTX A6000 có thể cần thiết – và thậm chí dung lượng đó có thể không đủ cho các công việc yêu cầu tất cả dữ liệu phải lưu trữ trên thiết bị. Việc di chuyển dữ liệu có thể là một nút thắt cổ chai vì GPU có khả năng tính toán hiệu suất cao đến mức chúng có thể không hoạt động trong phần lớn thời gian trong khi chờ bộ nhớ di chuyển dữ liệu để cấp cho chúng hoạt động tính toán.
Nhiều GPU có cải thiện hiệu suất trong quy trình làm việc của khoa học dữ liệu không?
Đối với các công việc phân tích dữ liệu có thể tận dụng GPU, việc có nhiều hơn một GPU có thể làm tăng quy trình làm việc. Nếu bạn định thực hiện các công việc ML/AI thì multi-GPU có thể mang lại hiệu năng vượt trội. Đối với các tác vụ hướng dữ liệu, nhiều GPU có thể có lợi thế đơn giản bằng cách cung cấp nhiều bộ nhớ khả dụng hơn để hỗ trợ thực hiện song song các tác vụ. Tuy nhiên, không phải tất cả quy trình công việc đều sử dụng tốt GPU.
Tôi có cần NVLink khi sử dụng nhiều GPU cho khoa học dữ liệu không?
NVLink của NVIDIA cung cấp cầu nối giao tiếp trực tiếp, hiệu suất cao giữa một cặp GPU. Điều này có lợi hay không phụ thuộc vào loại vấn đề. Để đào tạo nhiều loại mô hình thì không cần thiết. Tuy nhiên, đối với bất kỳ mô hình nào có thành phần “lịch sử” như RNN, LSTM, chuỗi thời gian và đặc biệt là các mô hình Transformer, NVLink có thể tăng tốc đáng kể và do đó được khuyên dùng. Xin lưu ý rằng không phải tất cả GPU NVIDIA đều hỗ trợ NVLink và nó chỉ có thể kết nối hai card.
3 - RAM (BỘ NHỚ TẠM)
Dung lượng bộ nhớ CPU có thể là yếu tố hạn chế đối với một số tác vụ phân tích dữ liệu. Điều này là do toàn bộ tập dữ liệu lớn có thể cần phải nằm trong bộ nhớ (trong core). Có các phương pháp và công cụ để phân tích dữ liệu “ngoài core”, nhưng điều này có thể làm giảm hiệu năng đi đáng kể.

Khoa học dữ liệu cần bao nhiêu RAM?
Thông thường, cần thiết hoặc ít nhất là mong muốn có thể lấy toàn bộ dữ liệu vào bộ nhớ để xử lý và thống kê. Điều đó có thể có nghĩa là yêu cầu bộ nhớ LỚN, lên tới 1-2 TB RAM để hệ thống để CPU truy cập.
4 - Ổ CỨNG (BỘ NHỚ TẠM)
Yêu cầu lưu trữ tương tự như yêu cầu bộ nhớ CPU. Dữ liệu và dự án của bạn sẽ đưa ra các yêu cầu.

Cấu hình lưu trữ nào hoạt động tốt nhất cho khoa học dữ liệu?
Bạn nên sử dụng bộ lưu trữ NVMe tốc độ đọc ghi càng nhanh càng tố vì có thể việc truyền dữ liệu có thể trở thành nút cổ chai khi dữ liệu quá lớn để vừa với bộ nhớ hệ thống. Việc chạy công việc theo giai đoạn từ NVMe có thể làm giảm tốc độ chạy công việc bị chậm. Ổ NVME thường có dung lượng lên tới 4TB. Cùng với bộ lưu trữ NVMe có tốc độ càng nhanh càng tốt cho các công việc dàn dựng, SSD dung lượng lớn có thể được sử dụng cho dữ liệu vượt quá dung lượng của các ổ NVMe thông thường. Dung lượng 8TB có sẵn cho SSD. Ổ đĩa dạng HDD có thể được sử dụng để lưu trữ và lưu trữ các tập dữ liệu rất lớn. Hiện đã có dung lượng 18TB+.
Ngoài ra, tất cả các loại ổ đĩa trên đều có thể được cấu hình RAID. Điều này làm tăng thêm độ phức tạp cho cấu hình hệ thống và có thể sử dụng hết các khe cắm trên bo mạch chủ vốn lẽ ra sẽ hỗ trợ các GPU bổ sung – nhưng có thể cho phép dung lượng lưu trữ trong khoảng 10 đến 100 terrabyte.
Tôi có nên sử dụng bộ lưu trữ gắn mạng cho khoa học dữ liệu không?
Lưu trữ gắn liền với mạng là một cân nhắc khác. Việc các bo mạch chủ máy trạm có cổng Ethernet 10Gb trở nên phổ biến hơn, cho phép kết nối lưu trữ mạng với hiệu suất khá tốt mà không cần thêm các tiện ích mạng chuyên dụng hơn.
Cấu hình lưu trữ nào hoạt động tốt nhất cho khoa học dữ liệu?
Bạn nên sử dụng bộ lưu trữ NVMe tốc độ đọc ghi càng nhanh càng tố vì có thể việc truyền dữ liệu có thể trở thành nút cổ chai khi dữ liệu quá lớn để vừa với bộ nhớ hệ thống. Việc chạy công việc theo giai đoạn từ NVMe có thể làm giảm tốc độ chạy công việc bị chậm. Ổ NVME thường có dung lượng lên tới 4TB. Cùng với bộ lưu trữ NVMe có tốc độ càng nhanh càng tốt cho các công việc dàn dựng, SSD dung lượng lớn có thể được sử dụng cho dữ liệu vượt quá dung lượng của các ổ NVMe thông thường. Dung lượng 8TB có sẵn cho SSD. Ổ đĩa dạng HDD có thể được sử dụng để lưu trữ và lưu trữ các tập dữ liệu rất lớn. Hiện đã có dung lượng 18TB+.
Ngoài ra, tất cả các loại ổ đĩa trên đều có thể được cấu hình RAID. Điều này làm tăng thêm độ phức tạp cho cấu hình hệ thống và có thể sử dụng hết các khe cắm trên bo mạch chủ vốn lẽ ra sẽ hỗ trợ các GPU bổ sung – nhưng có thể cho phép dung lượng lưu trữ trong khoảng 10 đến 100 terrabyte.
Tôi có nên sử dụng bộ lưu trữ gắn mạng cho khoa học dữ liệu không?
Lưu trữ gắn liền với mạng là một cân nhắc khác. Việc các bo mạch chủ máy trạm có cổng Ethernet 10Gb trở nên phổ biến hơn, cho phép kết nối lưu trữ mạng với hiệu suất khá tốt mà không cần thêm các tiện ích mạng chuyên dụng hơn.
SUGGEST SYSTEM :
AMD THREADRIPPER PRO :
CPU : AMD Threadripper Pro 7975WX trở lên
MAIN : TRX 50 hoặc WRX90 SAGE
RAM : 256GB REG ECC DDR5 CAO HƠN CÀNG TỐT
VGA : RTX A6000 48GB hoặc RTX A6000ADA
INTEL XEON W : ( Cấu hình này không có hàng phân phối ở VN nên khá khó mua và chịu rủi ro về bảo hành )
CPU : Intel Xeon W9-3475X
MAIN : WS W790E-SAGE
RAM : 256GB REG ECC DDR5 CAO HƠN CÀNG TỐT
VGA : RTX A6000 48GB hoặc RTX A6000ADA