Dell PowerEdge R760 với CPU Xeon thế hệ thứ 5 và Nền tảng dữ liệu Cloudera® mang lại hiệu suất tăng cường 60% cho các trường hợp sử dụng dựa trên AI
Bản tóm tắt
Cloudera là một nền tảng dữ liệu lai được thiết kế để có sự tự do vô song khi lựa chọn—bất kỳ đám mây nào, bất kỳ phân tích nào, bất kỳ dữ liệu nào. Nền tảng giải pháp bao gồm hai sản phẩm: Cloudera® Private Cloud Base (phần tại chỗ được triển khai trên máy chủ Dell® PowerEdge™) và Cloudera Private Cloud Data Services. Các dịch vụ dữ liệu này cung cấp các ứng dụng tính toán hoặc phân tích được chứa trong container có khả năng mở rộng động và có thể được nâng cấp độc lập. Nền tảng này đơn giản hóa việc quản lý khối lượng dữ liệu ngày càng tăng và đa dạng với sự nhanh nhẹn và linh hoạt trong kinh doanh được cải thiện bằng cách phân tách tính toán và lưu trữ trong khi hỗ trợ môi trường dựa trên container. Nó cũng bao gồm các tính năng truy cập người dùng an toàn và quản trị dữ liệu.
DataOnline cung cấp máy chủ phục vụ AI, trong đó có dòng Server Dell R760, Quý khách tham khảo thêm dịch vụ Thuê Server
Tài liệu này phác thảo các cấu hình được đề xuất cho CDP Private Cloud Base Cluster và CDP Private Cloud Data Services Cluster.
Cấu hình cho Cloudera Data Platform – Dell PowerEdge R760
Dell PowerEdge R760 là giải pháp có khả năng mở rộng mà vẫn có giá cả phải chăng. Các doanh nghiệp đang tìm kiếm máy chủ rack giá cả phải chăng có thể mở rộng để giải quyết khối lượng công việc cấp doanh nghiệp sẽ được hưởng lợi nhiều nhất từ giải pháp này.
Bảng 1. Cấu hình được đề xuất của CDP Private Cloud Base
Cloudera ® Data Platform (CDP) Cụm cơ sở đám mây riêng | ||||
Nút cạnh (1 nút) +1 nút quản lý
(Khuyến nghị tối thiểu ba nút Quản lý) |
Nút công nhân để sử dụng với hệ thống lưu trữ bên ngoài (Yêu cầu tối thiểu ba nút) | Các nút công nhân với bộ nhớ Flash cục bộ
(Yêu cầu tối thiểu ba nút) |
Các nút Worker có ổ cứng cục bộ (Yêu cầu tối thiểu ba nút) | |
Chức năng | Nút cạnh: Máy khách Hadoop®,
Tên Node, Trình quản lý tài nguyên, ZooKeeper |
Khối lượng công việc của Data Node, Node Manager, CDP DC (YARN) | ||
Nền tảng | Máy chủ Dell PowerEdge R760 | Máy chủ Dell PowerEdge R760 | ||
Bộ vi xử lý | 2 x bộ xử lý Intel® Xeon® Gold 6542Y (16 lõi ở tốc độ 2,8 GHz) hoặc tốt hơn | 2 bộ xử lý Intel® Xeon® Gold 6548Y+ (32 lõi ở tốc độ 2,5 GHz)
|
||
Bộ nhớ đệm | 256 GB (16 x 16 GB DDR5-4800 MT/giây) | 512 GB (16x32GB DDR5 5600 MT/giây [5200 MT/giây]) | ||
Khởi động lại thiết bị | 2 ổ cứng SSD SATA 480 GB | |||
Kho
HDFS |
2x (tối đa 4x) 3,2 TB Enterprise NVMe sử dụng hỗn hợp Gen4/Gen5
|
Không bắt buộc. Thay vào đó hãy sử dụng hệ thống lưu trữ ngoài. | Ổ đĩa Enterprise NVMe hỗn hợp Gen4/Gen5 4x (tối đa 8x) 3,2 TB | Ổ đĩa SSD SATA 3,84 TB 12x (tối đa 16x) Đọc chuyên sâu 2,5in AG, 1DWPD |
Kho
Bộ nhớ đệm nhanh (Sợi) |
1x 1,6 TB Enterprise NVMe sử dụng hỗn hợp Gen4/Gen5 | 1x Ổ đĩa Enterprise NVMe hỗn hợp Gen4/Gen5 3,2 TB | ||
Bộ điều khiển giao diện mạng | Bộ điều khiển mạng Ethernet Intel E810-C cho QSFP (cổng kép 100 GbE)
|
Bảng 2. Cấu hình được đề xuất của Dịch vụ dữ liệu đám mây riêng CDP
Dịch vụ dữ liệu đám mây riêng tư CDP (Red Hat® OpenShift® Kubernetes®)/Cụm dịch vụ container nhúng (ECS) | |||
1 Máy chủ quản trị dịch vụ container +1 Nút Bootstrap cho OpenShift
1 Nút không HA cho ECS |
Các nút quản lý cho OpenShift (Yêu cầu ba nút)
3 nút HA cho ECS |
Nút công nhân (Tối thiểu 10 nút cho Openshift hoặc Tối thiểu cho các nút cho ECS) | |
Chức năng | Dịch vụ quản trị OpenShift | Dịch vụ OpenShift, dịch vụ Kubernetes | Người vận hành Kubernetes, Cloudera® Data
Nền tảng (CDP) Nhóm khối lượng công việc đám mây riêng |
Bộ vi xử lý | Bộ xử lý 2x Intel® Xeon® Gold 6542Y (16 lõi ở tốc độ 2,8 GHz) hoặc tốt hơn | Bộ xử lý 2x Intel® Xeon® Gold 6548Y+ 2 (32 lõi ở tốc độ 2,5 GHz) | |
Bộ nhớ đệm | 128 GB (16x 8 GB DDR5-4800) | Cấu hình tiêu chuẩn: 512 GB (16x 32 GB DDR5 5600 MT/giây [5200 MT/giây])
Cấu hình bộ nhớ lớn: 1024 GB (16x 64 GB DDR5 5600 MT/giây [5200 MT/giây]) |
|
Khởi động lại thiết bị | 2x 480 GB SATA SSD | ||
Bộ chuyển đổi lưu trữ | Không bắt buộc đối với cấu hình toàn NVMe. | ||
Lưu trữ (NVMe) | 1x 1,6 TB Enterprise NVMe sử dụng hỗn hợp Gen4/Gen5 | 1x Ổ đĩa Enterprise NVMe hỗn hợp Gen4/Gen5 3,2 TB | 1x Ổ đĩa Enterprise NVMe hỗn hợp Gen4/Gen5 6,4 TB
|
NIC | Bộ điều khiển mạng Ethernet Intel E810-C cho QSFP (cổng kép 100 GbE) |
Cấu hình đã được thử nghiệm
Dell Technologies ® đã đánh giá những lợi ích tiềm năng của việc chuyển từ máy chủ PowerEdge R650 sang máy chủ PowerEdge R760 mới hơn (như thể hiện trong Bảng 3). Hai cụm đã được triển khai để so sánh hiệu suất của cả hai mô hình máy chủ. Để đảm bảo so sánh ngang bằng, ngăn xếp phần mềm được giữ nguyên trên cả hai thế hệ máy chủ. Khách hàng có thể mong đợi nhiều lợi ích hơn khi chuyển ngăn xếp phần mềm từ các phiên bản CDP cũ hơn sang các phiên bản mới hơn chạy trên các phiên bản hệ điều hành mới hơn với JDK 11 trở lên. Vui lòng tham khảo Cloudera® Support Matrix để biết chi tiết – https://supportmatrix.cloudera.com/ .
Hai cụm chạy một bộ các đường ống khoa học dữ liệu đầu cuối được điều chỉnh từ chuẩn mực của ngành. Các trường hợp sử dụng này bao gồm một số thuật toán máy học và học sâu được sử dụng rộng rãi nhất chạy trên Spark phân tán. Mỗi quy trình công việc có một đặc điểm tập dữ liệu khác nhau, như thể hiện trong Bảng 4. Chỉ số hiệu suất cho quy trình công việc là thời gian cần thiết để đào tạo các mô hình cụ thể (Thời gian đào tạo) và thời gian thực hiện suy luận bằng mô hình được tạo trong quá trình đào tạo (Thời gian phục vụ).
Bảng 3. Cấu hình thử nghiệm Dịch vụ dữ liệu đám mây riêng CDP
PowerEdge R650 với Bộ xử lý Intel® Xeon ® thế hệ thứ 3 |
PowerEdge R760 với bộ xử lý Intel ® Xeon ® thế hệ thứ 5 | |
Số lượng nút | 1 Quản lý + 3 Công nhân | 1 Quản lý + 3 Công nhân |
Hệ thống | PowerEdge R650 | PowerEdge R760 |
Bộ vi xử lý | Bộ vi xử lý Intel Xeon Gold 6348 @2.60GHz | INTEL(R) XEON(R) Vàng 6548Y+ @2,50GHz |
Số lượng CPU trên mỗi nút | 2 | 2 |
Số lõi trên mỗi ổ cắm | 28 | 32 |
Tần số cơ sở | 2,6Ghz | 2,5Ghz |
Tần số tối đa toàn lõi | 3,5Ghz | 4,1Ghz |
Tần số Turbo tối đa | 3,4Ghz | 3,5Ghz |
Tổng số lõi | 56 | 64 |
Bộ nhớ được cài đặt cho mỗi nút | 1024 GB (16x64GB DDR4 2933 MT/giây [2933 MT/giây]) | 1024 GB (16x64GB 5200 MT/giây [5200 MT/giây]) |
Thẻ NIC | Bộ điều khiển Ethernet Intel E810-C cho QSFP | Bộ điều khiển Ethernet Intel E810-C cho QSFP |
Lưu trữ trên mỗi nút | 4x Dell Ent NVMe P5600 MU 3.2 TB cho HDFS
1x 900 GB DELL BOSS VD |
4x Dell Ent NVMe P5600 MU 3.2 TB cho HDFS
2x Dell Ent NVMe CM6 MU 3.2 TB |
Hệ điều hành | CentOS 7.9 | CentOS 7.9 |
Khối lượng công việc | Các trường hợp sử dụng bán lẻ AI | Các trường hợp sử dụng bán lẻ AI |
Phân phối Hadoop | Cloudera Data Platform Private Cloud Base 7.1.8 | Cloudera Data Platform Private Cloud Base 7.1.8 |
Java | Cloudera OpenJDK 1.8 | Cloudera OpenJDK 1.8 |
Phần mềm khác | Tia lửa v2.4
Python v3.7 Horovod v0.25 TensorFlow v2.9.1 |
Tia lửa v2.4
Python v3.7 Horovod v0.25 TensorFlow v2.9.1 |
Kích thước tập dữ liệu khối lượng công việc (Tổng cộng) | 1 Terabyte | 1 Terabyte |
Bảng 4. Mô tả trường hợp sử dụng AI
Trường hợp sử dụng | Sự miêu tả | Lớp học | Dữ liệu | Thuật toán |
Phân khúc khách hàng | Tìm phân khúc khách hàng dựa trên hành vi của họ. Phân cụm/phân khúc khách hàng dựa trên hành vi trả hàng (tần suất trả hàng, tỷ lệ trả hàng/đơn hàng,…) và hành vi mua hàng (tần suất mua hàng, thời gian mua hàng gần đây,..) | Phân cụm | Con số | K-có nghĩa là |
Phiên âm cuộc gọi | Ghi lại chính xác các cuộc trò chuyện bằng âm thanh của khách hàng thành văn bản. | Phân loại | Âm thanh | RNN |
Dự báo bán hàng | Dự báo doanh số bán hàng hàng tuần cho từng bộ phận cửa hàng và từng cửa hàng của một chuỗi bán lẻ có nhiều cửa hàng dựa trên lịch sử dữ liệu bán hàng hạn chế. | Sự hồi quy | Con số | Holt-Winters |
Phát hiện thư rác | Tìm các bình luận, đánh giá hoặc mô tả về các mặt hàng trong một doanh nghiệp bán lẻ có nội dung spam. Vấn đề cần giải quyết là xác định những đánh giá đó là spam. | Phân loại | Chữ | Bayes ngây thơ |
Lỗi phần cứng | Dự đoán lỗi phần cứng sắp xảy ra, dựa trên nhật ký sự kiện phần cứng hiện có | Phân loại | Con số | Máy hỗ trợ vector |
Khuyến nghị sản phẩm | Cải thiện việc bán chéo bằng cách đưa ra các đề xuất “sản phẩm tiếp theo để mua”. Dựa trên các sản phẩm đã mua trước đó, hãy đề xuất các sản phẩm mà khách hàng cũng có thể quan tâm. Những đề xuất đó được tìm thấy bằng cách so sánh khách hàng (theo sản phẩm của họ) và/hoặc sản phẩm (theo khách hàng của họ) | Sự giới thiệu | Con số | Lọc cộng tác |
Phân loại các chuyến đi | Phân loại danh mục và loại chuyến đi bằng cách sử dụng dữ liệu từ các chuyến mua sắm hiện tại của khách hàng. | Phân loại | Con số | Cây được tăng cường độ dốc |
Nhận dạng khuôn mặt | Nhận dạng chính xác hình ảnh khuôn mặt khách hàng. | Phân loại | Hình ảnh | CNN + Hồi quy logistic |
Phát hiện gian lận | Phát hiện xem một giao dịch tài chính nào đó có phải là gian lận hay không. | Phân loại | Con số | Hồi quy logistic |
Hình 2 cho thấy Nền tảng Dell PowerEdge với bộ xử lý Intel® Xeon® Scalable thế hệ thứ 5 mang lại hiệu suất tăng lên tới 60% so với Máy chủ Dell PowerEdge với bộ xử lý Intel® Xeon® Scalable thế hệ thứ 3. Các trường hợp sử dụng khác nhau cho thấy mức tăng khác nhau tùy theo triển khai cụ thể, đặc điểm thời gian chạy nội tại và yêu cầu tính toán gây căng thẳng cho các thành phần hệ thống khác nhau ở các giai đoạn khác nhau của quy trình xử lý dữ liệu. Các trường hợp sử dụng như Phân khúc khách hàng—sử dụng K-means từ danh mục Học máy cổ điển—và Phiên âm cuộc gọi—từ danh mục Học sâu—có thể tận dụng tối đa các tính năng bộ xử lý mới hơn từ các mô-đun bộ nhớ có băng thông và hiệu suất cao hơn.
Phần kết luận
Nền tảng dữ liệu Cloudera® khi được triển khai trên Dell PowerEdge R760 cho phép khối lượng công việc học máy nhanh hơn, hiệu quả hơn và có thể mở rộng. Có mức tăng hiệu suất đáng kể lên tới 55% khi đào tạo tập dữ liệu 1 terabyte bằng một số thuật toán AI phổ biến nhất. Mức tăng hiệu suất đáng kể lên tới 60% cũng được quan sát thấy khi suy ra thông tin chi tiết từ tập dữ liệu 1 terabyte được triển khai trên ngăn xếp Cloudera® phân tán.
Chạy Cloudera® Data Platform trên các máy chủ Dell® PowerEdge mới nhất được trang bị bộ xử lý Intel® Xeon® Scalable thế hệ thứ năm có thể tăng hiệu suất của trung tâm dữ liệu và đáp ứng khối lượng công việc học máy của doanh nghiệp đang phát triển, mang lại thời gian đưa ra thị trường nhanh hơn đồng thời giảm và tối thiểu hóa tổng chi phí sở hữu. Việc tách biệt lưu trữ khỏi tính toán cho phép một trong hai được mở rộng độc lập để phù hợp với nhu cầu của người dùng, tăng trưởng dữ liệu hoặc mô hình sử dụng – một lợi thế chính của Cloudera® Data Platform.
Bạn có thể mong đợi những cải tiến bổ sung khi hiện đại hóa hệ thống echo quản lý dữ liệu của mình. Nền tảng Cloudera cũng đã được cải thiện theo thời gian để cung cấp các lợi ích sau thông qua CDP Private Cloud Data Services:
- Đơn giản hóa tính năng đa thuê bao và cô lập : Việc triển khai ứng dụng theo dạng container trong CDP Private Cloud đảm bảo rằng mỗi ứng dụng được cô lập đầy đủ và có thể chạy độc lập với các ứng dụng khác trên cùng cơ sở hạ tầng Kubernetes để loại bỏ tình trạng tranh chấp tài nguyên.
- Triển khai ứng dụng đơn giản : CDP Private Cloud đảm bảo triển khai ứng dụng nhanh hơn với Data Lake dùng chung so với các cụm đơn khối, trong đó cần có các bản sao dữ liệu bảo mật và quản trị riêng biệt cho từng ứng dụng riêng biệt.
- Tận dụng cơ sở hạ tầng tốt hơn : Tương tự như CDP Public Cloud, CDP Private Cloud cho phép bạn cung cấp tài nguyên theo thời gian thực khi triển khai ứng dụng. Ngoài ra, khả năng mở rộng hoặc tạm dừng ứng dụng theo nhu cầu trong CDP Private Cloud đảm bảo rằng cơ sở hạ tầng tại chỗ của bạn được sử dụng tối ưu.
Nền tảng dữ liệu Cloudera hiện đại cho phép bạn biến mọi dữ liệu thành nhiên liệu cho công cụ chuyển đổi số thông qua kiến trúc dữ liệu hiện đại dành cho các lưới dữ liệu quy mô petabyte, cấu trúc dữ liệu và kho dữ liệu mở được hỗ trợ bởi Apache Iceberg.