1. [主题](https://developer.nvidia.cn/topics/)

[AI](https://developer.nvidia.cn/topics/ai)
2. [数据科学](/topics/ai/data-science)

CUDA-X 数据科学库

# CUDA-X Data Science

CUDA-X™ Data Science 是一套开源库集合，可加速流行的数据科学库与平台。它属于 CUDA-X 系列高度优化、基于 CUDA® 的特定领域库。  
  
CUDA-X Data Science 提供无需更改代码的 API，可直接加速 pandas、scikit-learn 等流行 PyData 工具，以及 Apache Spark 等分布式计算框架。通过超过 100 种与数据科学和数据处理生态系统中开源库和工具的集成，CUDA-X Data Science 致力于让更多人轻松体验加速数据科学的能力。

[立即下载](https://docs.rapids.ai/install?_gl=1*kwbd1w*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODk0OTQkbzk1JGcwJHQxNzUyMTg5NDk0JGo2MCRsMCRoMA)[文档](https://docs.rapids.ai/)

 ![NVIDIA CUDA-X Data Science open-source libraries](https://developer.download.nvidia.com/images/cuda-x/cuda-diagram-data-science-and-ai-application-stack.png)
* * *

## CUDA-X 数据科学库

CUDA-X 数据科学库可加速数据分析、机器学习、图分析及数据密集型应用（如向量检索），让单颗 GPU 达到优异性能，也能通过简单、无需更改代码的接口，扩展至分布式系统。

### cuDF：速度提升 50 倍的 pandas

cuDF 是一款 GPU 加速库，针对基础 DataFrame 操作进行优化。它为 pandas、Polars 及 Apache Spark 等流行 DataFrame 工具提供无需更改代码即可使用的加速能力。

[详细了解 cuDF](/cudf)

[运行基准测试](https://github.com/rapidsai/cudf/blob/branch-25.06/docs/cudf/source/user_guide/performance-comparisons/performance-comparisons.ipynb)

[查看文档](https://docs.rapids.ai/api/cudf/stable/)

[立即安装](https://docs.rapids.ai/install?_gl=1*kwbd1w*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODk0OTQkbzk1JGcwJHQxNzUyMTg5NDk0JGo2MCRsMCRoMA..)

**标签：pandas，dataframe，Python，CC++**

### cuML：scikit-learn 速度提高 50 倍

cuML 是一款 GPU 加速的机器学习库，针对机器学习算法在 GPU 上的执行进行了优化。它为 scikit-learn、UMAP 和 HDBSCAN 等流行算法提供无需更改代码即可使用的加速能力。

[详细了解 cuML](/cuml)

[运行基准测试](https://github.com/rapidsai/cuml/tree/branch-25.06/python/cuml/cuml/benchmark)

[查看文档](https://docs.rapids.ai/api/cuml/stable/)

[立即安装](https://docs.rapids.ai/install?_gl=1*kwbd1w*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODk0OTQkbzk1JGcwJHQxNzUyMTg5NDk0JGo2MCRsMCRoMA..)

**标签：scikit-learn、机器学习、Python、C++**

### cuGraph：将 NetworkX 速度提高 48 倍

cuGraph 是一款 GPU 加速的图分析库，针对图算法在 GPU 上的执行进行了优化，无需专业软件即可处理数百万节点，并为 NetworkX 提供了无需更改代码即可使用的加速能力。

[运行基准测试](https://github.com/rapidsai/nx-cugraph/blob/branch-25.06/benchmarks/pytest-based)

[查看文档](https://docs.rapids.ai/api/cugraph/stable/)

[立即安装](https://docs.rapids.ai/install?_gl=1*kwbd1w*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODk0OTQkbzk1JGcwJHQxNzUyMTg5NDk0JGo2MCRsMCRoMA..)

**标签：NetworkX、图形、Python、C++**

### 使用 cuDF 加速 Apache Spark

详细了解适用于 Apache Spark 工作流的加速器插件。

[详细了解 GPU 加速的 Spark](https://www.nvidia.cn/deep-learning-ai/solutions/data-science/apache-spark-3/)

**标签：机器学习，数据处理，分布式计算，Scala，Python**

### Dask-RAPIDS

将 GPU 加速的数据科学工作流扩展到 Dask 上的多个节点。

[在 GitHub 上开始使用](https://github.com/rapidsai/cudf/tree/main/python/dask_cudf)

**标签：分布式计算、Python**

### cuxfilter

通过对超过 1 亿行的表格数据集进行多维过滤，创建交互式数据视觉效果。

[开始使用 cuxfilter](https://docs.rapids.ai/api/cuxfilter/stable/)

**标签：仪表板、可视化、Python**

### cuCIM

用于图像处理的镜像 scikit-image，以及使用 cuCIM API 加载图像的 OpenSlide。

[cuCIM 入门](https://docs.rapids.ai/api/cucim/stable/?_gl=1*w4ryfi*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODUyMjUkbzk0JGcwJHQxNzUyMTg1MjI1JGo2MCRsMCRoMA..)

**标签：计算机视觉、视觉处理、Python**

### cuVS

应用 cuVS 算法加速向量搜索，包括来自 CAGRA 的出色性能。

[cuVS 入门](/cuvs)

**标签：向量搜索，Python，C++，c，腐蚀**

### RAFT

使用 RAFT 的 CUDA 加速基元快速编写分析。

[开始使用 RAFT](https://docs.rapids.ai/api/raft/stable?_gl=1*1jr70u0*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODUyMjUkbzk0JGcwJHQxNzUyMTg1MjI1JGo2MCRsMCRoMA..)

**标签：基元、算法、CUDA、Python、C++**

### KvikIO  

通过与 cuFile 的强大绑定，充分利用 NVIDIA® GPUDirect® Storage (GDS) 。

[开始使用 KviKIO](https://docs.rapids.ai/api/kvikio/stable?_gl=1*w4ryfi*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODUyMjUkbzk0JGcwJHQxNzUyMTg1MjI1JGo2MCRsMCRoMA..)

**标签：FILEIO、GPUDirectStorage、Python、C++**

### 其他 CUDA-X 数据科学和处理库  

查看库和工具的完整列表。

[查看 GitHub](https://github.com/rapidsai)

* * *

## 开始使用

实战教程

培训

### 入门套件：使用 pandas Code 加速数据分析  

此套件演示了如何使用 pandas 代码和 PyViz 库针对大规模数据创建响应式控制面板，同时利用 cuDF 加速探索性数据分析，且无需更改代码。

- 

视频：[借助 NVIDIA GPU 上的 pandas 加速探索性数据分析](https://images.nvidia.cn/cn/youtube-replicates/PJpCJsqcfOk.mp4)( 16：06)

- 

Notebook：[构建交互式控制面板 Notebook](https://colab.research.google.com/gist/will-hill/aa24c3ffe1428c005af3793fcacf9bd2/cudf_pandas_opencellid_demo.ipynb)

### 入门套件：基于 XGBoost 的加速机器学习  

XGBoost 是用于梯度提升决策树的热门 Python 库。它为机器学习模型的分类、回归和排名工作流程提供强力支持。

- 

视频：

# [基于 NVIDIA GPU 的 XGBoost 加速机器学习](https://images.nvidia.cn/cn/youtube-replicates/lhraJRaDkOA.mp4)( 20：10)

- 

Notebook：[开始在 GPU 上加速 XGBoost 工作流](https://colab.research.google.com/gist/will-hill/2edd85e351e62e52fccd43da9b027434/xgboost_rapids_taxi.ipynb)

### 入门套件：使用 cuML 代码加速机器学习

cuML 可加速流行的机器学习算法，包括随机森林、UMAP 和 HDBSCAN

- 

视频：[cuML 可将机器学习加速 50 倍，无需更改代码](https://images.nvidia.cn/cn/youtube-replicates/cIJsVq8CPys.mp4)( 00：55)

- 

博客：[NVIDIA cuML 为 scikit-learn 带来零代码更改加速](https://developer.nvidia.com/zh-cn/blog/nvidia-cuml-brings-zero-code-change-acceleration-to-scikit-learn/)

- 

Notebook：[开始使用加速热门机器学习库](https://colab.research.google.com/github/rapidsai-community/showcase/blob/main/getting_started_tutorials/cuml_sklearn_colab_demo.ipynb)

#### 入门套件：使用 Apache Spark 加速数据分析

适用于 Apache Spark 的 NVIDIA RAPIDS™ 加速器可加速企业级数据工作负载，从而节约成本。

- 

视频：[使用适用于 Apache Spark 的 RAPIDS 加速器在 GPU 上加速数据分析](https://www.nvidia.cn/on-demand/session/gtc25-dlit71528/)( 1：27：34)

- 

博客：[使用 GPU 预测 Apache Spark 的性能](https://developer.nvidia.com/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/)

- 

用户[指南：适用于 Apache Spark 的 RAPIDS 加速器用户指南](https://docs.nvidia.com/spark-rapids/user-guide/latest/index.html)

#### 入门套件：使用 Polars Code 加速数据分析  

Polars 以高性能和内存优化而闻名。调用由 cuDF 提供支持的 GPU 引擎，体验更快的执行速度。

- 

视频：[使用 Polar 在 2 秒内处理 1 亿行数据](https://images.nvidia.cn/cn/youtube-replicates/AoKeit2Fbmw.mp4)( 00：28)

- 

博客：[开始使用加速 Polars](https://developer.nvidia.com/zh-cn/blog/polars-gpu-engine-powered-by-rapids-cudf-now-available-in-open-beta/)

- 

Notebook：[加速 Polars 数据处理工作流 Notebook](https://colab.research.google.com/github/CUDA-X%20Data%20Science%20Librariesai-community/showcase/blob/main/accelerated_data_processing_examples/polars_gpu_engine_demo.ipynb?utm_source=nvidia+mktg&amp;utm_medium=web&amp;utm_campaign=polars+launch)

#### 入门套件：使用 NetworkX Code 加速图形分析  

NetworkX 可加速热门图形算法，包括 Louvain、Betweeness Centrality 和 PageRank。

- 

视频：[借助 NVIDIA cuGraph，实现高达 500 倍的网络加速，且无需更改代码](https://images.nvidia.cn/cn/youtube-replicates/3EsbU1gcH5c.mp4)( 00：42)

- 

博客：[NetworkX 使用 NVIDIA cuGraph 实现零代码更改加速](https://developer.nvidia.com/zh-cn/blog/networkx-introduces-zero-code-change-acceleration-using-nvidia-cugraph/)

- 

Notebook：[加速图形分析 Notebook](https://colab.research.google.com/github/rapidsai-community/showcase/blob/main/getting_started_tutorials/accelerated_networkx_demo.ipynb?ncid=so-othe-145635-vt27)

### 数据科学学习路径

概述 DLI 为加速数据科学提升技能而提供的所有内容。

[了解详情](https://www.nvidia.com/en-us/learn/learning-path/accelerated-data-science/)

### 无需更改代码即可加速数据科学工作流程

参加我们的免费自定进度课程，了解如何通过零代码更改加速实现工作流程转型。

[了解详情](https://learn.nvidia.com/courses/course-detail?course_id=course-v1:DLI+T-DS-03+V1)

### 获得加速数据科学认证

通过我们的认证课程，更深入地了解加速数据科学。

[了解详情](https://www.nvidia.com/en-us/learn/certification/accelerated-data-science-professional/)

* * *

## 在您的环境中安装和部署

快速安装

部署指南

### 使用 conda 快速安装

1. 如果未安装，请下载并运行安装脚本。这将安装最新的 miniforge：

    wget &quot;https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh&quot; bash Miniforge3-$(uname)-$(uname -m).sh

2. 然后使用以下命令进行安装：

    conda create -n rapids-26.04 -c rapidsai -c conda-forge rapids=26.04 python=3.13 &#39;cuda-version\&gt;=13.0,\&lt;=13.1&#39;

### 使用 pip 快速安装

    Install via the NVIDIA PyPI index: pip install \ --extra-index-url=https://pypi.nvidia.com \ cudf-cu13==26.4.\* \ dask-cudf-cu13==26.4\* \ cuml-cu13==26.4.\* \ cugraph-cu13==26.4.\*

### 本地部署

使用本指南在本地计算机上安装和构建 conda、pip、Docker 或 WSL2。

[阅读本地部署指南](https://docs.rapids.ai/deployment/stable/local/)

### 在平台上部署  

在您选择的平台 (包括 Kubernetes、Databricks 和 Google Colab) 上部署 CUDA-X 数据科学库。

[阅读平台指南](https://docs.rapids.ai/deployment/stable/platforms/)

### 云端部署

在 AWS、Azure、GCP 等平台中运行 CUDA-X 数据科学库。

[阅读云部署指南](https://docs.rapids.ai/deployment/stable/cloud/)

* * *

## 加速数据科学生态系统

开源库、商业软件和行业的数据从业者正在利用 CUDA-X 数据科学推动创新。

开源库

平台

行业采用

 ![Data Science Open-Source Library - Apache Arrow](https://developer.download.nvidia.com/images/logos/apache-arrow-logo.svg)

 ![Data Science Open-Source Library - Apache Spark](https://developer.download.nvidia.com/images/logos/apache-spark-logo.svg)

 ![Data Science Open-Source Library - CuPy](https://developer.download.nvidia.com/images/logos/cupy-logo.svg)

 ![Data Science Open-Source Library - Dask](https://developer.download.nvidia.com/images/logos/dask-logo.svg)

 ![Data Science Open-Source Library - Dmlc XGBoost](https://developer.download.nvidia.com/images/logos/dmlc-xgboost-logo.svg)

 ![Data Science Open-Source Library - HoloViz](https://developer.download.nvidia.com/images/logos/holoviz-logo.svg)

 ![Data Science Open-Source Library - NetworkX](https://developer.download.nvidia.com/images/logos/networkx-logo.svg)

 ![Data Science Open-Source Library - Numba](https://developer.download.nvidia.com/images/logos/numba-logo.svg)

 ![Data Science Open-Source Library - Polars](https://developer.download.nvidia.com/images/logos/polars-logo.svg)

 ![Data Science Open-Source Library - PyG](https://developer.download.nvidia.com/images/logos/pyg-logo.svg)

 ![Data Science Open-Source Library - PyTorch](https://developer.download.nvidia.com/images/logos/pytorch-logo.svg)

 ![Data Science Open-Source Library - Scikit Learn](https://developer.download.nvidia.com/images/logos/scikit-learn-logo.svg)

 ![Data Science Open-Source Library - scverse](https://developer.download.nvidia.com/images/logos/scverse-logo.svg)

 ![Data Science Platform - Amazon SageMaker](https://developer.download.nvidia.com/images/logos/amazon-sagemaker-logo.svg)

 ![Data Science Platform - Anaconda](https://developer.download.nvidia.com/images/logos/anaconda-logo.svg)

 ![Data Science Platform - Azure Machine Learning](https://developer.download.nvidia.com/images/logos/azure-machine-learning-logo.svg)

 ![Data Science Platform - Cloudera](https://developer.download.nvidia.com/images/logos/cloudera-logo.svg)

 ![Data Science Platform - Databricks](https://developer.download.nvidia.com/images/logos/databricks-logo.svg)

 ![Data Science Platform - Google Cloud Dataproc](https://developer.download.nvidia.com/images/logos/dataproc-logo.svg)

 ![Data Science Platform - Determined AI](https://developer.download.nvidia.com/images/logos/determined-ai-logo.svg)

 ![Data Science Platform - Domino](https://developer.download.nvidia.com/images/logos/domino-logo.svg)

 ![Data Science Platform - Google Colab](https://developer.download.nvidia.com/images/logos/google-colab-logo.svg)

 ![Data Science Platform - Iguazio](https://developer.download.nvidia.com/images/logos/iguazio-logo.svg)

 ![Data Science Platform - Snowflake](https://developer.download.nvidia.com/images/logos/snowflake-logo.svg)

 ![Data Science Industry Adoption - AT&amp;T](https://developer.download.nvidia.com/images/logos/att-logo.svg)

AT&amp;T 在其数据到 AI 工作流中的 GPU 集群上应用了适用于 Apache Spark 的 RAPIDS 加速器。

[阅读博客](https://developer.nvidia.com/zh-cn/blog/scaling-data-pipelines-att-optimizes-speed-cost-and-efficiency-with-gpus/)

 ![Data Science Industry Adoption - bunq](https://developer.download.nvidia.com/images/logos/bunq-logo.svg)

Bunq 使用 NVIDIA CUDA-X 库将模型训练速度提高了 100 倍，数据处理速度提高了 5 倍，从而提高了欺诈检测的准确性。

[阅读博客](https://blogs.nvidia.com/blog/europe-financial-services-ai/)

 ![Data Science Industry Adoption - CapitalOne](https://developer.download.nvidia.com/images/logos/capital-one-logo.svg)

Capital One 加速了其金融和信用分析流程，将模型训练速度提高了 100 倍。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtcsj20-s22136/)

 ![Data Science Industry Adoption - Checkout.com](https://developer.download.nvidia.com/images/logos/checkout-logo.svg)

借助 NVIDIA cuDF，Checkout.com 将数据分析工作流的速度从几分钟缩短到几秒钟。

[阅读博客](https://blogs.nvidia.com/blog/europe-financial-services-ai/)

 ![Data Science Industry Adoption - Cloudera](https://developer.download.nvidia.com/images/logos/cloudera-logo.svg)

IRS 团队在 Cloudera 数据平台上使用适用于 Apache Spark 的 RAPIDS 加速器发现了欺诈行为。

[阅读博客](https://blogs.nvidia.com/blog/2021/09/07/cloudera-spark-irs-gpus/)

 ![Data Science Industry Adoption - Linkedin](https://developer.download.nvidia.com/images/logos/linkedin-logo.svg)

LinkedIn 开发了 DARWIN，以便在 NVIDIA cuDF 上实现更快的数据分析。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtcspring23-s51399/)

 ![Data Science Industry Adoption - NASA](https://developer.download.nvidia.com/images/logos/nasa-logo.svg)

NASA 使用 CUDA-X 数据科学来检测和量化空气污染异常情况，并构建偏差校正模型。

[阅读博客：第一部分](https://developer.nvidia.com/blog/nasa-and-nvidia-collaborate-to-accelerate-scientific-data-science-use-cases-part-1/)[阅读博客：第二部分](https://developer.nvidia.com/blog/nasa-and-nvidia-collaborate-to-accelerate-scientific-data-science-use-cases-part-2/)

 ![Data Science Industry Adoption - PayPal](https://developer.download.nvidia.com/images/logos/paypal-logo.svg)

PayPal 借助适用于 Apache Spark 的 RAPIDS 加速器将云成本降低了 70%。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtc24-s62506/)

 ![Data Science Industry Adoption - Taboola](https://developer.download.nvidia.com/images/logos/taboola-logo.svg)

广告平台 Taboola 使用适用于 Apache Spark 的 RAPIDS 加速器处理 TB 级的小时数据。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtc24-s62130/)

 ![Data Science Industry Adoption - Tgen](https://developer.download.nvidia.com/images/logos/tgen-logo.svg)

借助基于 CUDA-X 数据科学的 RAPIDS 单细胞，TGen 将 400 万个单元数据集的分析时间从 10 小时缩短到 3 分钟。

[阅读客户案例](https://www.nvidia.cn/customer-stories/reduce-single-cell-spatial-analysis-from-hours-to-minutes/)

 ![Data Science Industry Adoption - TCS](https://developer.download.nvidia.com/images/logos/tcs-logo.svg)

TCS Optumera 利用适用于 Apache Spark 的 RAPIDS 加速器加速其需求预测管道。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtcspring22-s42508/)

 ![Data Science Industry Adoption - Uber](https://developer.download.nvidia.com/images/logos/uber-logo.svg)

Uber 开发了支持 Spark 3.x 和 GPU 调度的 Horovod。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtcsj20-s21300/)

 ![Data Science Industry Adoption - Walmart](https://developer.download.nvidia.com/images/logos/walmart-logo.svg)

沃尔玛使用其产品替代算法解决了可扩展性问题。

[观看点播会议](https://www.nvidia.cn/on-demand/session/gtcspring22-s42259/)

* * *

## 加入社区

 ![](https://developer.download.nvidia.com/icons/m48-people-group.svg)
### 加入 Slack 上的加速数据科学社区

 ![](https://developer.download.nvidia.com/icons/m48-email-settings.svg)
### 注册以接收数据科学时事通讯

* * *

## 伦理 AI

NVIDIA 认为，可信赖的人工智能（Trustworthy AI）是各方共同的责任，为广泛的 AI 应用开发建立了相关政策和实践。用户在遵守服务条款下载或使用产品时，需与支持团队协作，确保其应用满足相关行业和场景的要求，并妥善应对产品被误用的风险。  
  
如需报告安全漏洞或 NVIDIA AI 相关问题，请[点击](https://www.nvidia.cn/support/submit-security-vulnerability/)提交。

### 立即下载 CUDA-X 数据科学库。  

[下载](https://docs.rapids.ai/install/?_gl=1*kwbd1w*_ga*MTE4NDAwMTQ1NS4xNzA5NzcwODcw*_ga_RKXFW6CM42*czE3NTIxODk0OTQkbzk1JGcwJHQxNzUyMTg5NDk0JGo2MCRsMCRoMA)


