NumPy
Python 科學運算的基本套件
NumPy 2.2.0 已發布!
強大的 N 維陣列
快速且多功能,NumPy 的向量化、索引和廣播概念是現今陣列運算的 фактический 标准。
數值運算工具
NumPy 提供全面的數學函數、隨機數生成器、線性代數常式、傅立葉轉換等等。
開放原始碼
NumPy 在自由的 BSD 許可證下發布,由一個充滿活力、反應迅速且多元的社群在 GitHub 上公開開發和維護。
互通性
NumPy 支援廣泛的硬體和運算平台,並能良好地與分散式、GPU 和稀疏陣列函式庫協同運作。
高效能
NumPy 的核心是經過良好優化的 C 程式碼。享受 Python 的靈活性以及編譯後程式碼的速度。
易於使用
NumPy 的高階語法使其易於存取且對任何背景或經驗水平的程式設計師都具有生產力。
試用 NumPy

使用互動式 shell 在瀏覽器中試用 NumPy

"""
To try the examples in the browser:
1. Type code in the input cell and press
   Shift + Enter to execute
2. Or copy paste the code, and click on
   the "Run" button in the toolbar
"""

# The standard way to import NumPy:
import numpy as np

# Create a 2-D array, set every second element in
# some rows and find max per row:

x = np.arange(15, dtype=np.int64).reshape(3, 5)
x[1:, ::2] = -99
x
# array([[  0,   1,   2,   3,   4],
#        [-99,   6, -99,   8, -99],
#        [-99,  11, -99,  13, -99]])

x.max(axis=1)
# array([ 4,  8, 13])

# Generate normally distributed random numbers:
rng = np.random.default_rng()
samples = rng.normal(size=2500)
samples

生態系統

幾乎每位使用 Python 的科學家都仰賴 NumPy 的強大功能。

NumPy 將 C 和 Fortran 等語言的運算能力帶入 Python,這是一種更易於學習和使用的語言。 這種強大功能帶來了簡潔性:NumPy 中的解決方案通常清晰而優雅。

當函式庫被編寫以利用創新硬體、建立專門的陣列類型或新增超出 NumPy 提供的功能時,NumPy 的 API 是起點。

陣列函式庫功能與應用領域
DaskDask用於分析的分散式陣列和進階平行處理,實現大規模效能。
CuPyCuPy與 NumPy 相容的陣列函式庫,用於 Python 的 GPU 加速運算。
JAXJAXNumPy 程式的可組合轉換:微分、向量化、即時編譯到 GPU/TPU。
xarrayXarray標記、索引的多維陣列,用於進階分析和視覺化。
sparseSparse與 NumPy 相容的稀疏陣列函式庫,可與 Dask 和 SciPy 的稀疏線性代數整合。
PyTorchPyTorch深度學習框架,加速從研究原型到生產部署的路徑。
TensorFlowTensorFlow用於機器學習的端對端平台,可輕鬆建置和部署 ML 驅動的應用程式。
arrowArrow跨語言開發平台,用於柱狀記憶體內資料和分析。
xtensorxtensor具有廣播和延遲運算的多維陣列,用於數值分析。
awkwardAwkward Array使用類似 NumPy 的慣用語操作類似 JSON 的資料。
uarrayuarrayPython 後端系統,將 API 與實作分離; unumpy 提供 NumPy API。
tensorlytensorly張量學習、代數和後端,可無縫使用 NumPy、PyTorch、TensorFlow 或 CuPy。
Diagram of Python Libraries. The five catagories are 'Extract, Transform, Load', 'Data Exploration', 'Data Modeling', 'Data Evaluation' and 'Data Presentation'.

NumPy 位於豐富的資料科學函式庫生態系統的核心。 典型的探索性資料科學工作流程可能如下所示

對於大量資料,DaskRay 旨在擴展規模。 穩定的部署依賴於資料版本控制 (DVC)、實驗追蹤 (MLFlow) 和工作流程自動化 (AirflowDagsterPrefect)。

Diagram of three overlapping circles. The circles are labeled 'Mathematics', 'Computer Science' and 'Domain Expertise'. In the middle of the diagram, which has the three circles overlapping it, is an area labeled 'Data Science'.

NumPy 構成了強大的機器學習函式庫(如 scikit-learnSciPy)的基礎。 隨著機器學習的發展,建立在 NumPy 之上的函式庫列表也在不斷增加。 TensorFlow 的深度學習功能具有廣泛的應用——其中包括語音和影像辨識、基於文字的應用程式、時間序列分析和影片偵測。 PyTorch 是另一個深度學習函式庫,在電腦視覺和自然語言處理領域的研究人員中很受歡迎。

稱為集成方法的統計技術(如分箱、套袋法、堆疊法和提升法)是由 XGBoostLightGBMCatBoost 等工具實作的 ML 演算法之一——CatBoost 是最快的推論引擎之一。 YellowbrickEli5 提供機器學習視覺化。

A streamplot made in matplotlib
A scatter-plot graph made in ggpy
A box-plot made in plotly
A streamgraph made in altair
A pairplot of two types of graph, a plot-graph and a frequency graph made in seaborn"
A 3D volume rendering made in PyVista.
A multi-dimensionan image made in napari.
A Voronoi diagram made in vispy.

NumPy 是蓬勃發展的 Python 視覺化領域中的重要組件,其中包括 MatplotlibSeabornPlotlyAltairBokehHolovizVispyNapariPyVista 等等。

NumPy 加速處理大型陣列的能力使研究人員能夠視覺化遠大於原生 Python 可以處理的資料集。

案例研究