深入浅出：在Pandas中高效管理分类数据

fjmyhfvclm2025-05-04 40

准备工作

在开始之前，我们需要安装Pandas和Numpy两个包。你可以使用以下代码进行安装：

pip install pandasnumpy

安装好这些包后，让我们正式进入本文的主要内容。

在Pandas中管理分类数据

分类数据（Categorical Data）是Pandas中的一种数据类型，用于表示特定（固定）数量的类别或不同的取值。它与Pandas中的字符串（string）或对象（object）数据类型不同，尤其是在数据的存储方式上。

分类数据具有更高的内存利用率，因为分类数据中的取值只会被存储一次。相比之下，对象类型会将每个取值都作为单独的字符串存储，这会消耗更多的内存。

让我们通过一个示例来实践分类数据。下面展示了如何在Pandas中初始化分类数据：

import pandas as pddf = pd.DataFrame({ 'fruits': pd.Categorical(['apple', 'kiwi', 'watermelon', 'kiwi', 'apple', 'kiwi']), 'size': pd.Categorical(['small', 'large', 'large', 'small', 'large', 'small'])})df.info

输出结果：

RangeIndex: 6 entries, 0 to 5Data columns (total 2 columns): # Column Non-Null CountDtype --- ------ -------------- ----- 0 fruits 6 non-null category 1 size 6 non-null categorydtypes: category(2)memory usage: 396.0 bytes

你可以看到，fruits和size两列的数据类型是category，而不是我们通常见到的object类型。

我们可以通过以下代码，对比分类数据类型和对象数据类型的内存占用情况：

import numpy as npn = 100000df_object = pd.DataFrame({ 'fruit': np.random.choice(['apple', 'banana', 'orange'], size=n)})print('对象类型的内存占用：')print(df_object['fruit'].memory_usage(deep=True))df_category = pd.DataFrame({ 'fruit': pd.Categorical(np.random.choice(['apple', 'banana', 'orange'], size=n))})print('分类类型的内存占用：')print(df_category['fruit'].memory_usage(deep=True))

输出结果：

对象类型的内存占用：6267209分类类型的内存占用：100424

可以看到，随着样本数量的增加，对象类型的数据内存消耗远大于分类数据类型。

接下来，我们来看分类数据类型可以使用的独特方法。比如，你可以获取所有类别：

df['fruits'].cat.categories

输出：

Index(['apple', 'kiwi', 'watermelon'], dtype='object')

我们还可以重命名这些类别：

df['fruits'] = df['fruits'].cat.rename_categories(['fruit_apple', 'fruit_banana', 'fruit_orange'])print(df['fruits'].cat.categories)

输出：

Index(['fruit_apple', 'fruit_banana', 'fruit_orange'], dtype='object')

分类数据类型还支持引入有序值（ordinalvalues），并可以对类别进行比较。

df['size'] = pd.Categorical(df['size'], categories=['small', 'medium', 'large'], ordered=True)df['size'] < 'large'

输出：

0 True1 False2 False3 True4 False5 TrueName: size, dtype: bool

掌握分类数据类型，将为你的数据分析带来极大的优势。

转载请注明原文地址:https://www.aspcms.cn/tech/1730826.html