如何将Pandas Dataframe中的字符串转换为列表或字符数组？

debugcn 发表于 Dev

一世

我有一个称为data的数据框，其中的一列包含字符串。我想从字符串中提取字符，因为我的目标是对它们进行一次热编码并使其可用于分类。包含字符串的列按如下方式存储在预测变量中：

predictors = pd.DataFrame(data, columns = ['Sequence']).to_numpy()

打印后的结果是：

[['DKWL']
 ['FCHN']
 ['KDQP']
 ...
 ['SGHC']
 ['KIGT']
 ['PGPT']]

，而我的目标是得到一些类似的东西：

[['D', 'K', 'W', 'L']
 ...
 ['P', 'G', 'P, 'T']]

据我了解，这是一种更适合单次编码的形式。

我已经尝试过此处提供的答案如何将字符串字符转换为列表？还是这里如何用字符串字符创建列表？没有成功。

具体来说，我也尝试过这样：

for row in predictors:
    row = list(row)

但结果的形式与预测变量相同，即

 [['DKWL']
 ['FCHN']
 ['KDQP']
 ...
 ['SGHC']
 ['KIGT']
 ['PGPT']]

耶斯列尔

您可以通过列表理解将值转换为字母list，然后array根据需要转换为字母：

predictors = np.array([list(x) for x in data])

或转换列predictors['Sequence']：

a = np.array([list(x) for x in predictors['Sequence']])
print(a)
[['D' 'K' 'W' 'L']
 ['F' 'C' 'H' 'N']
 ['K' 'D' 'Q' 'P']
 ['S' 'G' 'H' 'C']
 ['K' 'I' 'G' 'T']
 ['P' 'G' 'P' 'T']]

对于系列使用：

s = predictors['Sequence'].apply(list)
print(s)
0    [D, K, W, L]
1    [F, C, H, N]
2    [K, D, Q, P]
3    [S, G, H, C]
4    [K, I, G, T]
5    [P, G, P, T]
Name: Sequence, dtype: object

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。