问候语
目前正在创建一个神经网络,并且需要正确地构建数据。对于其中一个数据列,有需要转换为数字的字符串数据。唯一的问题是,每一行中的字符串数据是示例QWERTGCD, AWERTKRD, TWERTKRR'
等。有超过 1000 行的行,每一行都具有相同或不同的字符串,如发布的示例中所示。我不知道如何将多个字符串转换为这种规模的分类数据。标签分区也是如此。
到目前为止,我有这个开始
dataset$Box = as.numeric(factor(dataset$Box, levels = c(), labels = c()))
不确定我是否想得太多了,但我无法弄清楚如何准确地输入级别和表格,而无需费力地浏览数据并输入自己。
这是正在使用的数据的示例。
B,11979,13236,1261,3,QWERTGCD,1 B,475514,476069,559,33,QWERTOOD,1 C,65534,65867,337,1,QWERAEER,1 C,73738,74657,923,2,AWERTWED,1
谢谢
如果没有可重现的示例,就很难确切地知道您需要什么,但总的来说,R 擅长的一件事是一次对整个列运行操作。您只是将其中dataset
命名的列Box
从字符串转换为数字,并通过一个因子。factor()
为您查找列中的所有唯一值。所以你不需要指定它们。
dataset$Box <- as.numeric(factor(dataset$Box))
将获取Box
数据集中的列并将其从 class 转换character
为 class numeric
,Box
按字母数字顺序对字符值进行编号(除非您另行指定)。它甚至可能已经是一个因素,具体取决于您的数据集是如何生成的。您可以使用class(dataset$Box)
. 如果它返回factor
那么你只需要运行dataset$Box <- as.numeric(dataset$Box)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句