数据集中的分类变量之间的相关性

珍妮

我有两个问题,关于我的数据集中预测模型的分类变量之间的相关性。同时使用Cramers V和TheilU仔细检查相关性。

  • 对于两个变量,我从Cramers V中获得了1.0,但是,当我使用TheilU方法时,我只有0.2,我不确定如何解释两个变量之间的关系吗?
  • 同样对于有经验的人,如果我得到0.73的2个变量的相关性,是否应该为预测模型删除一个变量?

提前非常感谢您!

好吧,您可能希望将非数字转换为数字。我认为我没有见过非数字的相关性,但是也许有些东西存在。不过,不确定如何工作。如果考虑一下,您如何将以下公式应用于非数值数据?

在此处输入图片说明

无论如何,这是一些示例代码供您尝试。

仅供参考:专门查看“ labelencoder”和“ dfDummies”。

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
#%matplotlib inline
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import classification_report, confusion_matrix, precision_recall_curve, auc, roc_curve
from sklearn.tree import DecisionTreeClassifier, export_graphviz
import graphviz

df = pd.read_csv('C:\\Users\\ryans\\OneDrive\\Desktop\\mushrooms.csv')

df.columns

df.head(5)

# The data is categorial so I convert it with LabelEncoder to transfer to ordinal.

labelencoder=LabelEncoder()
for column in df.columns:
    df[column] = labelencoder.fit_transform(df[column])

#df.describe()


#df=df.drop(["veil-type"],axis=1)

#df_div = pd.melt(df, "class", var_name="Characteristics")
#fig, ax = plt.subplots(figsize=(10,5))
#p = sns.violinplot(ax = ax, x="Characteristics", y="value", hue="class", split = True, data=df_div, inner = 'quartile', palette = 'Set1')
#df_no_class = df.drop(["class"],axis = 1)
#p.set_xticklabels(rotation = 90, labels = list(df_no_class.columns));

#plt.figure()
#pd.Series(df['class']).value_counts().sort_index().plot(kind = 'bar')
#plt.ylabel("Count")
#plt.xlabel("class")
#plt.title('Number of poisonous/edible mushrooms (0=edible, 1=poisonous)');


plt.figure(figsize=(14,12))
sns.heatmap(df.corr(),linewidths=.1,cmap="YlGnBu", annot=True)
plt.yticks(rotation=0);

在此处输入图片说明

dfDummies = pd.get_dummies(df)

plt.figure(figsize=(14,12))
sns.heatmap(dfDummies.corr(),linewidths=.1,cmap="YlGnBu", annot=True)
plt.yticks(rotation=0);

在此处输入图片说明

有关更多信息,请参见下面的链接。

http://queirozf.com/entries/one-hot-encoding-a-feature-on-a-pandas-dataframe-an-example

示例数据来自下面的链接以及该页面的底部。

https://www.kaggle.com/haimfeld87/analysis-and-classification-of-mushrooms/data

如果发现某些内容实际上是基于不将分类数据转换为数字数据的方法,请分享您的发现。我想看看!

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

分类变量和数字变量之间的相关性:TypeError

来自分类Dev

如何使用双数来计算连续变量和分类变量之间的相关性?

来自分类Dev

如何使用双数来计算连续变量和分类变量之间的相关性?

来自分类Dev

数据集中文本元素频率之间的相关性

来自分类Dev

查找变量和类变量之间的相关性

来自分类Dev

因变量和自变量之间的相关性

来自分类Dev

for循环可在2个不同的数据框中查找相同变量(列)之间的相关性

来自分类Dev

查找多个变量在每组行之间的相关性

来自分类Dev

R中仅特定变量之间的相关性

来自分类Dev

2个大小不同的变量之间的MATLAB相关性

来自分类Dev

两组变量之间的相关性

来自分类Dev

两个数据框之间的相关性

来自分类Dev

不同数据框的列之间的相关性

来自分类Dev

计算 R 数据框列之间的相关性

来自分类Dev

python中分类的相关性

来自分类Dev

如何在大型数据集中找到重要的相关性

来自分类Dev

小鼠中的插补方法-数据集中的相关性。[R

来自分类Dev

R中分类数据与二项式响应的相关性

来自分类Dev

python中数组之间的相关性

来自分类Dev

不同矩阵之间的相关性R

来自分类Dev

数字变量与逻辑变量之间的相关性是否导致(预期的)错误?

来自分类Dev

如何关联和可视化一个变量与多个变量之间的相关性

来自分类Dev

R中类似变量的相关性

来自分类Dev

变量和$ watch的AngularJS相关性

来自分类Dev

Python - 与公式的变量相关性

来自分类Dev

计算具有NA的线性回归残差与R中的自变量之间的相关性

来自分类Dev

如何使用map()函数计算变量之间的Pearson相关性?

来自分类Dev

x与其他两个变量之间的相关性

来自分类Dev

如何获得两个变量之间的相关性滞后

Related 相关文章

  1. 1

    分类变量和数字变量之间的相关性:TypeError

  2. 2

    如何使用双数来计算连续变量和分类变量之间的相关性?

  3. 3

    如何使用双数来计算连续变量和分类变量之间的相关性?

  4. 4

    数据集中文本元素频率之间的相关性

  5. 5

    查找变量和类变量之间的相关性

  6. 6

    因变量和自变量之间的相关性

  7. 7

    for循环可在2个不同的数据框中查找相同变量(列)之间的相关性

  8. 8

    查找多个变量在每组行之间的相关性

  9. 9

    R中仅特定变量之间的相关性

  10. 10

    2个大小不同的变量之间的MATLAB相关性

  11. 11

    两组变量之间的相关性

  12. 12

    两个数据框之间的相关性

  13. 13

    不同数据框的列之间的相关性

  14. 14

    计算 R 数据框列之间的相关性

  15. 15

    python中分类的相关性

  16. 16

    如何在大型数据集中找到重要的相关性

  17. 17

    小鼠中的插补方法-数据集中的相关性。[R

  18. 18

    R中分类数据与二项式响应的相关性

  19. 19

    python中数组之间的相关性

  20. 20

    不同矩阵之间的相关性R

  21. 21

    数字变量与逻辑变量之间的相关性是否导致(预期的)错误?

  22. 22

    如何关联和可视化一个变量与多个变量之间的相关性

  23. 23

    R中类似变量的相关性

  24. 24

    变量和$ watch的AngularJS相关性

  25. 25

    Python - 与公式的变量相关性

  26. 26

    计算具有NA的线性回归残差与R中的自变量之间的相关性

  27. 27

    如何使用map()函数计算变量之间的Pearson相关性?

  28. 28

    x与其他两个变量之间的相关性

  29. 29

    如何获得两个变量之间的相关性滞后

热门标签

归档