我有看起来与以下类似的数据。我有关于用户ID,路径中的页码以及访问站点的URL的数据。我正在尝试找到最常用的路径。
df = data.frame(user_id = c(1,1,1,2,2),
page = c(1,2,3,1,2),
url = c("x.com/home","x.com/home/about_us","x.com/directions",
"x.com/specials","x.com/contact_us"))
df
最常见的路径是什么?我如何在不使用任何数据挖掘算法的情况下在R中找到它。有为此包装吗?
通过最常见的路径,我的意思是最常访问的网址是什么。因此,对于进入1、2、3或4页的每个用户,采用的最常见的路径是什么。
编辑:
输出示例:
对于访问四页的所有用户,以下是访问过的最常见的网站系列。这意味着这些是最常访问的第一,第二,第三和第四站点。
1 x.com/home
2 x.com/home/about_us
3 x.com/specials
4 x.com/contact
如果我们有十个人去四页,那是会话中最常见的“路径”(一系列站点)。
我认为这可能像对待市场分析的挑战一样对待。也就是说,访问者点击的最常见的URL是什么,如果是A,则是URLB。为此,您需要使用库(arules)。prdeepakbabkus博客上有很好的解释
例如,使用您的示例(稍作编辑),并进行了另外两个观察
library(arules)
data <- paste("1 x.com/home","1 x.com/home/about_us","2 x.com/home",
"2 x.com/home/about_us","3 x.com/home","4 x.com/specials", sep ="\n")
cat(data)
write(data, file = "demo_single")
tr <- read.transactions("demo_single", format = "single", cols = c(1,2))
inspect(tr)
现在,您可以查看项目的频率,以及最有可能一起出现的频率
itemFrequencyPlot(tr);
basket_rules <- apriori(tr,parameter = list(sup = 0.5, conf = 0.9));
inspect(basket_rules);
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句