我想根据某些条件使用不同的条件对数据框的行进行排名。
我有一个包含以下数据的数据框:采样日期,采样日期的月份,种群中育种个体的百分比和格里历。
如果要在超过20%的种群繁殖期(繁殖期)内或外,对行进行排序。我已经掌握了很多个月的信息,但是在这里我只写了两个:
mydf <- read.table(text="sampling_date - month - breeder - gregorian_days
1/1/00-1-0-1
5/1/00-1-10-5
9/1/00-1-50-9
13/1/00-1-100-13
17/1/00-1-30-17
21/1/00-1-20-21
25/1/00-1-12-25
29/1/00-1-3-29
1/2/00-2-10-33
5/2/00-2-20-37
9/2/00-2-50-41
13/2/00-2-80-45
17/2/00-2-50-49
21/2/00-2-51-53
25/2/00-2-30-57
28/2/00-2-10-61"
, sep="-", header=TRUE)
mydf
我想在每个月内对行进行排名:
(1)在第一行小于20的值之前写A
(2)从高于20的第一个值开始排名,但每3个真实日对行进行排名(例如,排名1 =第5,6,7天;排名2 =第8,9,10天...)。因此,繁殖期内的所有行都不必连续。有可能某些排名不会被添加为第一个月的4。
为此,直到最后一行的值大于20
(3)最后一行的值大于20后放B
在下面,我添加了我想要获得的结果
sampling_date month breeder gregorian_days rank
1 1/1/00 1 0 1 A
2 5/1/00 1 10 5 A
3 9/1/00 1 50 9 1
4 13/1/00 1 100 13 2
5 17/1/00 1 30 17 3
6 21/1/00 1 20 21 5
7 25/1/00 1 12 25 B
8 29/1/00 1 3 29 B
9 1/2/00 2 10 33 A
10 5/2/00 2 20 37 1
11 9/2/00 2 50 41 2
12 13/2/00 2 80 45 3
13 17/2/00 2 50 49 5
14 21/2/00 2 51 53 6
15 25/2/00 2 30 57 7
16 28/2/00 2 10 61 B
开始排名的阈值可以是基于数据框一列值的标准,或者我可以获取确切的日期来定义周期繁殖期间内外的不同行为。
例如阈值
Start<- c("9/1/00", "5/2/00")
End <- c("21/1/00", "25/2/00")
我所能做的就是每个月进行一次循环,以使用该函数将值更改为较高和较低的20,if
但是我不知道如何在繁殖期内进行排名。
你可以帮帮我吗?
提前致谢
df <- data.frame(sampling_date=c('1/1/00','5/1/00','9/1/00','13/1/00','17/1/00',
'21/1/00','25/1/00','29/1/00','1/2/00','5/2/00',
'9/2/00','13/2/00','17/2/00','21/2/00','25/2/00','28/2/00'),
month=c(1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2),
breeder=c(0,10,50,100,30,20,12,3,10,20,50,80,50,51,30,10),
gregorian_days=c(1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61))
df$sampling_date <- as.Date(df$sampling_date,'%d/%m/%y')
df$rank <- do.call(c, by(df, df$month, function(x) {
breeding <- x$breeder>=20
first <- which(breeding)[1]
start <- x$sampling_date[first]
ifelse(breeding,
as.integer(x$sampling_date-start)%/%3+1,
c('A','B')[(1:nrow(x)>=first)+1])
}))
df
## sampling_date month breeder gregorian_days rank
## 1 2000-01-01 1 0 1 A
## 2 2000-01-05 1 10 5 A
## 3 2000-01-09 1 50 9 1
## 4 2000-01-13 1 100 13 2
## 5 2000-01-17 1 30 17 3
## 6 2000-01-21 1 20 21 5
## 7 2000-01-25 1 12 25 B
## 8 2000-01-29 1 3 29 B
## 9 2000-02-01 2 10 33 A
## 10 2000-02-05 2 20 37 1
## 11 2000-02-09 2 50 41 2
## 12 2000-02-13 2 80 45 3
## 13 2000-02-17 2 50 49 5
## 14 2000-02-21 2 51 53 6
## 15 2000-02-25 2 30 57 7
## 16 2000-02-28 2 10 61 B
笔记:
Date
上课,as.Date(...,'%d/%m/%y');
以准备按日期进行算术运算。by()
功能用于分组逻辑。我选择by()
了aggregate()
,ave()
因为后两者一次只能在一个列上工作,但是逻辑需要多个列(特别是sampling_date
和breeder
)来by()
支持。同样,aggregate()
始终将汇总的数据与输入的data.frame按列组合,将每个组强制为单行,因此通常不适用于多元素返回值;ave()
并且by()
是必需的。breeding
),(2)第一个育种日行索引(first
),以及(3)第一个育种日Date
值(start
) 。然后我进入了繁殖期ifelse(breeding,...)
。c('A','B')
基于非繁殖日是在之前还是之后进行索引start
。本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句