在同一数据框中对具有不同条件的时段进行排名

debugcn 发表于 Dev

鲁本

我想根据某些条件使用不同的条件对数据框的行进行排名。

我有一个包含以下数据的数据框：采样日期，采样日期的月份，种群中育种个体的百分比和格里历。

如果要在超过20％的种群繁殖期（繁殖期）内或外，对行进行排序。我已经掌握了很多个月的信息，但是在这里我只写了两个：

    mydf <- read.table(text="sampling_date - month - breeder - gregorian_days
    1/1/00-1-0-1
    5/1/00-1-10-5
    9/1/00-1-50-9
    13/1/00-1-100-13
    17/1/00-1-30-17
    21/1/00-1-20-21
    25/1/00-1-12-25
    29/1/00-1-3-29
    1/2/00-2-10-33
    5/2/00-2-20-37
    9/2/00-2-50-41
    13/2/00-2-80-45
    17/2/00-2-50-49
    21/2/00-2-51-53
    25/2/00-2-30-57
    28/2/00-2-10-61"
    , sep="-", header=TRUE)
mydf

我想在每个月内对行进行排名：

（1）在第一行小于20的值之前写A

（2）从高于20的第一个值开始排名，但每3个真实日对行进行排名（例如，排名1 =第5,6,7天；排名2 =第8,9,10天...）。因此，繁殖期内的所有行都不必连续。有可能某些排名不会被添加为第一个月的4。

为此，直到最后一行的值大于20

（3）最后一行的值大于20后放B

在下面，我添加了我想要获得的结果

   sampling_date month breeder gregorian_days rank
1         1/1/00     1       0              1    A
2         5/1/00     1      10              5    A
3         9/1/00     1      50              9    1
4        13/1/00     1     100             13    2
5        17/1/00     1      30             17    3
6        21/1/00     1      20             21    5
7        25/1/00     1      12             25    B
8        29/1/00     1       3             29    B
9         1/2/00     2      10             33    A
10        5/2/00     2      20             37    1
11        9/2/00     2      50             41    2
12       13/2/00     2      80             45    3
13       17/2/00     2      50             49    5
14       21/2/00     2      51             53    6
15       25/2/00     2      30             57    7
16       28/2/00     2      10             61    B

开始排名的阈值可以是基于数据框一列值的标准，或者我可以获取确切的日期来定义周期繁殖期间内外的不同行为。

例如阈值

    Start<- c("9/1/00", "5/2/00")
    End <- c("21/1/00", "25/2/00")

我所能做的就是每个月进行一次循环，以使用该函数将值更改为较高和较低的20，if但是我不知道如何在繁殖期内进行排名。

你可以帮帮我吗？

提前致谢

bgoldst

df <- data.frame(sampling_date=c('1/1/00','5/1/00','9/1/00','13/1/00','17/1/00',
                                 '21/1/00','25/1/00','29/1/00','1/2/00','5/2/00',
                                 '9/2/00','13/2/00','17/2/00','21/2/00','25/2/00','28/2/00'), 
                                  month=c(1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2),
                                  breeder=c(0,10,50,100,30,20,12,3,10,20,50,80,50,51,30,10), 
                                  gregorian_days=c(1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61))

df$sampling_date <- as.Date(df$sampling_date,'%d/%m/%y')

df$rank <- do.call(c, by(df, df$month, function(x) { 
                      breeding <- x$breeder>=20 
                      first <- which(breeding)[1] 
                      start <- x$sampling_date[first]
                      ifelse(breeding,
                             as.integer(x$sampling_date-start)%/%3+1,
                             c('A','B')[(1:nrow(x)>=first)+1])
                      }))
df
##    sampling_date month breeder gregorian_days rank
## 1     2000-01-01     1       0              1    A
## 2     2000-01-05     1      10              5    A
## 3     2000-01-09     1      50              9    1
## 4     2000-01-13     1     100             13    2
## 5     2000-01-17     1      30             17    3
## 6     2000-01-21     1      20             21    5
## 7     2000-01-25     1      12             25    B
## 8     2000-01-29     1       3             29    B
## 9     2000-02-01     2      10             33    A
## 10    2000-02-05     2      20             37    1
## 11    2000-02-09     2      50             41    2
## 12    2000-02-13     2      80             45    3
## 13    2000-02-17     2      50             49    5
## 14    2000-02-21     2      51             53    6
## 15    2000-02-25     2      30             57    7
## 16    2000-02-28     2      10             61    B

笔记：

我已将您的日期强迫Date上课，as.Date(...,'%d/%m/%y');以准备按日期进行算术运算。
我已经将该by()功能用于分组逻辑。我选择by()了aggregate()，ave()因为后两者一次只能在一个列上工作，但是逻辑需要多个列（特别是sampling_date和breeder）来by()支持。同样，aggregate()始终将汇总的数据与输入的data.frame按列组合，将每个组强制为单行，因此通常不适用于多元素返回值；ave()并且by()是必需的。
在我的解决方案中，我预先计算（1）一个逻辑向量，该逻辑向量表示哪些行是“育种日”，哪些不是（breeding），（2）第一个育种日行索引（first），以及（3）第一个育种日Date值（start）。然后我进入了繁殖期ifelse(breeding,...)。
对于繁殖日，我将每天按日期进行减法减去开始日，然后使用整数除以3（加1）来获得等级值。
对于非繁殖日，我c('A','B')基于非繁殖日是在之前还是之后进行索引start。