R：tidytext :: unnest_tokensを使用して集計するのとは反対です。複数の変数と大文字

debugcn 投稿 Dev

DaniCee

この質問のフォローアップとして、反対のタスクaggregate（またはdata.table以下のMWEと同等のタスク）を実行して、df2から開始してdf1を再度取得したいと思います。

ここでのタスクは、df2からdf1を再現することです。このために試しましたがtidytext::unnest_tokens、複数の変数を「分解」する必要がある場合（モデル、国、年）、正しく機能させる方法がわかりません。

変数の元の大文字も保持しておくと便利です。

とは異なるエレガントなソリューションtidytext::unnest_tokensが受け入れられます！ありがとう！

これがMWEです。

####MWE
library(data.table)
library(tidytext)
df1 <- data.frame(brand=c(rep('A',4), rep('B',5), rep('C',3), rep('D',2),'E'),
                  model=c('A1','A1','A2','A3','B1','B2','B2','B2','B3','C1','C1','C2','D1','D2','E1'),
                  country=c('P','G','S','S','P','P','F','I','D','S','F','F','G','I','S'),
                  year=c(91,92,93,94,98,95,87,99,00,86,92,92,93,95,99))
df1
dd <- data.table(df1)
df2 <- as.data.frame(dd[, list(models=paste(model, collapse=' /// '),
                               countries=paste(country, collapse=' /// '),
                               years=paste(year, collapse=' /// ')),
                        by=list(brand=brand)])
df2
df1b <- df2 %>% 
  unnest_tokens(model, models, token = "regex", pattern = " /// ")
df1b
####

akrun

使用できます separate_rows

library(tidyverse)
res <- df2 %>% 
         separate_rows(models, countries, years, convert = TRUE) %>%
         rename_all(funs(paste0(names(df1)))) %>% #just to make the column names same as df1
         mutate(year = as.numeric(year)) #convert to numeric to match df1 column type
all.equal(res, df1 %>% 
                  mutate_at(2:3, as.character), check.attributes = FALSE )
#[1] TRUE

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-31

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

R：tidytext :: unnest_tokensを使用して集計するのとは反対です。複数の変数と大文字

R：tidytext :: unnest_tokensを使用して集計するのとは反対です。複数の変数と大文字

tidytext：unnest_tokensとtoken = 'ngrams'の問題

Rで複数のダミー変数を1つのカテゴリ変数として収集する

Rで集計を使用して、別の変数の同じ値に対して1つの変数の一意の値を検索する

ネストされたリスト列アプローチとPurrrをTidytext :: Unnest_Tokensと一緒に使用する

r tidytextでのトークン化、アンパサンドのまま

Rを使用して、英数字の単語と大文字が複数ある単語を抽出します

文字列をRの変数として評価する方法は？

R-1つの変数で複数の値を1つの文字列として処理する

rの関数の引数として変数を使用する

データフレームRを使用して複数の月で集計する方法は？

Rの関数の引数として文字列を使用する

複数の列に対してRでDiff（）を使用する

文字列を引数として置換を使用してRの関数を編集する

関数内の文字をRの引数として使用するにはどうすればよいですか？

複数の日付と時刻の変数を分割し、Rで時間平均を計算する

tidytext（）の問題：unnest_tokensをデータフレームに適用できません

R tidytext関連するバイグラムの一部である場合は単語を削除し、そうでない場合は保持する

forループとpROCパッケージを使用してRの複数のROC曲線を計算します。予測フィールドで使用する変数は何ですか？

R：変数のセットと参照変数の間の絶対差と相対差を計算します

複数の列の名前を変更し、Rでdplyrを使用して収集する

Rを使用してすべての変数を結合することによる値の合計

複数の列を使用するR / ggplot2集計関数

rの因子変数の頻度の大文字と小文字を無視する

rの因子として列内に複数の変数を配置する方法

Rのフィルターとして3番目の変数を使用して2つの変数をプロットすることは可能ですか？

Rでtabylを使用して4つの変数をクロス集計する方法

文字列変数を使用してR関数内で複数の変数情報を渡す

リストの文字列をmediateの変数およびRのlmとして使用するにはどうすればよいですか？

文字列の内容をRの関数の引数として使用する