줄리아에서 데이터 세트를 학습 및 테스트로 분할

debugcn 에 게시 Dev

모하마드 사드

Julia에서 데이터 세트를 훈련 및 테스트 하위 집합으로 분할하려고합니다. 지금 까지이 작업에 MLDataUtils.jl 패키지를 사용해 보았지만 결과가 기대에 미치지 못했습니다. 내 발견 사항과 문제는 다음과 같습니다.

암호

# the inputs are

a = DataFrame(A = [1, 2, 3, 4,5, 6, 7, 8, 9, 10],
              B = [1, 2, 3, 4,5, 6, 7, 8, 9, 10],
              C = [1, 2, 3, 4,5, 6, 7, 8, 9, 10]
             )
b = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

using MLDataUtils
(x1, y1), (x2, y2) = stratifiedobs((a,b), p=0.7)

#Output of this operation is: (which is not the expectation)
println("x1 is: $x1")
x1 is:
10×3 DataFrame
│ Row │ A     │ B     │ C     │
│     │ Int64 │ Int64 │ Int64 │
├─────┼───────┼───────┼───────┤
│ 1   │ 1     │ 1     │ 1     │
│ 2   │ 2     │ 2     │ 2     │
│ 3   │ 3     │ 3     │ 3     │
│ 4   │ 4     │ 4     │ 4     │
│ 5   │ 5     │ 5     │ 5     │
│ 6   │ 6     │ 6     │ 6     │
│ 7   │ 7     │ 7     │ 7     │
│ 8   │ 8     │ 8     │ 8     │
│ 9   │ 9     │ 9     │ 9     │
│ 10  │ 10    │ 10    │ 10    │

println("y1 is: $y1")
y1 is:
10-element Array{Int64,1}:
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10

# but x2 is printed as 
(0×3 SubDataFrame, Float64[]) 

# while y2 as 
0-element view(::Array{Float64,1}, Int64[]) with eltype Float64)

그러나이 데이터 세트를 기차에서 70 %, 테스트에서 30 %로 두 부분으로 나누고 싶습니다. 줄리아에서이 작업을 수행하는 더 나은 방법을 제안하십시오. 미리 감사드립니다.

보구 미우 카민스키

아마도 MLJ.jl 개발자는 일반 생태계를 사용하여 수행하는 방법을 보여줄 수 있습니다. 다음은 DataFrames.jl 만 사용하는 솔루션입니다.

julia> using DataFrames, Random

julia> a = DataFrame(A = [1, 2, 3, 4,5, 6, 7, 8, 9, 10],
                     B = [1, 2, 3, 4,5, 6, 7, 8, 9, 10],
                     C = [1, 2, 3, 4,5, 6, 7, 8, 9, 10]
                    )
10×3 DataFrame
 Row │ A      B      C     
     │ Int64  Int64  Int64 
─────┼─────────────────────
   1 │     1      1      1
   2 │     2      2      2
   3 │     3      3      3
   4 │     4      4      4
   5 │     5      5      5
   6 │     6      6      6
   7 │     7      7      7
   8 │     8      8      8
   9 │     9      9      9
  10 │    10     10     10

julia> function splitdf(df, pct)
           @assert 0 <= pct <= 1
           ids = collect(axes(df, 1))
           shuffle!(ids)
           sel = ids .<= nrow(df) .* pct
           return view(df, sel, :), view(df, .!sel, :)
       end
splitdf (generic function with 1 method)

julia> splitdf(a, 0.7)
(7×3 SubDataFrame
 Row │ A      B      C     
     │ Int64  Int64  Int64 
─────┼─────────────────────
   1 │     3      3      3
   2 │     4      4      4
   3 │     6      6      6
   4 │     7      7      7
   5 │     8      8      8
   6 │     9      9      9
   7 │    10     10     10, 3×3 SubDataFrame
 Row │ A      B      C     
     │ Int64  Int64  Int64 
─────┼─────────────────────
   1 │     1      1      1
   2 │     2      2      2
   3 │     5      5      5)

메모리를 절약하기 위해 뷰를 사용하고 있지만, 원하는 경우 훈련 및 테스트 데이터 프레임을 구체화 할 수도 있습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-28

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

줄리아에서 데이터 세트를 학습 및 테스트로 분할

줄리아에서 데이터 세트를 학습 및 테스트로 분할

기능으로 분할 데이터 학습 및 테스트

사전 데이터를 테스트 및 학습 세트로 무작위로 분할 할 수 있습니까?

Excel-데이터를 균등하게 분산 된 학습 및 테스트 세트로 분할하는 방법

TensorFlow에서 내 데이터를 사용하여 이미지를 테스트 및 학습 세트로 분할하는 방법

시간별로 인덱싱 할 때 Pandas 데이터 프레임을 학습 및 테스트 세트로 분할

Astropy : FITS 테이블을 학습 및 테스트 세트로 분할

카테고리 및 텍스트 데이터를 입력으로 사용하는 기계 학습 분류

R에서 관찰이 아닌 고유 한 날짜로 분할 학습 및 테스트

학습 및 테스트 데이터에 가설 테스트를 사용할 수 있습니까?

AssertionError : <class 'numpy.ndarray'>, 데이터를 테스트 및 학습으로 분할하는 동안

R : dgCMatrix를 학습 및 테스트 매트릭스로 분할하여 XGBoost 학습에 사용

TensorFlow 데이터 세트 학습 / 테스트 분할

테스트 및 학습 데이터 세트에서 naive Bayes 함수 사용

키 값이 여러 목록 인 사전을 학습 및 테스트 세트 Python으로 분할

훈련 및 테스트 세트로의 분할을 포함한 이미지 데이터 세트 전처리

SSAS-분류-데이터를 다음으로 분할하는 방법 : 학습 세트-검증 세트-테스트 세트

Amelia를 사용하여 R의 NA 값을 간단히 대치 한 다음 데이터 세트를 70:30 분할에서 데이터 및 학습 세트로 나누려면 어떻게해야합니까?

데이터 세트를 분할했지만 학습 데이터 세트에서는 작동하지 않았습니다.

runif를 사용하여 데이터 세트를 훈련 및 테스트 세트로 분할

R에서 데이터 세트 정리 및 분할

Tidymodels : 학습 및 테스트 데이터에서 rsplit 개체 만들기

계층화 된 k- 겹 교차 검증을 적용한 후 데이터를 테스트 및 학습으로 분할하는 방법은 무엇입니까?

pyspark에서 행이 아닌 열 값으로 분할을 테스트 / 학습하는 방법

pyspark에서 행이 아닌 열 값으로 분할을 테스트 / 학습하는 방법

데이터를 테스트 및 학습 세트로 분할하고 있는데 오류는 '샘플 수가 일치하지 않는 입력 변수 발견 : [1000, 23486]'입니다.

목록 매핑 및 학습 및 테스트 분할 생성

Nest 및 mutate를 사용하여 학습 세트에서 모델을 만든 다음 R (tidymodels)의 테스트 데이터에 적용하는 방법

tensorflow를 사용하여 데이터 세트를 훈련 및 테스트로 분할

학습 및 테스트 데이터 세트에 대해 개별적으로 원-핫 인코딩을 수행해야합니까?