Microsoft Azure Storage Explorer에 마루 파일 이름이 있습니다.
파일 이름은 다음과 같습니다.
dataset_2019_11_19-19.parquet
dataset_2020_01_19-20.parquet
dataset_2020_01_20-20.parquet
dataset_2020_01_21-20.parquet
dataset_2020_01_22-20.parquet
2020 년에 대한 모든 데이터를 읽으려면 다음과 같이 진행합니다. 여기서 와일드 카드를 사용하여 2020 년 이후에 무엇이든 가져옵니다.
datapath_v3_indata_imptp = "wasbs://[email protected]/first_folder/dataset_2020*"
df_indata_v3_imptp=spark.read.format("parquet").option("header", "true").load(datapath_v3_indata_imptp)
지난 21 일 동안 만 데이터를 얻으려면 어떻게해야합니까?
input_file_name()
function then split
+ regexp_extract
(날짜 만 가져 오기)를 사용하여 file_name에서 날짜를 추출 하고 마지막 to_date
으로 형식으로 날짜를 만듭니다 yyyy-MM-dd
.
date_sub(current_date(),21)
하여 21 일 전 날짜를 가져옵니다.Example:
from pyspark.sql.functions import *
#reading directory
spark.read.parquet("wasbs://[email protected]/first_folder/").\
withColumn("date",\
to_date(\
regexp_extract(\
split(input_file_name(),"-")[0]\
,"_(.*)",1),\
"yyyy_MM_dd")).\
filter(col("date") > date_sub(current_date(),21)).\
show(10,False)
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다