一个新手火花问题。我正在尝试从通过分页返回数据的 REST API 读取数据。为了检索数据,我将调用相同的 API 5 次。我想将该数据保存在 databrick 表中。API 的结果在 json 中。想法是每天进行一次 API 调用并保存按日期分区的数据。所有示例都导致单个 API 调用。
任何指针?谢谢
我正在用 Google Api 做类似的事情。大多数优秀的 API 将通过返回分页标记来处理分页——例如,您请求前 X 条记录,它会给出一个标记以显示它有更多记录,因此您会一直循环直到没有更多记录。
在 Spark 方面,您可以使用 Row 继续将返回数据添加到 List,然后最终将其转换为 Dataframe(之后您可以在数据块中执行所有通常的优点:(使用 Google Api Python Sdk 的 Python 代码,大小的缩写)但你应该明白这个想法:)
from pyspark.sql import *
..
credentials = service_account.Credentials.from_service_account_info(SERVICE_ACCOUNT_FILE, scopes=SCOPES, subject=IMPERSONATED_USER)
service = build('admin', 'reports_v1', credentials=credentials) #https://developers.google.com/api-client-library/python/start/get_started#build-the-service-object
# https://stackoverflow.com/questions/29903125/google-reporting-api-customer-usage-report
# https://developers.google.com/resources/api-libraries/documentation/admin/reports_v1/python/latest/admin_reports_v1.userUsageReport.html
# https://developers.google.com/api-client-library/python/start/get_started#build-the-service-object
print('Hitting Google Admin Reports - User Usage Api')
request = service.userUsageReport().get(userKey=keyUserFilter, date=keyDateFilter, filters=fieldFilter, maxResults=pageSize, parameters=fieldSelect)
rows = []
# get all pages until there are none left
while request != None:
response = request.execute()
rows.append(Row(id=ur.get("id"), item=response.get("item")))
request = service.userUsageReport().get_next(request, response)
print("end of loop")
df1 = spark.createDataFrame(rows)
display(df1)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句