从 REST API 检索到 Databrick 数据存储的数据

debugcn 发表于 Dev

斯瓦蒂·帕蒂尔

一个新手火花问题。我正在尝试从通过分页返回数据的 REST API 读取数据。为了检索数据，我将调用相同的 API 5 次。我想将该数据保存在 databrick 表中。API 的结果在 json 中。想法是每天进行一次 API 调用并保存按日期分区的数据。所有示例都导致单个 API 调用。

任何指针？谢谢

罗德尼

我正在用 Google Api 做类似的事情。大多数优秀的 API 将通过返回分页标记来处理分页——例如，您请求前 X 条记录，它会给出一个标记以显示它有更多记录，因此您会一直循环直到没有更多记录。

在 Spark 方面，您可以使用 Row 继续将返回数据添加到 List，然后最终将其转换为 Dataframe（之后您可以在数据块中执行所有通常的优点：（使用 Google Api Python Sdk 的 Python 代码，大小的缩写）但你应该明白这个想法:)

from pyspark.sql import *

..
credentials = service_account.Credentials.from_service_account_info(SERVICE_ACCOUNT_FILE, scopes=SCOPES, subject=IMPERSONATED_USER)
service = build('admin', 'reports_v1', credentials=credentials)   #https://developers.google.com/api-client-library/python/start/get_started#build-the-service-object

# https://stackoverflow.com/questions/29903125/google-reporting-api-customer-usage-report 
# https://developers.google.com/resources/api-libraries/documentation/admin/reports_v1/python/latest/admin_reports_v1.userUsageReport.html
# https://developers.google.com/api-client-library/python/start/get_started#build-the-service-object
print('Hitting Google Admin Reports - User Usage Api')
request = service.userUsageReport().get(userKey=keyUserFilter, date=keyDateFilter, filters=fieldFilter, maxResults=pageSize, parameters=fieldSelect)

rows = []
# get all pages until there are none left
while request != None:
  response = request.execute()
  rows.append(Row(id=ur.get("id"), item=response.get("item")))  
  request = service.userUsageReport().get_next(request, response)

print("end of loop")
df1 = spark.createDataFrame(rows)

display(df1)

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-24

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

从 REST API 检索到 Databrick 数据存储的数据

从 REST API 检索到 Databrick 数据存储的数据

Laravel从REST API检索数据

React|Rest API：将表单数据存储到 REST API 上的对象中

从RESTful API到Tableau检索JSON数据

发送JSON数据到Rest API

从REST API获取数据到jsreports

Azure 数据工厂：从 Salesforce 到 REST API

存储和检索数据，通过使用节点上的获取通过REST实现到mongodb

存储从LinkedIn API检索到的配置文件数据的限制

存储从LinkedIn API检索到的配置文件数据的限制

如何从Google Fitness REST API检索步数数据？

Nuxt.js无法从Django Rest Framework API检索数据

将API数据存储到DataFrame中

如何使用REST API重建nexus存储库元数据？

REST API使用环回存储geojson数据的最佳方法

如何使用REST API重建nexus存储库元数据？

从REST Api获取数据

从rest api返回数据

从Android中的API将数据检索到ListView

将JSON发布到API并使用PHP检索数据

使用cURL到REST API的JSON数据给出空白响应

Angularjs不会将JSON数据发布到REST API

将 POST 数据从离子框架传递到 CodeIgniter Rest API

Firebase 数据库（使用 Firebase REST API 发送分析数据）到 Firebase Dashboard 分析数据

使用Chrome存储API从本地存储中存储和检索数据

从API检索数据

无法检索api数据

在php rest api中从数据库中获取评级数据到JSON数组

将API数据存储到UserDefaults中并打印到列表

Google Appengine Search API到数据存储区查询