如何使用Spark上下文访问Web URL

库希克·钱德拉(Koushik Chandra)

我正在尝试使用textFile方法从spark-shell使用WEB URL,但出现错误。可能这不是正确的方法。所以有人可以告诉我如何从Spark上下文访问Web URL。

我正在使用Spark版本1.3.0; Scala版本2.10.4和Java 1.7.0_21

hduser@ubuntu:~$ spark-shell
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Welcome to
      __              
     / /   / /
    \ \/  \/  `/ _/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.3.0
      /_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_21)
Type in expressions to have them evaluated.
Type :help for more information.
Spark context available as sc.
SQL context available as sqlContext.

scala> val pagecount = sc.textFile( "https://www.google.co.in/?gws_rd=ssl" )
pagecount: org.apache.spark.rdd.RDD[String] = https://www.google.co.in/?gws_rd=ssl MapPartitionsRDD[1] at textFile at <console>:21

scala> pagecount.count()
java.io.IOException: No FileSystem for scheme: https
 at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1383)
 at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
 at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1404)
 at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:254)
 at org.apache.hadoop.fs.Path.getFileSystem(Path.java:187)
 at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:176)
 at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
 at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:203)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
 at scala.Option.getOrElse(Option.scala:120)
 at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
 at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:32)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
 at scala.Option.getOrElse(Option.scala:120)
 at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1511)
 at org.apache.spark.rdd.RDD.count(RDD.scala:1006)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:24)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:29)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:31)
 at $iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:33)
 at $iwC$$iwC$$iwC$$iwC.<init>(<console>:35)
 at $iwC$$iwC$$iwC.<init>(<console>:37)
 at $iwC$$iwC.<init>(<console>:39)
 at $iwC.<init>(<console>:41)
 at <init>(<console>:43)
 at .<init>(<console>:47)
 at .<clinit>(<console>)
 at .<init>(<console>:7)
 at .<clinit>(<console>)
 at $print(<console>)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 at java.lang.reflect.Method.invoke(Method.java:601)
 at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1065)
 at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1338)
 at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:840)
 at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:871)
 at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:819)
 at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:856)
 at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:901)
 at org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:813)
 at org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:656)
 at org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:664)
 at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:669)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply$mcZ$sp(SparkILoop.scala:996)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:944)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:944)
 at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135)
 at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$process(SparkILoop.scala:944)
 at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:1058)
 at org.apache.spark.repl.Main$.main(Main.scala:31)
 at org.apache.spark.repl.Main.main(Main.scala)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 at java.lang.reflect.Method.invoke(Method.java:601)
 at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
 at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
 at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
 at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
 at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

chenzhongpu

您不能textFile直接使用url内容textFile到:

从HDFS,本地文件系统(在所有节点上都可用)或任何Hadoop支持的文件系统URI中读取文本文件

您会看到,HTTP/HTTPSURL不包括在内。

您可以先获取内容,然后将其设置为RDDs

val html = scala.io.Source.fromURL("https://spark.apache.org/").mkString
val list = html.split("\n").filter(_ != "")
val rdds = sc.parallelize(list)
val count = rdds.filter(_.contains("Spark")).count()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从CSS / JS文件内部访问Servlet Web应用程序上下文URL

来自分类Dev

如何使用HAProxy重定向/重写URL(更改上下文路径)

来自分类Dev

如何使用JAX-RS获取根上下文URL?

来自分类Dev

如何使用HAProxy重定向/重写URL(更改上下文路径)

来自分类Dev

Django使用url模式从视图传递的上下文变量

来自分类Dev

上下文路径未进入 URL

来自分类Dev

在部分上下文中从Assemble的options对象访问自定义基本url属性

来自分类Dev

我可以在Django模板上下文处理器中访问url kwargs吗?

来自分类Dev

如何为Web应用程序设置tomcat上下文路径?.war文件名位于url中应用程序名称的前面

来自分类Dev

如何在success_url中传递上下文数据?

来自分类Dev

Spring Security:如何设置一个与上下文路径不同的RememberMe cookie url路径?

来自分类Dev

如何在 ruby Sinatra 类上下文中获取请求 url?

来自分类Dev

使用grunt-contrib-connect-具有添加的上下文路径的打开页面URL

来自分类Dev

在春季使用url-pattern重定向的上下文路径

来自分类Dev

在春季使用url-pattern重定向的上下文路径

来自分类Dev

从扩展上下文中提取URL

来自分类Dev

Apache Nutch:获取出站URL的文本上下文

来自分类Dev

REST API服务上下文和资源URL

来自分类Dev

从扩展上下文中提取URL

来自分类Dev

Nintex遮罩上下文项URL

来自分类Dev

Rails路由-嵌套资源URL的上下文

来自分类Dev

在 IE 上下文菜单扩展中获取页面 URL

来自分类Dev

如何访问正确的数据上下文

来自分类Dev

函数如何访问类的上下文

来自分类Dev

打开上下文菜单时,如何编写Safari浏览器扩展名以获取被单击的URL?

来自分类Dev

IBM Worklight-如何在不丢失应用上下文的情况下显示URL引用的内容?

来自分类Dev

如何将页面上下文附加到不在DOM标记中的JSP中的URL字符串

来自分类Dev

如何将页面上下文附加到不在DOM标记中的JSP中的URL字符串

来自分类Dev

使用RDD的Spark流上下文

Related 相关文章

  1. 1

    从CSS / JS文件内部访问Servlet Web应用程序上下文URL

  2. 2

    如何使用HAProxy重定向/重写URL(更改上下文路径)

  3. 3

    如何使用JAX-RS获取根上下文URL?

  4. 4

    如何使用HAProxy重定向/重写URL(更改上下文路径)

  5. 5

    Django使用url模式从视图传递的上下文变量

  6. 6

    上下文路径未进入 URL

  7. 7

    在部分上下文中从Assemble的options对象访问自定义基本url属性

  8. 8

    我可以在Django模板上下文处理器中访问url kwargs吗?

  9. 9

    如何为Web应用程序设置tomcat上下文路径?.war文件名位于url中应用程序名称的前面

  10. 10

    如何在success_url中传递上下文数据?

  11. 11

    Spring Security:如何设置一个与上下文路径不同的RememberMe cookie url路径?

  12. 12

    如何在 ruby Sinatra 类上下文中获取请求 url?

  13. 13

    使用grunt-contrib-connect-具有添加的上下文路径的打开页面URL

  14. 14

    在春季使用url-pattern重定向的上下文路径

  15. 15

    在春季使用url-pattern重定向的上下文路径

  16. 16

    从扩展上下文中提取URL

  17. 17

    Apache Nutch:获取出站URL的文本上下文

  18. 18

    REST API服务上下文和资源URL

  19. 19

    从扩展上下文中提取URL

  20. 20

    Nintex遮罩上下文项URL

  21. 21

    Rails路由-嵌套资源URL的上下文

  22. 22

    在 IE 上下文菜单扩展中获取页面 URL

  23. 23

    如何访问正确的数据上下文

  24. 24

    函数如何访问类的上下文

  25. 25

    打开上下文菜单时,如何编写Safari浏览器扩展名以获取被单击的URL?

  26. 26

    IBM Worklight-如何在不丢失应用上下文的情况下显示URL引用的内容?

  27. 27

    如何将页面上下文附加到不在DOM标记中的JSP中的URL字符串

  28. 28

    如何将页面上下文附加到不在DOM标记中的JSP中的URL字符串

  29. 29

    使用RDD的Spark流上下文

热门标签

归档