如何从Scala的文本文件中提取每个单词

debugcn 发表于 Dev

欧巴巴

我是Scala的新手。我有一个文本文件，该文件只有一行，文件单词之间用分号（;）分隔。我想提取每个单词，删除空格，将所有都转换为小写，然后根据每个单词的索引调用它们。以下是我的处理方法：

newListUpper2.txt contains (Bed;  chairs;spoon; CARPET;curtains )
val file = sc.textFile("myfile.txt")
val lower = file.map(x=>x.toLowerCase)
val result = lower.flatMap(x=>x.trim.split(";"))
result.collect.foreach(println)

下面是我执行代码时REPL的副本

    scala> val file = sc.textFile("newListUpper2.txt")
    file: org.apache.spark.rdd.RDD[String] = newListUpper2.txt MapPartitionsRDD[5] at textFile at 
    <console>:24
    scala> val lower = file.map(x=>x.toLowerCase)
    lower: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[6] at map at <console>:26
    scala> val result = lower.flatMap(x=>x.trim.split(";"))
    result: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at flatMap at <console>:28
    scala> result.collect.foreach(println)
bed                                                                          
 chairs
spoon
 carpet
curtains
scala> result(0)
<console>:31: error: org.apache.spark.rdd.RDD[String] does not take parameters
       result(0)

不修剪结果，然后将索引作为参数传递以获得该索引处的单词会产生错误。如果我将每个单词的索引作为参数传递，我的预期结果应如下所示

result(0)= bed
result(1) = chairs
result(2) = spoon
result(3) = carpet
result(4) = curtains

我究竟做错了什么？。

确实

newListUpper2.txt contains (Bed;  chairs;spoon; CARPET;curtains )
val file = sc.textFile("myfile.txt")
val lower = file.map(x=>x.toLowerCase)
val result = lower.flatMap(x=>x.trim.split(";")) // x = `bed;  chairs;spoon; carpet;curtains` , x.trim does not work. trim func effective for head and tail only
result.collect.foreach(println)

试试看：

val result = lower.flatMap(x=>x.split(";").map(x=>x.trim))

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

从文本文件中提取单词并打印netxt行

来自分类Dev

如何针对每个单独的文件名从多个文本文件中提取数据？

来自分类Dev

如何从文本文件中的字符串中提取特定单词？C ++

来自分类Dev

如何从bash中的文本文件中提取某些单词和值

来自分类Dev

如何使用 R 从文本文件中提取包含特定单词或字符的句子

来自分类Dev

如何从文本文件中提取文件路径？

来自分类Dev

如何从文本文件中提取特定的值/字段？

来自分类Dev

如何从文本文件中提取XML

来自分类Dev

如何从文本文件中提取数据？

来自分类Dev

如何从文本文件中提取这些字符？

来自分类Dev

如何从文本文件中提取字符

来自分类Dev

如何从文本文件中提取键和值

来自分类Dev

如何从文本文件中提取多个圣经经文？

来自分类Dev

从文本文件中提取数据

来自分类Dev

从文本文件中提取数据

来自分类Dev

在文本文件中提取数字

来自分类Dev

从文本文件中提取数据

来自分类Dev

从文本文件中提取时间

来自分类Dev

从文本文件中提取列

来自分类Dev

从文本文件中提取列

来自分类Dev

从BASH中指定单词之间的文本文件中提取特定单词

来自分类Dev

从文本文件中提取与输入单词最相似的前N个单词

来自分类Dev

如何在文本文件中提取不同的数据子集并将每个子集传递到另一个文本文件中？

来自分类Dev

如何在C#中提取文本文件每一行的第一个单词

来自分类Dev

从文本文件中提取一行中的第二个单词

来自分类Dev

从文本文件中提取一个单词匹配的名称

来自分类Dev

从多个文本文件中提取想要的单词（Python 3.6）

来自分类Dev

批量从文本文件内的字符串中提取单词

来自分类Dev

使用Java从文本文件中提取术语（单词），而无需重复术语

Related 相关文章

文章