使用stringr和regex将已解析的语料库转换为数据帧

乔·F

我正在尝试使用字符串和正则表达式将已解析的语料库转换为R中的数据帧(从那以后,我读到也许我不应该在这种工​​作中使用正则表达式,但是我花了很多时间在我想知道是否有解决方案)。语料库如下所示:

text <- paste("<w type=\"NP0\" lemma=\"dorothy\">Dorothy</w><c type=\"PUN\">, </c><w type=\"PRP\" lemma=\"in\">in </w><w type=\"DPS\" lemma=\"she\">her </w><w type=\"NN1\" lemma=\"time\">time</w><c type=\"PUN\">, </c><w type=\"VHD\" lemma=\"have\">had </w><w type=\"VBN\" lemma=\"be\">been </w><w type=\"AT0\" lemma=\"an\">an </w><w type=\"AJ0\" lemma=\"active\">active </w><w type=\"NN1\" lemma=\"member\">member </w><w type=\"PRF\" lemma=\"of\">of </w><w type=\"AT0\" lemma=\"an\">an </w><w type=\"NN1\" lemma=\"organisation\">organisation </w><w type=\"VVN-VVD\" lemma=\"call\">called </w><w type=\"AT0\" lemma=\"the\">the </w><w type=\"NN1\" lemma=\"noise\">Noise </w><w type=\"NN1\" lemma=\"reduction\">Reduction </w><w type=\"NN1\" lemma=\"society\">Society</w><c type=\"PUN\">, </c>")

我已经接近我想要使用的东西了:

library("stringr")

# Extract type
type <- str_extract_all(text, "<. type=\\\"(.*?)\\\"") %>%
    unlist()

#Extract word
word <- str_extract_all(text, ">(.*?)<\\/.>") %>%
    unlist()

#Convert to Data frame
df <- data.frame(
    type = type, 
    word = word)

问题是我只希望出现在之间的东西,<w type = \"\"不是那些字符本身,所以是这样的(对于前两个单词):

df2 <- data.frame(type = c("NP0", "PUN"), word = c("Dorothy", ","))

同样,在了解到我应该学习(例如)XML此类数据包之后,我可以用正则表达式得到我想要的东西吗?

大卫·阿伦堡

您可以使用环顾四周功能以仅提取之间的字符串我还添加str_trim了以删除单词周围的多余空格

data.frame(
  type = str_extract_all(text , '(?<=type=\\")(.*?)(?=\\")')[[1]],
  word = str_trim(str_extract_all(text , '(?<=\\">)(.*?)(?=<)')[[1]], side = "both")
)    

#       type         word
# 1      NP0      Dorothy
# 2      PUN            ,
# 3      PRP           in
# 4      DPS          her
# 5      NN1         time
# 6      PUN            ,
# 7      VHD          had
# 8      VBN         been
# 9      AT0           an
# 10     AJ0       active
# 11     NN1       member
# 12     PRF           of
# 13     AT0           an
# 14     NN1 organisation
# 15 VVN-VVD       called
# 16     AT0          the
# 17     NN1        Noise
# 18     NN1    Reduction
# 19     NN1      Society
# 20     PUN            ,

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R tm软件包vcorpus:将语料库转换为数据帧时出错

来自分类Dev

将数据框转换为语料库

来自分类Dev

使用vocabulary_id和相应的tfidf得分将文本语料库转换为文本文档

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

将列表中的多个数据框转换为其自己的唯一语料库对象

来自分类Dev

导入和使用NLTK语料库

来自分类Dev

如何将列表转换为R中的语料库?

来自分类Dev

将语料库转换为R中的data.frame

来自分类Dev

如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

来自分类Dev

如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析?

来自分类Dev

如何基于R中另一列的值将数据帧中的列的数据添加到语料库?

来自分类Dev

使用Syntaxnet注释语料库

来自分类Dev

将单个数据帧转换为数据帧列表(将列名解析为前缀和后缀)

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

语料库的建立

来自分类Dev

使用TfidfVectorizer,是否可以将一个语料库用于idf信息,将另一个语料库用于实际索引?

来自分类Dev

将 NLP 语料库存储在数据库中而不是 csv 中?

来自分类Dev

使用 NLTK ieer 或 conll2000 语料库为 NER 训练语料库

来自分类Dev

使用 R 和 koRpus 编译和分析语料库

来自分类Dev

在R中使用tm的语料库功能处理大数据

来自分类Dev

将NLTK的通用标签集与非英语语料库一起使用

来自分类Dev

根据词典数据框替换语料库中的单词

来自分类Dev

带有注释的NER语料库训练数据

来自分类Dev

根据词典数据框替换语料库中的单词

来自分类Dev

什么是 tf-idf 中的文档和语料库?

来自分类Dev

将简化的语料库打印到Json文件

来自分类Dev

如何使用用户定义的类和 toDF 将 RDD 转换为数据帧

来自分类Dev

使用jQuery将已解析的文本转换为整数

Related 相关文章

  1. 1

    R tm软件包vcorpus:将语料库转换为数据帧时出错

  2. 2

    将数据框转换为语料库

  3. 3

    使用vocabulary_id和相应的tfidf得分将文本语料库转换为文本文档

  4. 4

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  5. 5

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  6. 6

    将列表中的多个数据框转换为其自己的唯一语料库对象

  7. 7

    导入和使用NLTK语料库

  8. 8

    如何将列表转换为R中的语料库?

  9. 9

    将语料库转换为R中的data.frame

  10. 10

    如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

  11. 11

    如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析?

  12. 12

    如何基于R中另一列的值将数据帧中的列的数据添加到语料库?

  13. 13

    使用Syntaxnet注释语料库

  14. 14

    将单个数据帧转换为数据帧列表(将列名解析为前缀和后缀)

  15. 15

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  16. 16

    语料库的建立

  17. 17

    使用TfidfVectorizer,是否可以将一个语料库用于idf信息,将另一个语料库用于实际索引?

  18. 18

    将 NLP 语料库存储在数据库中而不是 csv 中?

  19. 19

    使用 NLTK ieer 或 conll2000 语料库为 NER 训练语料库

  20. 20

    使用 R 和 koRpus 编译和分析语料库

  21. 21

    在R中使用tm的语料库功能处理大数据

  22. 22

    将NLTK的通用标签集与非英语语料库一起使用

  23. 23

    根据词典数据框替换语料库中的单词

  24. 24

    带有注释的NER语料库训练数据

  25. 25

    根据词典数据框替换语料库中的单词

  26. 26

    什么是 tf-idf 中的文档和语料库?

  27. 27

    将简化的语料库打印到Json文件

  28. 28

    如何使用用户定义的类和 toDF 将 RDD 转换为数据帧

  29. 29

    使用jQuery将已解析的文本转换为整数

热门标签

归档