如何从python中的文本文件中获取子字符串?

ic3fr0g

我有一堆明文形式的推文,如下所示。我希望提取文本部分

在文件中采样数据-

Fri Nov 13 20:27:16 +0000 2015 4181010297 rt     we're treating one of you lads to this d'struct denim shirt! simply follow & rt to enter
Fri Nov 13 20:27:16 +0000 2015 2891325562 this album is wonderful, i'm so proud of you, i loved this album, it really is the best.    -273
Fri Nov 13 20:27:19 +0000 2015 2347993701 international break is garbage smh. it's boring and your players get injured
Fri Nov 13 20:27:20 +0000 2015 3168571911 get weather updates from the weather channel. 15:27:19
Fri Nov 13 20:27:20 +0000 2015 2495101558 woah what happened to twitter this update is horrible
Fri Nov 13 20:27:19 +0000 2015 229544082 i've completed the daily quest in paradise island 2!
Fri Nov 13 20:27:17 +0000 2015 309233999 new post: henderson memorial public library
Fri Nov 13 20:27:21 +0000 2015 291806707 who's going to  next week?
Fri Nov 13 20:27:19 +0000 2015 3031745900 why so blue?    @ golden bee

这是在预处理阶段的尝试-

for filename in glob.glob('*.txt'):
    with open("plain text - preprocesshurricane.txt",'a') as outfile ,open(filename, 'r') as infile:
        for tweet in infile.readlines():
            temp=tweet.split(' ')
            text=""
            for i in temp:
                x=str(i)
                if x.isalpha() :
                    text += x + ' '
            print(text)

输出-

Fri Nov rt treating one of you lads to this denim simply follow rt to 
Fri Nov this album is so proud of i loved this it really is the 
Fri Nov international break is garbage boring and your players get 
Fri Nov get weather updates from the weather 
Fri Nov woah what happened to twitter this update is 
Fri Nov completed the daily quest in paradise island 
Fri Nov new henderson memorial public 
Fri Nov going to next 
Fri Nov why so golden 

此输出不是所需的输出,因为

1.不允许我在推文的文本部分中提取数字/数字。
2.每行以FRI NOV开始。

您能否建议一个更好的方法来达到相同的目的?我对正则表达式不太熟悉,但是我认为我们可以雇用re.search(r'2015(magic to remove tweetID)/w*',tweet)

ec

在这种情况下,您可以避免使用正则表达式。就推文之前的空格而言,您呈现的文本行是一致的。只是split()

>>> data = """
   lines with tweets here
"""
>>> for line in data.splitlines():
...     print(line.split(" ", 7)[-1])
... 
rt     we're treating one of you lads to this d'struct denim shirt! simply follow & rt to enter
this album is wonderful, i'm so proud of you, i loved this album, it really is the best.    -273
international break is garbage smh. it's boring and your players get injured
get weather updates from the weather channel. 15:27:19
woah what happened to twitter this update is horrible
i've completed the daily quest in paradise island 2!
new post: henderson memorial public library
who's going to  next week?
why so blue?    @ golden bee

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从文本文件中获取特定字符串

来自分类Dev

在 Python 中如何获取文本文件中特定字符串后的 10 个字符

来自分类Dev

如何从python中两个单独的文本文件中基于子字符串提取行?

来自分类Dev

Python:检索文本文件中以缩进为界的子字符串

来自分类Dev

如何从文本文件中的python中的字符串中删除空['']

来自分类Dev

如何在文本文件中获取特定字符串

来自分类Dev

如何从文本文件中获取字符串的计数。输出错误

来自分类Dev

如何获取文本文件中已知字符串之后的特定未知字符串?

来自分类Dev

如何使用python在文本文件中写入多行字符串的完整输出?

来自分类Dev

如何查看字符串是否在文本文件中(有点)?Python

来自分类Dev

如何从文本文件获取连接字符串?

来自分类Dev

如何搜索字符串并替换文本文件中的字符串?

来自分类Dev

如何从文本文件中的某行中某行中的特定字符串之后获取数字?

来自分类Dev

如何在文本文件中的某个字符串之后从python中的文本文件中提取数据?

来自分类Dev

从 Python 中的文本文件中读取包含文本字符串的整行

来自分类Dev

如何在从逗号分隔的文本文件读取的行中创建子字符串

来自分类Dev

PHP、cURL、strpos - 逐行比较文本文件中的子字符串与变量中的字符串

来自分类Dev

读取文本文件中的字符串

来自分类Dev

从文本文件中检索匹配的字符串

来自分类Dev

在文本文件中找不到字符串

来自分类Dev

在文本文件中搜索字符串

来自分类Dev

在文本文件中搜索多行字符串

来自分类Dev

文本文件中的Perl字符串比较

来自分类Dev

从文本文件中删除字符串

来自分类Dev

在文本文件中搜索字符串?

来自分类Dev

在文本文件中搜索字符串的位置

来自分类Dev

遍历文本文件并查找要附加到与层次结构相关的文本文件中的子字符串的字符串

来自分类Dev

计算纯文本文件中与子字符串匹配的行

来自分类Dev

DataGridView中的C#(winforms)文本文件(子字符串)

Related 相关文章

  1. 1

    从文本文件中获取特定字符串

  2. 2

    在 Python 中如何获取文本文件中特定字符串后的 10 个字符

  3. 3

    如何从python中两个单独的文本文件中基于子字符串提取行?

  4. 4

    Python:检索文本文件中以缩进为界的子字符串

  5. 5

    如何从文本文件中的python中的字符串中删除空['']

  6. 6

    如何在文本文件中获取特定字符串

  7. 7

    如何从文本文件中获取字符串的计数。输出错误

  8. 8

    如何获取文本文件中已知字符串之后的特定未知字符串?

  9. 9

    如何使用python在文本文件中写入多行字符串的完整输出?

  10. 10

    如何查看字符串是否在文本文件中(有点)?Python

  11. 11

    如何从文本文件获取连接字符串?

  12. 12

    如何搜索字符串并替换文本文件中的字符串?

  13. 13

    如何从文本文件中的某行中某行中的特定字符串之后获取数字?

  14. 14

    如何在文本文件中的某个字符串之后从python中的文本文件中提取数据?

  15. 15

    从 Python 中的文本文件中读取包含文本字符串的整行

  16. 16

    如何在从逗号分隔的文本文件读取的行中创建子字符串

  17. 17

    PHP、cURL、strpos - 逐行比较文本文件中的子字符串与变量中的字符串

  18. 18

    读取文本文件中的字符串

  19. 19

    从文本文件中检索匹配的字符串

  20. 20

    在文本文件中找不到字符串

  21. 21

    在文本文件中搜索字符串

  22. 22

    在文本文件中搜索多行字符串

  23. 23

    文本文件中的Perl字符串比较

  24. 24

    从文本文件中删除字符串

  25. 25

    在文本文件中搜索字符串?

  26. 26

    在文本文件中搜索字符串的位置

  27. 27

    遍历文本文件并查找要附加到与层次结构相关的文本文件中的子字符串的字符串

  28. 28

    计算纯文本文件中与子字符串匹配的行

  29. 29

    DataGridView中的C#(winforms)文本文件(子字符串)

热门标签

归档