如何使用草率的CSVFeedSpider抓取其值中带有逗号的Feed?

万德尔

我正在尝试将scrapy CSVFeedSpider用于csv链接,这是一个行示例:

数字,“可能包含逗号”,“可能包含逗号”,“可能包含逗号”,文本,文本,文本,文本,文本,文本,“可能包含逗号”

如果一个值包含逗号,则用引号将其引起来,由于该值仅接受一个定界符,我该如何实现呢?

http://doc.scrapy.org/en/latest/topics/spiders.html#csvfeedspider

蜘蛛

如果各列用双引号引起来,则使用逗号分隔时效果很好。如果用单引号引起来,它将抱怨长度不匹配

这是蜘蛛代码:

# -*- coding: utf-8 -*-
from scrapy.spider import Spider
from scrapy.selector import Selector
from stackoverflow23429315.items import DemoItem
from scrapy.contrib.spiders import CSVFeedSpider
from scrapy import log


class DmozSpider(CSVFeedSpider):
    name = 'csvFeedTest'        
    start_urls = ['file:////home/vagrant/labs/stackoverflow23429315/test.csv']
    delimiter = ','
    headers = ['id', 'name', 'address1', 'address2', 'email']

    def parse_row(self, response, row):
        log.msg('Hi, this is a row!: %r' % row)

        item = DemoItem()
        item['id'] = row['id']
        item['name'] = row['name']
        item['address1'] = row['address1']
        item['address2'] = row['address2']
        item['email'] = row['email']
        return item

物品类别:

from scrapy.item import Item, Field

class DemoItem(Item):
    id = Field()
    name = Field()
    address1 = Field()
    address2 = Field()
    email = Field()

测试csv文件:

1,"John, Doe","1234 Main Street, APT A","2nd Floor",[email protected]
2,"John2, Doe","1234 Main Street, APT A","2nd Floor",[email protected]
3,'John3, Doe','1234 Main Street, APT A','2nd Floor',[email protected]
4,'John4, Doe','1234 Main Street, APT A','2nd Floor',[email protected]

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用BeautifulSoup进行Python抓取,仅抓取其中带有特定单词的段落

来自分类Dev

如何在C ++中读取带有逗号分隔值的流?

来自分类Dev

使用Python递归抓取页面(草率)

来自分类Dev

如何使用python从带有ng-if属性的div元素中抓取链接?

来自分类Dev

在C ++中从文本文件中读取带有逗号的逗号分隔值

来自分类Dev

如何使用带有 R (rvest) 的 selectorgadget 抓取 .dpbox 表?

来自分类Dev

如何使用jQuery获取其值

来自分类Dev

如何使用jQuery获取其值

来自分类Dev

带有逗号分隔值的类似条件

来自分类Dev

带有逗号分隔值的 NgFor

来自分类Dev

如何从HTML树中抓取没有属性值的内容

来自分类Dev

如何使用Pandas groupby()将带有逗号分隔的列的字符串聚合到列表中?

来自分类Dev

如何确保源中没有逗号值?

来自分类Dev

如何在XSLT中添加所有逗号分隔的值

来自分类Dev

Python3,列表中的元组,如何获取其中的所有值

来自分类Dev

如何使用sed修改带有管道分隔值的文件中特定列中的值

来自分类Dev

如何使用python HTMLParser从HTML页面中抓取特定值

来自分类Dev

使用ItemLoader的草率设置布尔值

来自分类Dev

当我使用std :: map从文件中读取值时,该值带有“,”,因为键和值之间用逗号分隔

来自分类Dev

如何使用Apps脚本以逗号分隔数组中的值

来自分类Dev

如何使用从MySQL中拉逗号分隔值的联接

来自分类Dev

如何使用逗号(,)作为bash中变量的值

来自分类Dev

如何获得使用联接分隔的逗号中的值?

来自分类Dev

如何使用SQL获取单列中以逗号分隔的值

来自分类Dev

如何使用javascript读取xml中的逗号分隔值

来自分类Dev

删除索引,名称中带有逗号

来自分类Dev

带有Weka的CSV如何添加逗号作为值而不是分隔符

来自分类Dev

如何为带有逗号分隔值的字段设置“ where”子句?

来自分类Dev

将多个XML标签值放入带有逗号分隔符的单列中

Related 相关文章

  1. 1

    使用BeautifulSoup进行Python抓取,仅抓取其中带有特定单词的段落

  2. 2

    如何在C ++中读取带有逗号分隔值的流?

  3. 3

    使用Python递归抓取页面(草率)

  4. 4

    如何使用python从带有ng-if属性的div元素中抓取链接?

  5. 5

    在C ++中从文本文件中读取带有逗号的逗号分隔值

  6. 6

    如何使用带有 R (rvest) 的 selectorgadget 抓取 .dpbox 表?

  7. 7

    如何使用jQuery获取其值

  8. 8

    如何使用jQuery获取其值

  9. 9

    带有逗号分隔值的类似条件

  10. 10

    带有逗号分隔值的 NgFor

  11. 11

    如何从HTML树中抓取没有属性值的内容

  12. 12

    如何使用Pandas groupby()将带有逗号分隔的列的字符串聚合到列表中?

  13. 13

    如何确保源中没有逗号值?

  14. 14

    如何在XSLT中添加所有逗号分隔的值

  15. 15

    Python3,列表中的元组,如何获取其中的所有值

  16. 16

    如何使用sed修改带有管道分隔值的文件中特定列中的值

  17. 17

    如何使用python HTMLParser从HTML页面中抓取特定值

  18. 18

    使用ItemLoader的草率设置布尔值

  19. 19

    当我使用std :: map从文件中读取值时,该值带有“,”,因为键和值之间用逗号分隔

  20. 20

    如何使用Apps脚本以逗号分隔数组中的值

  21. 21

    如何使用从MySQL中拉逗号分隔值的联接

  22. 22

    如何使用逗号(,)作为bash中变量的值

  23. 23

    如何获得使用联接分隔的逗号中的值?

  24. 24

    如何使用SQL获取单列中以逗号分隔的值

  25. 25

    如何使用javascript读取xml中的逗号分隔值

  26. 26

    删除索引,名称中带有逗号

  27. 27

    带有Weka的CSV如何添加逗号作为值而不是分隔符

  28. 28

    如何为带有逗号分隔值的字段设置“ where”子句?

  29. 29

    将多个XML标签值放入带有逗号分隔符的单列中

热门标签

归档