搜索

搜索

当列表元素是需要解析的文本页面时，如何将列表的每个元素存储在数据框中？

Sepatau 发表于 Dev

58

西帕陶

我有一个包含几个元素的列表。每个元素实质上都是使用OCR和Tesseract将抓取的PDF文件转换成字符串后的页面。

我想将每一页分成几行，然后将所有这些都存储在数据框中。我希望最终结构是“列是页面”和“行是线”。

我知道以下内容将占用一个页面并将每一行存储在一个数据框中。

page1 = pd.DataFrame(final_text[0].splitlines())

我也知道我可以将页面以最终文本形式存储，并使用以下内容将它们存储为数据框中的列：

pages = pd.DataFrame(final_text).T

我的问题有两个：

我如何编写一个for循环，以对final_text中的所有元素执行上述两项操作？
for循环需要考虑到每个元素或页面将导致不同数量的行。熊猫需要相同数量的行才能附加到数据框。

我尝试了很多方法都没有成功，任何帮助或指导将不胜感激。

主要沿着这些路线进行试验

for page in pages:
     page.splitlines()

但这会拉动索引值而不是实际元素。给出以下错误：

AttributeError：“ int”对象没有属性“ splitlines”

西帕陶

这就是我最终解决问题的方式。

# Determine the longest page value
page_length = []

for page in final_text:
    page_length.append(len(page.split('\n')))

page_length_max = max(page_length)

# Add blank lines to list entries so they equal the page with max length
updated_text = []

for page in final_text:
    updated_text.append(page.split('\n') + list(((page_length_max - len(page.split('\n'))) * '\n')))

# Create a dataframe with each page a column and each row and line
data = pd.DataFrame()

for i, page in enumerate(updated_text):
     data['page_%s' %str(i+1)] = page

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2020-12-5

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何将值列表中的数据添加到列表中的每个数据框？

来自分类Python

如何将列表中的每个元素除以int？

来自分类Python

如何将数据框的值存储在单个列表中

来自分类Dev

如何将列表中的元素一一追加到数据框中的嵌套列表中

来自分类Dev

如何将列表中的字典集中的每个元素组合到其他字典列表中？

来自分类Dev

如何将元素追加到列表的每个元素？（序言）

来自分类Dev

如何将元素列表附加到数据框的单个功能中？

来自分类Dev

在数据框列表中查找元素

来自分类Dev

将函数应用于列表中每个数据框的每个元素

来自分类Dev

如何将其值为列表的列的数据框转换为该列中每个列表的每个元素变为新行的数据框

来自分类Dev

如何将列表中的值分配给熊猫数据框并控制每个列表元素在数据框中的分布/频率

来自分类Dev

如何将存储在列表中的数据框的名称放入每个数据框的列名称中？

来自分类Dev

如何将列表列表中每个列表的前N个元素移到列表末尾

来自分类Dev

如何将列表中的元素添加到数据框作为保留顺序的列？

来自分类Dev

如何将列表列表隐藏到数据框中并使列表的第一个元素作为索引

来自分类Dev

如何将数组中的每个元素与列表中的每个元素进行比较？

来自分类Dev

如何按每个列表元素中数据框的大小对列表重新排序？

来自分类Dev

从oracle获取数据然后单独使用每个元素时，如何将数据按行存储在数组python变量中？

来自分类Dev

如何将行的元素列表与火花数据框中的值匹配

来自分类Dev

如何将列表中字符串中的每个单词转换为列表中的元素

来自分类Dev

在数据框中查找列表中元素的索引

来自分类Dev

如何将 Python 列表的每个元素括在括号中？

来自分类Dev

如何检查列表的字符串元素是否在数据框/其他列表中（python）

来自分类Dev

如何使用 dplyr left_join 在数据框中添加属性作为列表元素并根据需要将其导出到文本文件中？

来自分类Dev

Pandas：如何将系列的每个元素乘以数据框中列的每个元素

来自分类Dev

将向量的每个元素作为列放在列表中包含的每个数据框中

来自分类Dev

当两个元素匹配时，如何将特定值放在数据框中的列中

来自分类Dev

当两个元素匹配时，如何将特定值放在数据框中的列中

来自分类Dev

将列表中的每个元素与数据框 python 中的一列列表进行比较

Related 相关文章

文章

热门标签

归档