我创建了一个脚本,使我可以阅读多个pdf文件并逐个递归提取信息。该脚本使用pdf数据生成字典。例如:1º从1º迭代到PDF文件:
d = {"GGT":["transl","mut"], "ATT":["alt3"], "ATC":["alt5"], "AUC":["alteration"]}
2º在2ºPDF的第二次迭代中:
d = {"GGT":["transl","mut"], "AUC":["alteration"]}
。。。直到200个pdf文件为止。
最初,我创建了一个数据框,其中包含所有可以检测该分析的基因。
df = pd.DataFrame(data=None, columns=["GGT","AUC","ATC","ATT","UUU","UUT"], dtype=None, copy=False)
期望输出:我想获得的是一个数据帧,其中值的信息以递归方式逐行存储。例如:
有没有简单的方法来实现这一目标?或可以帮助我的功能?
IIUC,您是否试图遍历字典并将它们添加为数据框中的行?我不知道这是如何应用到recursion
与“我希望获得在这里的值的信息被存储在由线递归的方式线上的数据帧。”
d1 = {"GGT":["transl","mut"], "ATT":["alt3"], "ATC":["alt5"], "AUC":["alteration"]}
d2 = {"GGT":["transl","mut"], "AUC":["alteration"]}
dicts = [d1, d2] #imagine this list contains the 200 dictionaries
df = pd.DataFrame(data=None, columns=["GGT","AUC","ATC","ATT","UUU","UUT"], dtype=None, copy=False)
for d in dicts: #since only 200 rows a simple loop with append
df = df.append(d, ignore_index=True)
df
Out[1]:
GGT AUC ATC ATT UUU UUT
0 [transl, mut] [alteration] [alt5] [alt3] NaN NaN
1 [transl, mut] [alteration] NaN NaN NaN NaN
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句