Python：正则表达式或字典

debugcn 发表于 Dev

迈克

我有一个要解析的长字符串的DataFrame列。我是regex的新手，还没有使用过它。我下面的内容最多只会返回名字。我想知道对于正则表达式或创建字典进行迭代是否更容易解析此字符串。这是我目前所拥有的。顺序并不总是相同的（C，W，D，G，UTIL），我将编写一个for循环来遍历多行，就像这样。

import pandas as pd
import numpy as np
import re

df = pd.DataFrame(data=np.array([['C Mark Scheifele C Pierre-Luc Dubois UTIL Zach Parise W Mats Zuccarello W Oliver Bjorkstrand W Nick Foligno D Ryan Suter D Seth Jones G Devan Dubnyk'],['UTIL Kyle Connor C Pierre-Luc Dubois C Boone Jenner W Mats Zuccarello W Oliver Bjorkstrand W Nick Foligno D Ryan Suter D Seth Jones G Devan Dubnyk']]), columns=['Lineup'])

df['C1'] = re.findall(r" C \w+",str(df['Lineup']))
df['C2'] = re.findall(r'C \w+',str(df['Lineup']))
df['W1'] = re.findall(r'W \w+',str(df['Lineup']))
df['W2'] = re.findall(r'W \w+',str(df['Lineup']))
df['W3'] = re.findall(r'W \w+',str(df['Lineup']))
df['D1'] = re.findall(r'D \w+',str(df['Lineup']))
df['D1'] = re.findall(r'D \w+',str(df['Lineup']))
df['G']= re.findall(r'G \w+',str(df['Lineup']))
df['UTIL'] = re.findall(r'UTIL \w+',str(df['Lineup']))

我正在寻找将这些值存储到DF中。

df['C1'] = Mark Scheifele df['C2'] = Pierre-Luc Dubois df['W1'] = Mats Zuccarello df['W2'] = Oliver Bjorkstrand df['W3'] = Nick Foligno df['D1'] = Ryan Suter df['D2'] = Seth Jones df['G']= Devan Dubnyk df['UTIL'] = Zach Parise

结果数据帧 df_result = pd.DataFrame(data=np.array([['Mark Scheifele','Pierre-Luc Dubois','Mats Zuccarello','Oliver Bjorkstrand','Nick Foligno','Ryan Suter','Seth Jones','Devan Dubnyk','Zach Parise'],['Boone Jenner','Pierre-Luc Dubois','Mats Zuccarello','Oliver Bjorkstrand','Nick Foligno','Ryan Suter','Seth Jones','Devan Dubnyk','Kyle Connor']]), columns=['C1','C2','W1','W2','W3','D1','D2','G','UTIL'])

本能246

import pandas as pd
import numpy as np
import re
def calc_col(col):
    '''This function takes a string,
    finds the upper case letters or words placed as delimeter,
    converts it to a list,
    adds a number to the list elements if recurring.
    Eg. input list :['W','W','W','D','D','G','C','C','UTIL']
    o/p list: ['W1','W2','W3','D1','D2','G','C1','C2','UTIL']
    '''
    col_list = re.findall(" ?([A-Z]+) ", col)
    col_list2 = []
    for i in col_list:
        cnt = col_list.count(i)
        if cnt == 1:
            col_list2.append(i)
        if cnt > 1:
            if i in " ".join(col_list2):
                continue;
            col_list2 += [i+str(k) for k in range(1,cnt+1)] 
    return col_list2

df = pd.DataFrame(data=np.array([['C Mark Scheifele C Pierre-Luc Dubois UTIL Zach Parise W Mats Zuccarello W Oliver Bjorkstrand W Nick Foligno D Ryan Suter D Seth Jones G Devan Dubnyk'],['UTIL Kyle Connor C Pierre-Luc Dubois C Boone Jenner W Mats Zuccarello W Oliver Bjorkstrand W Nick Foligno D Ryan Suter D Seth Jones G Devan Dubnyk']]), columns=['Lineup'])
extr_row = df['Lineup'].replace(to_replace =" ?[A-Z]+ ", value="\n", regex = True) #split the rows on 

df_final = pd.DataFrame(columns = sorted(calc_col(df['Lineup'].iloc[0]))) #Create an empty data frame df3 with sorted columns

for i in range(len(extr_row)): #traverse all the rows in the original dataframe and append the formatted rows to df3
    df_temp = pd.DataFrame((extr_row.values[i].split("\n")[1:])).T
    df_temp.columns = calc_col(df['Lineup'].iloc[i])
    df_temp= df_temp[sorted(df_temp)]
    df_final = df_final.append(df_temp)
df_final.reset_index(drop = True, inplace = True)
df_final

请参阅下面的图片以获取最终数据帧。这适用于任何数量的行：

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

Python：正则表达式或字典

Python：正则表达式或字典

正则表达式可检测Python字典语法

Python中以正则表达式为键的字典

正则表达式断言字典

正则表达式或表达式，Python

Python正则表达式混淆

正则表达式与python错误

python正则表达式：组组？

Python正则表达式插入

多行正则表达式python

Python正则表达式处理“？”

Python：正则表达式替换

python正则表达式“ \ 1”

python中的正则表达式

Python正则表达式的难点

Python Findall，正则表达式

使用Python的正则表达式

Python正则表达式

或行内的Python正则表达式

Python：正则表达式findall

python正则表达式

制作正则表达式Python

Python：正则表达式搜索

python中的正则表达式

正则表达式多行Python

Python正则表达式组

Python替换正则表达式

Python正则表达式

python请求的正则表达式

Python正则表达式替代