pandasデータフレームのアドレス列で適合性を確立しようとしています。2つの形式のZipCode列があります:1)87301 2)87301-1234。すべての行にハイフンがあるわけではないので、ハイフンが存在する場合は分割する必要があります。
私のデータは次のようになります。
State ZIP
CA 85145-7045
PA 76913
私はこの問題に取り組むいくつかの方法を試しました。私が試してみました:
data['Zip_1'],data['Zip_2'] = data['Zip'].str.split('-').str
私が試してみました:
data['Zip'] = data['Zip'].str.split('-', n=1, expand=True)
data['Zip'] = data['Zip'][0]
data['Zip_drop'] = data['Zip'][1]
また、ラムダ関数を使用してみました。
ただし、nullを返すだけです。
新しい列は、ハイフンが含まれていない郵便番号と、ハイフンが含まれている場合はハイフンの後の数字に対してNaNを返すと予想されます。ただし、新しい列はすべての観測に対してNaNを入力するだけです
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加