要素の長さに応じてPythonデータフレーム内の文字列の要素を削除します

debugcn 投稿 Dev

私

13列と60000行で構成されるPythonデータフレームがあり、「テキスト」（タイプオブジェクト）という名前のこれらの列の1つに、非常に長いテキストセルが含まれています。

    Text    ID  AI  BI  GH  JB  EQ  HE  EN  MA  WE  WR
2585    obstetric gynaecologicaladmissions owing abor...    2585    0   0   0   0   0   1   0   0   0   0
507     graphic illustration process flow help organiz...   507     0   0   0   0   0   0   0   0   1   0

一部の行の一部の単語が固定されています（最初のデータフレーム行：gynaecologicaladmissionsのように）。これを取り除くために、データセット全体でこれらすべてのケースを削除したいと思います。「テキスト」列の各行について、13文字を超えるすべての単語を削除することを考えました。

私はこのラインコードを試しました：

res.loc[res['Text'].str.len() < 13]

しかし、結果として2つの空の行しか提供されません。

どうすればこの問題を解決できますか？

ggaurav

サンプルデータフレームを見てみましょう

df

    text
0   obstetric gynaecologicaladmissions owing
1   graphic illustration process flow help
2   process flow help
3   illustrationprocess flow

単語の長さを確認する必要があるため、各文字列を区切り文字（この場合はスペース）で分割し、配列をループして、長さが13以下の単語を含める必要があります。各配列をループするには、次を使用できます。 apply

def func(x):
    res = list()
    for word in x:
        if len(word) <= 13:
            res.append(word)
    return " ".join(res)
    
df['text'] = df['text'].str.split().apply(func)
df
    
     text
0   obstetric owing
1   graphic illustration process flow help
2   process flow help
3   flow

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

要素の長さに応じてPythonデータフレーム内の文字列の要素を削除します

要素の長さに応じてPythonデータフレーム内の文字列の要素を削除します

別の列に応じてデータフレーム内の共通要素を計算する方法

別の列に応じてデータフレーム内の共通要素を計算する方法

データフレーム内のすべてのセルの文字列の長さを制限しますか？

データフレーム内のすべてのセルの文字列の長さを制限しますか？

データフレーム列の各要素でgrplを使用して、異なるデータフレーム内の文字列を検索します

しきい値に応じて、データフレームの要素を特別な列（リスト列）に置き換えます

別の列の部分文字列の存在に応じてPythonデータフレーム列を更新する方法

列の各要素に、同じデータフレーム内の異なる列の各要素を乗算します

次の要素に応じて現在の要素のデータを更新します

データフレームのリスト内の対応する要素に関数を適用します

データフレーム列内の等しい要素を列挙します

区切り文字を使用して、データフレーム内の列を複数の列（異なる長さ）に分割します

列の要素にベクトルの要素が含まれているデータフレーム内のすべての行の行番号を取得したい

別の列の文字列に応じて pandas データフレームの列のデータを選択します

Scalaを使用してSparkデータフレーム内のリストの各要素に文字列を連結します

別のデータフレーム内の一致するデータに応じて、データフレーム内の値を更新します

データフレームのリスト内の要素とヘッダーのすべての大文字と小文字を小文字に変更します

Python：データフレーム内の複数の配列の要素ごとの平均を取得します

ソートされた列を使用して、データフレーム内の全体的な最小要素の分布をより効率的に取得します

文字列内の重複を削除しますが、データフレーム全体に対して

データフレームのすべての要素の特定の場所にサブ文字列を挿入します（Python）

pandas-データフレームの2つの別々の列の値に応じて列を作成します

データフレーム内の行内の列文字列要素を分割する

リスト内の要素をデータフレーム内の異なる列に割り当てます

Python、データフレーム内の行を列の整数で複製し、それに応じて減らします

複数の同じ長さの時系列データフレームを1つの列に追加します

データフレーム内の要素列のレベルごとに文字列の要素数を数える

値の条件に応じて、データフレーム内の列を並べ替えます

pandasデータフレームの特定のセルについて、リストの要素を削除します