要素の長さに応じてPythonデータフレーム内の文字列の要素を削除します

13列と60000行で構成されるPythonデータフレームがあり、「テキスト」(タイプオブジェクト)という名前のこれらの列の1つに、非常に長いテキストセルが含まれています。

    Text    ID  AI  BI  GH  JB  EQ  HE  EN  MA  WE  WR
2585    obstetric gynaecologicaladmissions owing abor...    2585    0   0   0   0   0   1   0   0   0   0
507     graphic illustration process flow help organiz...   507     0   0   0   0   0   0   0   0   1   0

一部の行の一部の単語が固定されています(最初のデータフレーム行:gynaecologicaladmissionsのように)。これを取り除くために、データセット全体でこれらすべてのケースを削除したいと思います。「テキスト」列の各行について、13文字を超えるすべての単語を削除することを考えました。

私はこのラインコードを試しました:

res.loc[res['Text'].str.len() < 13]

しかし、結果として2つの空の行しか提​​供されません。

どうすればこの問題を解決できますか?

ggaurav

サンプルデータフレームを見てみましょう

df

    text
0   obstetric gynaecologicaladmissions owing
1   graphic illustration process flow help
2   process flow help
3   illustrationprocess flow

単語の長さを確認する必要があるため、各文字列を区切り文字(この場合はスペース)で分割し、配列をループして、長さが13以下の単語を含める必要があります。各配列をループするには、次を使用できます。 apply

def func(x):
    res = list()
    for word in x:
        if len(word) <= 13:
            res.append(word)
    return " ".join(res)
    
df['text'] = df['text'].str.split().apply(func)
df
    
     text
0   obstetric owing
1   graphic illustration process flow help
2   process flow help
3   flow

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

別の列に応じてデータフレーム内の共通要素を計算する方法

分類Dev

別の列に応じてデータフレーム内の共通要素を計算する方法

分類Dev

データフレーム内のすべてのセルの文字列の長さを制限しますか?

分類Dev

データフレーム内のすべてのセルの文字列の長さを制限しますか?

分類Dev

データフレーム列の各要素でgrplを使用して、異なるデータフレーム内の文字列を検索します

分類Dev

しきい値に応じて、データフレームの要素を特別な列(リスト列)に置き換えます

分類Dev

別の列の部分文字列の存在に応じてPythonデータフレーム列を更新する方法

分類Dev

列の各要素に、同じデータフレーム内の異なる列の各要素を乗算します

分類Dev

次の要素に応じて現在の要素のデータを更新します

分類Dev

データフレームのリスト内の対応する要素に関数を適用します

分類Dev

データフレーム列内の等しい要素を列挙します

分類Dev

区切り文字を使用して、データフレーム内の列を複数の列(異なる長さ)に分割します

分類Dev

列の要素にベクトルの要素が含まれているデータフレーム内のすべての行の行番号を取得したい

分類Dev

別の列の文字列に応じて pandas データフレームの列のデータを選択します

分類Dev

Scalaを使用してSparkデータフレーム内のリストの各要素に文字列を連結します

分類Dev

別のデータフレーム内の一致するデータに応じて、データフレーム内の値を更新します

分類Dev

データフレームのリスト内の要素とヘッダーのすべての大文字と小文字を小文字に変更します

分類Dev

Python:データフレーム内の複数の配列の要素ごとの平均を取得します

分類Dev

ソートされた列を使用して、データフレーム内の全体的な最小要素の分布をより効率的に取得します

分類Dev

文字列内の重複を削除しますが、データフレーム全体に対して

分類Dev

データフレームのすべての要素の特定の場所にサブ文字列を挿入します(Python)

分類Dev

pandas-データフレームの2つの別々の列の値に応じて列を作成します

分類Dev

データフレーム内の行内の列文字列要素を分割する

分類Dev

リスト内の要素をデータフレーム内の異なる列に割り当てます

分類Dev

Python、データフレーム内の行を列の整数で複製し、それに応じて減らします

分類Dev

複数の同じ長さの時系列データフレームを1つの列に追加します

分類Dev

データフレーム内の要素列のレベルごとに文字列の要素数を数える

分類Dev

値の条件に応じて、データフレーム内の列を並べ替えます

分類Dev

pandasデータフレームの特定のセルについて、リストの要素を削除します

Related 関連記事

  1. 1

    別の列に応じてデータフレーム内の共通要素を計算する方法

  2. 2

    別の列に応じてデータフレーム内の共通要素を計算する方法

  3. 3

    データフレーム内のすべてのセルの文字列の長さを制限しますか?

  4. 4

    データフレーム内のすべてのセルの文字列の長さを制限しますか?

  5. 5

    データフレーム列の各要素でgrplを使用して、異なるデータフレーム内の文字列を検索します

  6. 6

    しきい値に応じて、データフレームの要素を特別な列(リスト列)に置き換えます

  7. 7

    別の列の部分文字列の存在に応じてPythonデータフレーム列を更新する方法

  8. 8

    列の各要素に、同じデータフレーム内の異なる列の各要素を乗算します

  9. 9

    次の要素に応じて現在の要素のデータを更新します

  10. 10

    データフレームのリスト内の対応する要素に関数を適用します

  11. 11

    データフレーム列内の等しい要素を列挙します

  12. 12

    区切り文字を使用して、データフレーム内の列を複数の列(異なる長さ)に分割します

  13. 13

    列の要素にベクトルの要素が含まれているデータフレーム内のすべての行の行番号を取得したい

  14. 14

    別の列の文字列に応じて pandas データフレームの列のデータを選択します

  15. 15

    Scalaを使用してSparkデータフレーム内のリストの各要素に文字列を連結します

  16. 16

    別のデータフレーム内の一致するデータに応じて、データフレーム内の値を更新します

  17. 17

    データフレームのリスト内の要素とヘッダーのすべての大文字と小文字を小文字に変更します

  18. 18

    Python:データフレーム内の複数の配列の要素ごとの平均を取得します

  19. 19

    ソートされた列を使用して、データフレーム内の全体的な最小要素の分布をより効率的に取得します

  20. 20

    文字列内の重複を削除しますが、データフレーム全体に対して

  21. 21

    データフレームのすべての要素の特定の場所にサブ文字列を挿入します(Python)

  22. 22

    pandas-データフレームの2つの別々の列の値に応じて列を作成します

  23. 23

    データフレーム内の行内の列文字列要素を分割する

  24. 24

    リスト内の要素をデータフレーム内の異なる列に割り当てます

  25. 25

    Python、データフレーム内の行を列の整数で複製し、それに応じて減らします

  26. 26

    複数の同じ長さの時系列データフレームを1つの列に追加します

  27. 27

    データフレーム内の要素列のレベルごとに文字列の要素数を数える

  28. 28

    値の条件に応じて、データフレーム内の列を並べ替えます

  29. 29

    pandasデータフレームの特定のセルについて、リストの要素を削除します

ホットタグ

アーカイブ