numpy配列/データフレームの反復プロセスを高速化する方法

debugcn 投稿 Dev

アトゥール・スリバスタヴァ

Pythonでループプロセスを高速化する方法は？

約1800000レコードを含むデータフレームオブジェクトがあります。列2にはテキストデータが含まれています。

iloc2番目の列（テキスト列）とすべての行を使用して選択し、データフレームを1次元のnumpy配列に変換します。

ループ内では、テキスト列の値を連結して変数に格納しています。

その苦痛、1800000レコードの多数の配列を反復するのに膨大な時間（1時間で100000回以上反復することができます）を要します。助けてください。私はPythonプログラミングに不慣れです。

コードスニペット

尽きる

コードを見ると、2番目の列を1つの大きなテキストファイルに折りたたんでいるように見えますか？もしそうなら、これを試してください：

corpus = DataSet.iloc[:,2].str.cat(sep=", ")

データフレームで文字列コマンドを使用する場合は、先頭に「.str」を付ける必要があります。猫（）メソッドは、テキストの1つのブロブにpandas.Series内のテキストを結合します。データフレームの列を1つだけ選択すると、データフレームとは異なるメソッドを持つパンダシリーズが返されます。

合計コードは次のとおりです。

DataSet = pd.read_csv('yourfilename.csv')
Corpus = DataSet.iloc[:,2].str.cat(sep=", ") # no braces around the 2

# that's it.

'sep'引数はテキスト間の区切り文字であり、これを必要なものに設定できます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-10

コメントを追加

サインイン

分類Dev

VBA-フィルタープロセスを高速化する方法

分類Dev

グループ化されたデータフレームでクロスカラム計算を高速化する方法

分類Dev

データフレームのループを高速化

分類Dev

リストする行ごとのデータフレームのグループ化が高速化

分類Dev

別のデータフレームを参照するパンダのローリングを高速化する

分類Dev

Python-別のnumpy配列計算からnumpy配列を作成するforループを高速化する方法

分類Dev

データテーブルで逆行を見つけるプロセスを高速化する方法

分類Dev

パンダのデータフレーム検索を高速化する方法を探しています

分類Dev

ストアドプロシージャでの反復挿入プロセスを高速化するにはどうすればよいですか？

分類Dev

データフレームループを高速化

分類Dev

小さいデータ.フレームのサブセット化を高速化する方法はありますか

分類Dev

巨大なファイルのRでのループ実行プロセスを高速化する方法

分類Dev

Rでの反復プロセスを高速化できますか？

分類Dev

Rのデータフレームの列を反復（ループ）する

分類Dev

Pandasデータフレームの複数の列を反復する方法は？

分類Dev

配列値のリストを反復処理して新しいデータフレームを作成する

分類Dev

Spark Scala でデータフレーム内の各列を反復する方法

分類Dev

Freebaseのサブセットデータを抽出して、開発の反復を高速化します

分類Dev

pandasデータフレームの各列と各セルを反復処理する方法

分類Dev

データフレームのリストを反復するforループ

分類Dev

「移動する」球内の複数の配列間でデータを検索するコードのランタイムを高速化する方法

分類Dev

ループを高速化して、複数のデータフレームから値を割り当てます

分類Dev

「ユニークな」データフレーム検索を高速化する方法

分類Dev

重要な再コーディング：プログラムを高速化する方法は？Cython、numba、マルチプロセッシング、numpy？

分類Dev

クロールプロセスを高速化する

分類Dev

各行を反復せずに pandas データフレームの値にアクセスする方法

分類Dev

データフレームの列でリストの項目を反復する方法

分類Dev

コードを高速化-CSVを選択した列のパンダデータフレームにロードしてマージします

分類Dev

Rでデータフレームの列をより速く反復してテストする方法は？

Related 関連記事

記事