PythonパンダCSVインポート/ Unicodeの問題

Jハリス

CSV分類モデルをトレーニングする前に、メッセージボードの投稿(ファイルに含まれている)を使用して、データなどをクリーンアップしようとしています。

私が得るまで、物事は順調に進んでいました:

TypeError: 'float'オブジェクトは反復可能ではありません

行に応じて:

letters_only = ''.join([i for i in textToProcess if not i.isdigit()])

textToProcessの由来(train["text"][i])

だから...私が電話をかけて自分のデータをチェックしようと思ったとき:

print train.isnull().sum()
print test.isnull().sum()

次の出力が得られました。

id          0
category    0
title       0
text        1
train       26
dtype:      int64
id          5512
category    5512
title       5512
text        5512
train       5512
dtype: int64

質問:これは、テストセットでは、すべての列に5512個のnull値があることを意味しますか?

この時点まで、輸入品などはほとんど期待通りに動いているように見えたので、これは奇妙なことです。たとえば、たとえばを呼び出すとtrain["text"][0]、期待される出力(つまりテキスト)が生成されました。

それが役立つ場合、私の元のread_csvインポート呼び出しは次のようになりました:

train = pd.read_csv(full_train_filename, header=0, encoding = 'utf-8')

test = pd.read_csv(full_test_filename, header=0, encoding = 'utf-8')`

ここに直接の質問が1つあるかどうかはわかりませんが、私が間違ったことを誰かに見てもらいたいと思っています。

どんな考えでも大歓迎です。

イズレエル

から作成された、のチェックNaNが必要だと思いますあなたは使用することができますしてDataFramecsvisnullanyboolean indexing

test[test.isnull().any(1)]

サンプル:

import pandas as pd
import numpy as np

test = pd.DataFrame({'a': {0: 'r', 1: 'r', 2: 't', 3: 'y'}, 
                     'b': {0: 'a', 1: 'a', 2: 's', 3: 'g'}, 
                     'c': {0: 7.0, 1: 5.0, 2: np.nan, 3: 4.0}})
print (test)
   a  b    c
0  r  a  7.0
1  r  a  5.0
2  t  s  NaN
3  y  g  4.0

print (test[test.isnull().any(1)])
   a  b   c
2  t  s NaN

次に、テキストエディタなどNotepad++を使用して、この問題のある行を確認できます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

パンダ、Python 2.7、pip19.1.1のインポート中の問題

分類Dev

Pythonパッケージのインポートの問題

分類Dev

パンダ-CSV問題のインポート-最後に0を追加および削除

分類Dev

Python | パンダ| CSV | 辞書の問題

分類Dev

シーンビルダー-Jarインポートの問題

分類Dev

改行付きのcsvファイルをRまたはPythonパンダにインポートする

分類Dev

CSVデータのインポートの問題

分類Dev

Unicodeおよびcsvの問題でのPython配列の印刷

分類Dev

RSQLiteDBへのCSVインポートの自動化の問題

分類Dev

複数のフォルダでのPythonインポートの問題

分類Dev

Mathematicaのインポートの問題

分類Dev

numpyのインポートの問題

分類Dev

phpインポートcsv特別な文字の問題

分類Dev

パンダのインストールに関する問題

分類Dev

Golangインポートの問題

分類Dev

Intellij IDEAMavenインポートの問題

分類Dev

Coqインポートの問題

分類Dev

Elastic Beanstalkcronインポートの問題

分類Dev

Angular VideoJsVRインポートの問題

分類Dev

MagentoでのCSVインポート/エクスポートの問題

分類Dev

パンダのデータレイアウトの問題

分類Dev

Pythonトルネードインポートの問題

分類Dev

C ++ 0xコンパイラサポートの問題

分類Dev

HTMLタイトル、疑問符の付いたUnicodeの問題?65533;

分類Dev

Pythonモジュールのインポートの問題

分類Dev

パンダread_csvでデータをインポート:2行エラーのヘッダー

分類Dev

tarfile.extractall()に関するUnicodeの問題(Python 2.7)

分類Dev

Unicode文字でファイルを保存する際の問題

分類Dev

レンダリングコンポーネントの問題

Related 関連記事

  1. 1

    パンダ、Python 2.7、pip19.1.1のインポート中の問題

  2. 2

    Pythonパッケージのインポートの問題

  3. 3

    パンダ-CSV問題のインポート-最後に0を追加および削除

  4. 4

    Python | パンダ| CSV | 辞書の問題

  5. 5

    シーンビルダー-Jarインポートの問題

  6. 6

    改行付きのcsvファイルをRまたはPythonパンダにインポートする

  7. 7

    CSVデータのインポートの問題

  8. 8

    Unicodeおよびcsvの問題でのPython配列の印刷

  9. 9

    RSQLiteDBへのCSVインポートの自動化の問題

  10. 10

    複数のフォルダでのPythonインポートの問題

  11. 11

    Mathematicaのインポートの問題

  12. 12

    numpyのインポートの問題

  13. 13

    phpインポートcsv特別な文字の問題

  14. 14

    パンダのインストールに関する問題

  15. 15

    Golangインポートの問題

  16. 16

    Intellij IDEAMavenインポートの問題

  17. 17

    Coqインポートの問題

  18. 18

    Elastic Beanstalkcronインポートの問題

  19. 19

    Angular VideoJsVRインポートの問題

  20. 20

    MagentoでのCSVインポート/エクスポートの問題

  21. 21

    パンダのデータレイアウトの問題

  22. 22

    Pythonトルネードインポートの問題

  23. 23

    C ++ 0xコンパイラサポートの問題

  24. 24

    HTMLタイトル、疑問符の付いたUnicodeの問題?65533;

  25. 25

    Pythonモジュールのインポートの問題

  26. 26

    パンダread_csvでデータをインポート:2行エラーのヘッダー

  27. 27

    tarfile.extractall()に関するUnicodeの問題(Python 2.7)

  28. 28

    Unicode文字でファイルを保存する際の問題

  29. 29

    レンダリングコンポーネントの問題

ホットタグ

アーカイブ