나는 각각 150x150x3 이미지에 약 1.5m 요소를 포함하는 단일 npy 파일 인 매우 큰 데이터 세트를 가지고 있습니다. 출력에는 51 개의 열 (51 개의 출력)이 있습니다. 데이터 세트가 메모리에 맞지 않는데 어떻게로드하고 모델에 맞게 사용합니까? 효율적인 방법은 TFRecords 및 tf.data를 사용하는 것이지만이 작업을 수행하는 방법을 이해할 수 없습니다. 도움을 주시면 감사하겠습니다. 감사합니다.
한 가지 방법은 NPY 파일 조각을 조각별로로드하고 (신경망을 공급하기 위해) 메모리에 한 번에로드하지 않는 것입니다. 당신은 사용할 수 있습니다 numpy.load
정상적으로 그리고 지정 mmap_mode
배열이 디스크에 보관하고, 단지 필요한 비트가 접근시 메모리에로드되도록 (더 자세한 내용을 키워드를 여기에 )
numpy.load(file, mmap_mode=None, allow_pickle=False, fix_imports=True, encoding='ASCII')
메모리 매핑 된 파일은 전체 파일을 메모리로 읽지 않고 디스크에있는 큰 파일의 작은 세그먼트에 액세스하는 데 사용됩니다. NumPy의 memmap은 배열과 같은 객체입니다. 이것은 파일과 유사한 객체를 사용하는 Python의 mmap 모듈과 다릅니다.
배열 tfrecords
에서 생성하는 방법을 알고 Dataset API를 사용하여 numpy
읽는 방법을 알고 싶다면 tfrecords
이 링크 가 좋은 답변을 제공합니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다