기술 성공, 실패 기록소

tensorflow shuffle buffer_size 본문

프로그래밍언어

tensorflow shuffle buffer_size

sunlab 2022. 8. 2. 05:01
728x90

https://www.tensorflow.org/api_docs/python/tf/data/Dataset#shuffle

 

tf.data.Dataset  |  TensorFlow Core v2.9.1

Represents a potentially large set of elements.

www.tensorflow.org

https://helloyjam.github.io/tensorflow/buffer-size-in-shuffle/

 

shuffle()에서 buffer_size의 중요성

tf.data.Dataset은 대량의 데이터를 표현할 수 있는 API이다.(tensorflow 공식사이트에서는, 잠재적으로 큰 요소 집합을 나타낸다고 말한다.)Dataset은 input pipeline을 표현하는데 사용될 수 있다.

helloyjam.github.io

문서를 보면 shuffle의 buffer_size를 전체 데이터 크기 보다 같거나 크게 해야지

전체가 잘 섞인다고 하는듯하고

그보다 적게하면 예를 들어 100크기의 데이터에서 buffer_size를 10개 했을때

첫번째 10개만 buffer에 넣어서 랜덤하게 섞어준다는 설명을 하는것 같지만.

 

실제로 tensorflow 2.7.0 버전 기준으로

80크기의 데이터에서 buffer_size를 10을 넣든 20을 넣든 80을 넣든 100을 넣든.

전체 데이터 갯수 80개가 buffer로 들어가 섞여버린다.

그냥 buffer_size를 뭘넣든간에 buffer_size가 데이터의 크기로 변환되버리는 것 같다.

어처구니 없다.

 

 

'프로그래밍언어' 카테고리의 다른 글

심볼릭 링크  (0) 2021.02.10
git에서 특정 브랜치만 clone하는 방법  (0) 2021.02.10
git 특정 branch 가져오기.  (0) 2020.11.12
cppreference  (0) 2020.10.25
#!/usr/bin/env python  (0) 2020.09.17