Search

to 선직님

상태
In progress
담당
마감일
요약
선행 태스크
선행 태스크 상태
관련 마일스톤
3 more properties

문제상황

1.
지난번 만들어주셨던 시각화 데이터로 평가를 하도록 만들어 두었습니다. 그런데 전달 주신 데이터들 중에 일부 데이터가 누락되어 있는 것 같아요. 전체 데이터로 학습하던 모델이 평가 도중 죽어 버렸습니다. 다시 100% 데이터로 학습을 시킬 시간은 없고, 1% 데이터로 학습을 시키고 있습니다.
Traceback (most recent call last): File "tools/test.py", line 137, in <module> main() File "tools/test.py", line 133, in main runner.test() File "/usr/local/lib/python3.8/dist-packages/mmengine/runner/runner.py", line 1707, in test metrics = self.test_loop.run() # type: ignore File "/usr/local/lib/python3.8/dist-packages/mmengine/runner/loops.py", line 416, in run for idx, data_batch in enumerate(self.dataloader): File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/dataloader.py", line 521, in __next__ data = self._next_data() File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/dataloader.py", line 1203, in _next_data return self._process_data(data) File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/dataloader.py", line 1229, in _process_data data.reraise() File "/usr/local/lib/python3.8/dist-packages/torch/_utils.py", line 434, in reraise raise exception FileNotFoundError: Caught FileNotFoundError in DataLoader worker process 0. Original Traceback (most recent call last): File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/_utils/worker.py", line 287, in _worker_loop data = fetcher.fetch(index) File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/_utils/fetch.py", line 49, in fetch data = [self.dataset[idx] for idx in possibly_batched_index] File "/usr/local/lib/python3.8/dist-packages/torch/utils/data/_utils/fetch.py", line 49, in <listcomp> data = [self.dataset[idx] for idx in possibly_batched_index] File "/usr/local/lib/python3.8/dist-packages/mmengine/dataset/dataset_wrapper.py", line 155, in __getitem__ return self.datasets[dataset_idx][sample_idx] File "/usr/local/lib/python3.8/dist-packages/mmengine/dataset/base_dataset.py", line 401, in __getitem__ data = self.prepare_data(idx) File "/usr/local/lib/python3.8/dist-packages/mmengine/dataset/base_dataset.py", line 789, in prepare_data return self.pipeline(data_info) File "/usr/local/lib/python3.8/dist-packages/mmengine/dataset/base_dataset.py", line 58, in __call__ data = t(data) File "/usr/local/lib/python3.8/dist-packages/mmcv/transforms/base.py", line 12, in __call__ return self.transform(results) File "/root/dev/oss/src_mmocr/mmocr/datasets/transforms/loading.py", line 91, in transform raise e File "/root/dev/oss/src_mmocr/mmocr/datasets/transforms/loading.py", line 83, in transform img_bytes = self.file_client.get(filename) File "/usr/local/lib/python3.8/dist-packages/mmengine/fileio/file_client.py", line 297, in get return self.client.get(filepath) File "/usr/local/lib/python3.8/dist-packages/mmengine/fileio/backends/local_backend.py", line 33, in get with open(filepath, 'rb') as f: FileNotFoundError: [Errno 2] No such file or directory: 'data/rec/aihub_transit/part_100of100_sampled_for_vis/train/IMG_OCR_6_T_BL_007136_1.png'
Bash
복사
2.
이때 사용되는 1% 데이터는 제가 예전에 들고 있던 것으로, resized 된 데이터가 아닙니다. 따라서 마찬가지로 evaluation 도 resized 되지 않은 것으로 진행되어야 할 것 같다는 생각이 들었습니다. 물론 꼭 그러라는 법은 없지만 size 이슈를 해결하려다 시간을 빼앗길까 걱정입니다.
3.
그래서 원본 데이터를 찾고 있었습니다. /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data/finance100 디렉토리에 resized 되지 않은 이미지는 존재하지 않는 것일까요? >> /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data/finance100/resized_imgs 이 경로 확인해보시겠어요? 파일 열어 보니까 이게 리사이즈된 이미지입니다. >> 리사이즈되지않은건 카피해놓아야될 것 같습니다
하나 더요! /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data/finance100 이랑 /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data/transit100 에 들어 있는 데이터에는 선직님이 보여주셨던 이상한 데이터들이 어느정도 걸러져 있나요? >> detection은 거르기가 어렵고, recognition은 좌표 이상해서 crop이 안된 이미지들은 걸러졌습니다. 이정도만 파악하고 있어요.
저 에러는 보니까 recog 이미지가 없다는 말인 것 같은데….. 아마 json 좌표가 이상해서 걸러지지 않았을까 생각합니다.
4.
/home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data/transit 여기에 들어 있는 이미지파일은 2480 x 3508 사이즈입니다. 그런데 선직님께 전달받은 이미지파일의 해상도는 1/3 입니다. Aihub 과제를 평가하시는 분들이 어떻게 데이터를 취급하실지 모르겠습니다. 원본 해상도의 이미지를 넣을지, resized 된 이미지를 넣어볼지 모르겠습니다. resized 된 이미지와 레이블을 넣어주는 것이 아니라면, 레이블을 입력 해상도에 맞게 조절하는 스크립트가 필요할 것 같습니다. >> 아래의 물류 원장 이미지도 있어서 그렇게 된 것 같습니다. 리사이즈는 각 이미지크기 절반으로 되었고, 상수로 크기를 정의하진 않은 것으로 보이네요. 고정된 입력이 필요하지 않은 것 같습니다.
root@98f9693b39cb:~/dev/oss/src_mmocr# file data/det/aihub_transit/part_100of100/test/IMG_OCR_6_T_BL_000010.png data/det/aihub_transit/part_100of100/test/IMG_OCR_6_T_BL_000010.png: PNG image data, 827 x 1170, 8-bit/color RGB, non-interlaced
Bash
복사