Asset
E2E Pipeline
cd /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data
rsync -avz -e ssh finance100/* baikal@192.168.114.47:~/janghoo/dev/aihub/mmocr-env/aihub_finance/part_100of100
Bash
복사
ocr, finance100
cd /home/sjkim/mmocr-env/mmocr-env/volume/dev/oss/src_mmocr/data/raw_data
rsync -avz -e ssh transit100/* baikal@192.168.114.47:~/janghoo/dev/aihub/mmocr-env/aihub_transit/part_100of100
Bash
복사
ocr, transit
python file | role | output | |
- 다음 두 디렉터리에 raw 데이터들을 저장한다.
- data/raw/aihub_finance/part_100of100_sampled
- data/raw/aihub_transit/part_100of100_sampled | |||
- 100% 데이터의 부분집합인 test 데이터(전체 데이터의 10%)가 사용된다.
- MMOCR 데이터 포맷이 아닌 raw 데이터 포맷을 사용한다. | |||
inference.py | - test 데이터셋 데이터를 읽어들인다.
- ocr.py 의 e2e API 를 사용해서 추론 결과물 파일을 생성한다. | output.pkl | |
pkl2json.py | output.pkl 파일을 읽어서 output.json 파일로 변환한다. | output.json | |
image | json | |
금융 | data/raw/aihub_finance/part_100of100 | |
물류 | data/raw/aihub_transit/part_100of100 |