Specify the fraction of GPU memory allowed for TF, making the remaining available for TRT engines. Use the per_process_gpu_memory_fraction and max_workspace_size_bytes parameters together for best overall application performance. 이 내용을 잘 보면, tensorflow 가 gpu 메모리를 40% 남겨놓게 하는 것은 "making the remaining available for TRT engines" 라고 했다. 이걸 바탕으로 생각해 보면, tensorflow savedmodel 로드를 한 뒤, 별도로 tensorrt engine 을 또 올린다는 사실을 알 수 있다.