Inductive biases란, 학습시에는 만나보지 못했던 데이터를 추론함에 있어 네트워크가 가지고 있는 특정한 '가정'을 의미합니다. CNN을 예로 들자면, CNN은 Convolutional filter를 사용하여, 한 픽셀 씩 연산하지 않고, filter size 단위로 연산하기 때문에 주변에 있는 픽셀간의 관계를 좀 더 잘 뽑아낼 수 있는 특징 (Locality)을 가집니다. 하지만 트랜스포머 기반의 모델 같은 경우에는, 이미지 전체적으로 보았을 때의 관계성은 잘 찾아내지만 (Self-attention), CNN과 같은 inductive bias는 가지지 못해 좀 더 학습에 어려움을 겪어, 좀 더 많은 데이터 셋을 사용해야 할 필요성을 가지는 것입니다.