视觉实体在尺度上的差异 "视觉实体在尺度上的差异", large variations in the scale of visual entities. 指的是, 在图像中, 物体的大小和形状可能会产生极大的变化, 例如, 一张照片中可能同时包含较大和较小的物体, 这要求模型能够有效识别和处理不同尺度的信息. 而这种尺度上的变化在自然语言领域相对少见.