直觉上可以这么想:
将轨迹作为 “变量” x,实际运动轨迹即某些 “方程” (如牛顿运动方程)的解。这就好比 2x-1=0 的解是 x=1/2。事实表明这个解是确定的(量子力学中波函数变化轨迹也是确定的),因此可以将这个解理解为某个 “函数” 的极小值点,这个函数叫 “作用量”。这就好比 2x-1=0 的解,同时也是函数 x^2-x 的极小值点,那么 x^2-x 就叫 “作用量”。如果方程的解不是确定的,比如 x-x=0,那么就不存在这样的 “作用量” 了。
任何 “稍稍” 偏离实际轨迹的轨迹都会导致作用量加大(注意这里是变分为零,不是最小),这样就重新表述了轨迹的确定性。题主所问的费马原理,是最小作用量原理的一例。
因此 最小作用量原理 是数学上很直观的事,只是把 解 表示成 极值点,换个视角而已。让人感觉有目的性的是不合适的表述方式。
视角的切换没有带来多少新的信息,因此最小作用量原理和其他描述运动的原理基本等价,但可以使计算和理解更方便。