梯度下降法的搜索方向顾名思义就是梯度方向,也就是当前点所在地形最陡峭的下降方向(你这个图里面只有左右两个方向)。
步长的选择要看函数的性质,一般可导函数,只要步长足够小,则保证每次函数值都不会增加,此外:
如果函数可导,且函数的梯度满足李普希兹连续(常数为L),若以小于 的步长迭代,则能保证每次迭代的函数值都不增,则保证最终会收敛到梯度为0的点。也可以采用Line search确定步长,Line search的本质目的其实也是为了保证函数值下降(或称作不增)。
2. 如果函数还是凸的,则最终会走到最优点。