关于神经网络优化的问题

如题,现在在瑞萨的板子上跑80*80的图像识别七分类,只有三层卷积,印象中第一次跑是28ms能跑完这个dnn_compute,但是最近却发现好像要67ms才能跑完,这里是真的不知道为什么时间变长了,不知是否有什么误操作会导致计算时长加多,由于系统要求实时性很高,所以往下压时间是比较有必要的。

想请问一下是否有方法能从一些软件方面进行优化,如变量放在cache之类的能加速计算(感觉既然曾经实现过28ms跑完,这个系统还是能实现快速跑完的),还是建议缩小图像的尺寸,从网络方面入手。