什么是Checkpoint机制?Checkpoint(检查点)是一种容错和恢复机制,它的核心思想是:在程序长时间运行的过程中,定期将程序的关键状态(模型参数、训练轮数、优化器状态、随机数生成器种子等)保存到持久化存储(如磁盘)中,如果程序在...