博客
关于AI、软件、生活等的思考。短篇笔记和长篇写作。
评价即创造:AI时代将重新定义人类的生产力
2025年10月15日在AI飞速发展的时代,评价能力、判断力、审美能力正在成为新的生产力。人类对'好'与'美'的定义和判断,将重塑创造的本质与价值。从手工时代的完整闭环到AI时代的评价驱动,我们正在见证一场生产范式的根本性革命。
阅读更多
InfoBatch:动态数据集剪枝
2024年1月17日多轮训练在简单、已学好的样本上浪费时间。InfoBatch 动态剪枝数据并重新缩放损失,以保持准确性,同时在视觉和语言任务上将训练速度提高 20-40%。
阅读更多
ZSCL:在不降低零样本迁移能力的情况下微调视觉-语言模型
2023年7月15日视觉-语言模型的持续微调可能会损害零样本迁移。ZSCL 在特征空间和参数空间中添加简单约束,以保持零样本能力,同时提高下游性能。
阅读更多
CAME 优化器:Adam 性能与 Adafactor 内存需求
2023年7月14日训练大语言模型需要大量内存。CAME 将内存使用降低到 Adafactor 水平,同时保持类似 Adam 的性能。
阅读更多
我们能否使用 LLM 本身来加速 LLM 推理?
2023年5月01日大语言模型(LLM)具有预测其生成响应长度的非凡能力。通过利用这种能力,我们提出了一种称为序列调度的新技术来提高 LLM 批量推理的效率。
阅读更多
反向传播算法的详细推导
2022年9月07日多层感知机反向传播算法的逐步推导。
阅读更多