博客
关于AI、软件、生活等的思考。短篇笔记和长篇写作。
Bash:人类社区与大模型预训练之间,被长期验证的知识与能力传递载体
2026年1月27日Bash 之所以在 Agent 中表现出色,并非因为它天生适合 AI,而是因为它承载了几十年人类工具社区的真实使用、文档沉淀与经验筛选——这些早已成为预训练语料的一部分。这篇文章从预训练视角重新理解 Bash 的价值,并探讨这一逻辑对 CLI 设计和未来 GUI 的启示。
SaaS 与估值术语速查
2025年11月09日对于刚开始接触 SaaS 业务的朋友,经常会看到一些英文缩写术语,有时会影响一段话的理解。为此,我整理了一些常见的 SaaS 与估值术语,供大家参考。
像运营产品一样推广你的研究与开源项目
2025年10月31日从博士毕业到做产品,我越来越意识到:足够的宣传与曝光,是让你的研究与开源项目真正「存在」的关键。本文系统性地介绍五种传播方式(媒体域、公域、付费域、社区域、私域)和四类媒介类型,帮助研究者和开发者像运营产品一样推广自己的工作。
AI 公司操作系统长啥样?——从 YC 的 2025 Fall 赛道说起
2025年10月28日本文以 Y Combinator 2025 年秋季创业方向为背景,深入探讨了 AI 原生企业软件系统的雏形及其对企业各环节的深远影响。从产品、研发、运营到行政和战略,AI 如何成为新一代企业操作系统,最终推动企业管理理念和效率的变革。
🚀 主页升级|Next.js 模板 + Vercel 一键部署
2025年10月25日从 Hugo + GitHub Pages 全面迁移到 Next.js + Vercel,不只是性能升级,更是架构自由的开始。这篇文章记录了我为个人主页做的一次‘大手术’,并正式开源了这套为研究者与开发者量身打造的模板。
《地球终夜》
2025年10月24日当地球的最后一夜降临,三个逃亡者从废墟中带走了人类的火种。他们以为在越狱,却不知正越过命运的边界。
评价即创造:AI时代将重新定义人类的生产力
2025年10月15日在AI飞速发展的时代,评价能力、判断力、审美能力正在成为新的生产力。人类对'好'与'美'的定义和判断,将重塑创造的本质与价值。从手工时代的完整闭环到AI时代的评价驱动,我们正在见证一场生产范式的根本性革命。
InfoBatch:动态数据集剪枝
2024年1月17日多轮训练在简单、已学好的样本上浪费时间。InfoBatch 动态剪枝数据并重新缩放损失,以保持准确性,同时在视觉和语言任务上将训练速度提高 20-40%。
ZSCL:在不降低零样本迁移能力的情况下微调视觉-语言模型
2023年7月15日视觉-语言模型的持续微调可能会损害零样本迁移。ZSCL 在特征空间和参数空间中添加简单约束,以保持零样本能力,同时提高下游性能。
CAME 优化器:Adam 性能与 Adafactor 内存需求
2023年7月14日训练大语言模型需要大量内存。CAME 将内存使用降低到 Adafactor 水平,同时保持类似 Adam 的性能。
我们能否使用 LLM 本身来加速 LLM 推理?
2023年5月01日大语言模型(LLM)具有预测其生成响应长度的非凡能力。通过利用这种能力,我们提出了一种称为序列调度的新技术来提高 LLM 批量推理的效率。
反向传播算法的详细推导
2022年9月07日多层感知机反向传播算法的逐步推导。