博客

关于AI、软件、生活等的思考。短篇笔记和长篇写作。

Bash:人类社区与大模型预训练之间,被长期验证的知识与能力传递载体

2026年1月27日

Bash 之所以在 Agent 中表现出色,并非因为它天生适合 AI,而是因为它承载了几十年人类工具社区的真实使用、文档沉淀与经验筛选——这些早已成为预训练语料的一部分。这篇文章从预训练视角重新理解 Bash 的价值,并探讨这一逻辑对 CLI 设计和未来 GUI 的启示。

阅读更多

SaaS 与估值术语速查

2025年11月09日

对于刚开始接触 SaaS 业务的朋友,经常会看到一些英文缩写术语,有时会影响一段话的理解。为此,我整理了一些常见的 SaaS 与估值术语,供大家参考。

阅读更多

像运营产品一样推广你的研究与开源项目

2025年10月31日

从博士毕业到做产品,我越来越意识到:足够的宣传与曝光,是让你的研究与开源项目真正「存在」的关键。本文系统性地介绍五种传播方式(媒体域、公域、付费域、社区域、私域)和四类媒介类型,帮助研究者和开发者像运营产品一样推广自己的工作。

阅读更多

AI 公司操作系统长啥样?——从 YC 的 2025 Fall 赛道说起

2025年10月28日

本文以 Y Combinator 2025 年秋季创业方向为背景,深入探讨了 AI 原生企业软件系统的雏形及其对企业各环节的深远影响。从产品、研发、运营到行政和战略,AI 如何成为新一代企业操作系统,最终推动企业管理理念和效率的变革。

阅读更多

🚀 主页升级|Next.js 模板 + Vercel 一键部署

2025年10月25日

从 Hugo + GitHub Pages 全面迁移到 Next.js + Vercel,不只是性能升级,更是架构自由的开始。这篇文章记录了我为个人主页做的一次‘大手术’,并正式开源了这套为研究者与开发者量身打造的模板。

阅读更多

《地球终夜》

2025年10月24日

当地球的最后一夜降临,三个逃亡者从废墟中带走了人类的火种。他们以为在越狱,却不知正越过命运的边界。

阅读更多

评价即创造:AI时代将重新定义人类的生产力

2025年10月15日

在AI飞速发展的时代,评价能力、判断力、审美能力正在成为新的生产力。人类对'好'与'美'的定义和判断,将重塑创造的本质与价值。从手工时代的完整闭环到AI时代的评价驱动,我们正在见证一场生产范式的根本性革命。

阅读更多

InfoBatch:动态数据集剪枝

2024年1月17日

多轮训练在简单、已学好的样本上浪费时间。InfoBatch 动态剪枝数据并重新缩放损失,以保持准确性,同时在视觉和语言任务上将训练速度提高 20-40%。

阅读更多

ZSCL:在不降低零样本迁移能力的情况下微调视觉-语言模型

2023年7月15日

视觉-语言模型的持续微调可能会损害零样本迁移。ZSCL 在特征空间和参数空间中添加简单约束,以保持零样本能力,同时提高下游性能。

阅读更多

CAME 优化器:Adam 性能与 Adafactor 内存需求

2023年7月14日

训练大语言模型需要大量内存。CAME 将内存使用降低到 Adafactor 水平,同时保持类似 Adam 的性能。

阅读更多

我们能否使用 LLM 本身来加速 LLM 推理?

2023年5月01日

大语言模型(LLM)具有预测其生成响应长度的非凡能力。通过利用这种能力,我们提出了一种称为序列调度的新技术来提高 LLM 批量推理的效率。

阅读更多

反向传播算法的详细推导

2022年9月07日

多层感知机反向传播算法的逐步推导。

阅读更多