MoE on I'm OWenT

大语言模型的基石：Transformer 入坑笔记（三） - 注意力机制和 Transformer

Sun, 28 Jun 2026 01:25:45 +0000

背景

接上文《大语言模型的基石：Transformer 入坑笔记（二） - 基本原理和 Word Embeddings》，继续我们的 Attention Is All You Need/Transformer 学习之旅。

首先简单了解下传统的方案。

卷积神经网络（CNN）

卷积神经网络（CNN）似乎更适合静态数据（比如图片处理、提取特征等）。所谓静态数据，是指每个数据组都单独和目标矩阵运算，通过卷积层、池化层、全连接层等输出。每个数据组都单独运算所以可以大规模并发，但是数据组之间也缺乏关联。我大概看了下原理，和我们要关注的 Transformer 关系不大，先略过了。

大预言模型得基石：Transformer 入坑笔记（二） - 基本原理和 Word Embeddings

Wed, 24 Jun 2026 16:45:45 +0000

背景

继续我们的 Attention Is All You Need 学习之旅。

我不是这个领域的，只是感兴趣想补一下基础，所以这一篇先只看最通用的原理：神经网络训练的大概流程、Embedding 是什么，以及 Word2Vec 里两种常见优化思路。

大预言模型得基石：Transformer 入坑笔记（一） - 大模型训练链路

Thu, 30 Apr 2026 20:45:45 +0000

前言

这几年 AI 的热度一直很高。日常问答、写代码、整理文档、做工具，它已经开始进入不少人的日常工程流。我最近也开始认真补这块东西，主要是想搞清楚：这些模型到底是怎么一步步训练出来的，以及它有没有机会更深入地帮我们优化游戏研发里的工作流。