<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>MoE on I'm OWenT</title><link>//owent.net/tags/moe.html</link><description>Recent content in MoE on I'm OWenT</description><generator>Hugo</generator><language>zh-cn</language><copyright>&lt;a rel="license" href="https://github.com/owent/blog-hugo/blob/master/LICENSE.md"&gt;&lt;img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/80x15.png" /&gt;&lt;/a&gt;</copyright><lastBuildDate>Sun, 28 Jun 2026 01:25:45 +0000</lastBuildDate><atom:link href="//owent.net/tags/moe/index.xml" rel="self" type="application/rss+xml"/><item><title>大语言模型的基石：Transformer 入坑笔记（三） - 注意力机制和 Transformer</title><link>//owent.net/2026/2610.html</link><pubDate>Sun, 28 Jun 2026 01:25:45 +0000</pubDate><guid>//owent.net/2026/2610.html</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;接上文 &lt;a href="https://owent.net/2026/2609.html"&gt;《大语言模型的基石：Transformer 入坑笔记（二） - 基本原理和 Word Embeddings》&lt;/a&gt;，继续我们的 &lt;a href="https://arxiv.org/pdf/1706.03762"&gt;Attention Is All You Need&lt;/a&gt;/&lt;a href="https://github.com/huggingface/transformers"&gt;Transformer&lt;/a&gt; 学习之旅。&lt;/p&gt;
&lt;p&gt;首先简单了解下传统的方案。&lt;/p&gt;
&lt;h2 id="卷积神经网络cnn"&gt;卷积神经网络（CNN）&lt;/h2&gt;
&lt;p&gt;卷积神经网络（CNN）似乎更适合静态数据（比如图片处理、提取特征等）。
所谓静态数据，是指每个数据组都单独和目标矩阵运算，通过卷积层、池化层、全连接层等输出。
每个数据组都单独运算所以可以大规模并发，但是数据组之间也缺乏关联。
我大概看了下原理，和我们要关注的 &lt;a href="https://github.com/huggingface/transformers"&gt;Transformer&lt;/a&gt; 关系不大，先略过了。&lt;/p&gt;</description></item><item><title>大预言模型得基石：Transformer 入坑笔记（二） - 基本原理和 Word Embeddings</title><link>//owent.net/2026/2609.html</link><pubDate>Wed, 24 Jun 2026 16:45:45 +0000</pubDate><guid>//owent.net/2026/2609.html</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;继续我们的 &lt;a href="https://arxiv.org/pdf/1706.03762"&gt;Attention Is All You Need&lt;/a&gt; 学习之旅。&lt;/p&gt;
&lt;p&gt;我不是这个领域的，只是感兴趣想补一下基础，所以这一篇先只看最通用的原理：神经网络训练的大概流程、Embedding 是什么，以及 Word2Vec 里两种常见优化思路。&lt;/p&gt;</description></item><item><title>大预言模型得基石：Transformer 入坑笔记（一） - 大模型训练链路</title><link>//owent.net/2026/2608.html</link><pubDate>Thu, 30 Apr 2026 20:45:45 +0000</pubDate><guid>//owent.net/2026/2608.html</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;这几年 AI 的热度一直很高。日常问答、写代码、整理文档、做工具，它已经开始进入不少人的日常工程流。我最近也开始认真补这块东西，主要是想搞清楚：这些模型到底是怎么一步步训练出来的，以及它有没有机会更深入地帮我们优化游戏研发里的工作流。&lt;/p&gt;</description></item></channel></rss>