举例说明chatgpt预训练模型中Tokenization的原理

2023-07-06 20:07:16 来源：技术联盟

【资料图】

ChatGPT 是一个基于 GPT（生成式预训练 Transformer）的模型，它通过处理大量文本数据来生成有意义的文本。Tokenization 是 ChatGPT 文本处理的关键步骤，它将输入的文本拆分成更小的单元（tokens），以便模型能够更好地理解和处理。

在 ChatGPT 中，Tokenization 主要遵循以下原理：

1. 分词：首先，将文本拆分为单词、标点符号等基本单元。例如，文本 \"ChatGPT is great!\" 将被拆分为 [\"ChatGPT\", \"is\", \"great\", \"!\"]。

2. 子词划分：然后，将拆分出的单词进一步划分为子词（subwords）。这种划分有助于捕捉词汇之间的共享结构，以及处理罕见词汇和词干。例如，\"ChatGPT\" 可能被拆分为 [\"Chat\", \"G\", \"PT\"]。这个步骤通常使用诸如 Byte Pair Encoding（BPE）或 WordPiece 等算法来实现。

3. 转换为ID：将每个子词映射到一个唯一的 ID（整数），这些 ID 对应于模型词汇表中的索引。例如，[\"Chat\", \"G\", \"PT\"] 可能被转换为 [635, 101, 678]。

4. 添加特殊 token：为了帮助模型理解输入的结构，通常会在序列的开始和结束添加特殊 token，例如\"[CLS]\"（分类）和\"[SEP]\"（分隔）。

5. 创建注意力掩码：创建一个注意力掩码矩阵，以便模型知道哪些 tokens 是输入的一部分，哪些则是填充。这在批处理多个序列时尤为重要。

6. 填充序列：将序列填充到固定长度，以便模型可以处理固定大小的输入矩阵。

经过这些步骤，输入文本就被转换为了模型可以处理的形式。在生成输出时，ChatGPT 会沿着相反的顺序进行解码，将 token IDs 转换回子词，然后将子词拼接回完整的文本。

标签：

沙场并肩砺兵共赴和平使命

中国参演官兵驾乘装甲输送车向目标地域行进。巴基斯坦参演官兵开展战术演练。蒙古国参演官兵进行警戒巡...

2021-09-18
南部战区陆军某旅开展巡回心理服务

“请大家闭上眼睛，把注意力从头顶‘漫游’到眉头……”8月底，南部战区陆军某旅驻岛某海防连课室内，官...

2021-09-18
《军营理论热点怎么看·2021》走进基层

9月15日上午，解放军新闻传播中心出版社举行赠书活动，向陆军第83集团军某旅“红一连”官兵赠送由中央军...

2021-09-18
王毅会见印度外长苏杰生

新华社杜尚别9月17日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别应约会见印度外长苏杰生。...

2021-09-18
人民网评：国务院第八次大督查为何屡上“热搜”？

办房本要找“黄牛”、应急管理部门涉嫌搞垄断、行业协会以办理车辆登记上牌备案之名借机收费敛财、中小...

2021-09-18
王毅出席中俄巴伊四国阿富汗问题非正式会议

新华社杜尚别9月16日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别同俄罗斯外长拉夫罗夫、巴...

2021-09-18
民政部：“十四五”期间将健全基本养老服务体系

人民网北京9月17日电（记者温璐、宋子节）今日，国务院新闻办就扎实做好民政在全面小康中的兜底夯基工...

2021-09-18
第十三届中韩媒体高层对话举办

9月15日，由中国国务院新闻办公室和韩国文化体育观光部指导，中国外文局和21世纪韩中交流协会共同主办的...

2021-09-18
中国美国商会总裁毕艾伦：大多数会员公司在全球战略中会优先考虑中国市场

人民网杭州9月17日电（记者孙博洋）9月16日至17日，中国质量（杭州）大会在浙江杭州举行。在16日举行...

2021-09-18
注意！国庆假期首日火车票今日开售

人民网北京9月17日电（记者王连香）据中国国家铁路集团消息，今日，十一黄金周火车票正式开售，车票预...

2021-09-18
卢铁忠：核能助力“双碳”目标清洁赋能美好未来

9月16日，清华五道口“碳中和经济”论坛召开。中国核电党委书记、董事长卢铁忠作为核能企业代表受邀视频...

2021-09-18
以学术出版助力国际传播

会议现场。人民网讯 9月14日，在第28届北京国际书展开幕之际，由中国社会科学出版社主办的“新形势下学...

2021-09-18

举例说明chatgpt预训练模型中Tokenization的原理

为您推荐

新闻快讯