当前位置: 智能网 > 人工智能 > NLP ——从0开始快速上手百度 ERNIE

NLP ——从0开始快速上手百度 ERNIE

发布日期：2020-12-17 12:02:29 浏览次数：209

三、具体实现过程

开始写代码！

ChnSentiCorp任务运行的shell脚本是 ERNIE／ernie／run＿classifier．py，该文件定义了分类任务Fine－tuning 的详细过程，下面我们将通过如下几个步骤进行详细剖析：

环境准备。导入相关的依赖，解析命令行参数；

实例化ERNIE 模型，优化器以及Tokenizer，并设置超参数

定义辅助函数

运行训练循环

1．环境准备

import相关的依赖，解析命令行参数。

import syssys．path．append（＇．／ERNIE＇）import numpy as npfrom sklearn．metrics import f1＿scoreimport paddle as Pimport paddle．fluid as Fimport paddle．fluid．layers as Limport paddle．fluid．dygraph as D
from ernie．tokenizing＿ernie import ErnieTokenizerfrom ernie．modeling＿ernie import ErnieModelForSequenceClassification2．实例化ERNIE 模型，优化器以及Tokenizer，并设置超参数

设置好所有的超参数，对于ERNIE任务学习率推荐取 1e－5／2e－5／5e－5，根据显存大小调节BATCH大小，最大句子长度不超过512．

BATCH＝32MAX＿SEQLEN＝300LR＝5e－5EPOCH＝10
D．guard（）．＿＿enter＿＿（）＃为了让Paddle进入动态图模式，需要添加这一行在最前面
ernie ＝ ErnieModelForSequenceClassification．from＿pretrained（＇ernie－1．0＇， num＿labels＝3）optimizer ＝ F．optimizer．Adam（LR， parameter＿list＝ernie．parameters（））tokenizer ＝ ErnieTokenizer．from＿pretrained（＇ernie－1．0＇）3．定义辅助函数

（1）定义函数 make＿data，将文本数据读入内存并转换为numpy List存储。

def make＿data（path）： data ＝［］ for i， l in enumerate（open（path））： if i ＝＝ 0： continue l ＝ l．strip（）．split（＇＇） text， label ＝ l［0］， int（l［1］） text＿id，＿＝ tokenizer．encode（text）＃ ErnieTokenizer 会自动添加ERNIE所需要的特殊token，如［CLS］，［SEP］ text＿id ＝ text＿id［：MAX＿SEQLEN］ text＿id ＝ np．pad（text＿id，［0， MAX＿SEQLEN－len（text＿id）］， mode＝＇constant＇）＃对所有句子都补长至300，这样会比较费显存； label＿id ＝ np．array（label＋1） data．append（（text＿id， label＿id）） return data
train＿data ＝ make＿data（＇．／chnsenticorp／train／part．0＇）test＿data ＝ make＿data（＇．／chnsenticorp／dev／part．0＇）

（2）定义函数get＿batch＿data，用于获取BATCH条样本并按照批处理维度stack到一起。

def get＿batch＿data（data， i）： d ＝ data［i＊BATCH：（i ＋ 1）＊ BATCH］ feature， label ＝ zip（＊d） feature ＝ np．stack（feature）＃将BATCH行样本整合在一个numpy．array中 label ＝ np．stack（list（label）） feature ＝ D．to＿variable（feature）＃使用to＿variable将numpy．array转换为paddle tensor label ＝ D．to＿variable（label） return feature， label4．运行训练循环

队训练数据重复EPOCH遍训练循环；每次循环开头都会重新shuffle数据。在训练过程中每间隔100步在验证数据集上进行测试并汇报结果（acc）。

for i in range（EPOCH）： np．random．shuffle（train＿data）＃每个epoch都shuffle数据以获得最佳训练效果；＃train for j in range（len（train＿data）／／ BATCH）： feature， label ＝ get＿batch＿data（train＿data， j） loss，＿＝ ernie（feature， labels＝label）＃ ernie模型的返回值包含（loss， logits）；其中logits目前暂时不需要使用 loss．backward（） optimizer．minimize（loss） ernie．clear＿gradients（） if j ％ 10 ＝＝ 0： print（＇train ％d： loss ％．5f＇％（j， loss．numpy（）））＃ evaluate if j ％ 100 ＝＝ 0： all＿pred， all＿label ＝［］，［］ with D．base．＿switch＿tracer＿mode＿guard＿（is＿train＝False）：＃在这个with域内ernie不会进行梯度计算； ernie．eval（）＃控制模型进入eval模式，这将会关闭所有的dropout； for j in range（len（test＿data）／／ BATCH）： feature， label ＝ get＿batch＿data（test＿data， j） loss， logits ＝ ernie（feature， labels＝label） all＿pred．extend（L．argmax（logits，－1）．numpy（）） all＿label．extend（label．numpy（）） ernie．train（） f1 ＝ f1＿score（all＿label， all＿pred， average＝＇macro＇） acc ＝（np．array（all＿label）＝＝ np．array（all＿pred））．astype（np．float32）．mean（） print（＇acc ％．5f＇％ acc）

训练过程中单次迭代输出的日志如下所示：

train 0： loss 0．05833acc 0．91723train 10： loss 0．03602train 20： loss 0．00047train 30： loss 0．02403train 40： loss 0．01642train 50： loss 0．12958train 60： loss 0．04629train 70： loss 0．00942train 80： loss 0．00068train 90： loss 0．05485train 100： loss 0．01527acc 0．92821train 110： loss 0．00927train 120： loss 0．07236train 130： loss 0．01391train 140： loss 0．01612

包含了当前 batch 的训练得到的Loss（ave loss）和每个Epochde 精度（acc）信息。训练完成后用户可以参考快速运行中的方法使用模型体验推理功能。

其它特性

ERNIE 还提供了混合精度训练、模型蒸馏等高级功能，可以在 README 中获得这些功能的使用方法。

图片标题

<上一页 3

关键词： 数据模型推理

下一篇：华为、奇瑞签订共同开发智能汽车
上一篇：只需6步，教你如何定期保养维护PLC控制柜

[ 智能网搜索 ] [ 打印本文 ] [ 违规举报 ]

• 实测特斯拉完全自动驾驶：遇见修路就变傻不干	• “中国首富”钟睒睒不光靠卖农夫山泉，还有800
• 借WiFi 6和iMesh轻松组网，畅享无死角高速联网	• Intel和AMD就5nm工艺展开争夺，台积电坐享厚利
• 商业健康险创新体系升级，如何实现1+1>2呢？	• 药明康德：从700平米到超医药外包业巨头
• 刘强东卖药再造一个京东？谁的盛宴，谁的悲哀？	• 医学科普——如何防止多发性骨髓瘤复发？做好这
• 论文：饮食诱导的肥胖如何改变TME的代谢	• 调鼎科技宣布完成数千万元的A轮融资，由凯风创
• 互联网时代的体检，不该成为拥挤、潦草的代名词	• 新材料储存数月能量，供应能量之需
• 阿里巴巴回应反垄断被罚：认罚，并改正	• 三家PE联手： 2亿美元投了杰士邦母公司

ITECH直流电源在人工	基于朴素贝叶斯自动过
2020年是人工智能相关	我国人工智能市场规模