融合递增词汇选择的深度学习中文输入法
任华健,郝秀兰,徐稳静
融合递增词汇选择的深度学习中文输入法
任华健,郝秀兰,徐稳静
(湖州师范学院浙江省现代农业资源智慧管理与应用研究重点实验室,浙江 湖州 313000)
输入法的核心任务是将用户输入的按键序列转化为汉字序列。应用深度学习算法的输入法在学习长距离依赖和解决数据稀疏问题方面存在优势,然而现有方法仍存在两方面问题,一是采用的拼音切分与转换分离的结构导致了误差传播,二是模型复杂难以满足输入法对实时性的需求。针对上述不足提出了一种融合了递增词汇选择算法的深度学习的输入法模型并对比了多种softmax优化方法。在人民日报数据和中文维基百科数据上进行的实验表明,该模型的转换准确率相较当前最高性能提升了15%,融合递增词汇选择算法使模型在不损失转换精度的同时速度提升了130倍。
中文输入法;
长短期记忆;
词汇选择
英语等拉丁语系用户可以通过计算机键盘直接输入想要的词句,然而由于汉字总量十分庞大,直接输入并不现实,中文用户需要借助输入法进行汉字输入。输入法的核心任务是将用户输入的按键序列转化为相应的汉字序列。理想情况下,输入法的转换结果应与用户期望输入的汉字序列相同。输入法的转换准确率和转换速度直接影响着输入效率和用户体验。
输入法内核的转换任务与语音识别、机器翻译相似,可以看作一项序列解码任务。传统的统计机器学习算法采用元语法语言模型[1]计算词网格中最优路径的概率。该模型需要通过增大值学习语料中的长距离特征,但过大的值会带来数据稀疏问题,在实践中普遍采用三元语法语言模型。相较于传统模型,基于深度学习算法的语言模型具有能够在学习长距离特征的同时不易受数据稀疏问题制约的特点,因此获得了广泛研究。在机器翻译[2]、语音识别[3]、情感分析[4-5]等自然语言处理任务中,基于深度学习算法的模型取得了更高的性能。近几年来张量处理单元[6](tensor processing unit,TPU)等硬件方面的研究进展为深度学习模型的应用提供了更加广阔的前景。
然而基于深度学习的模型仍然难以直接应用在输入法的转换任务中。与语音识别和机器翻译多由云服务器提供不同,输入法需要运行在多样化的用户设备上并提供实时交互服务。即使有很多输入法厂商提供了云候选,但是其转换结果因为时延较高,往往只能作为次后选。一个能够适用于输入法转换任务的深度学习模型需要满足以下两点要求:能够为每次用户的按键输入提供低时延的转换结果;
能够在转换完成后允许用户对候选结果进行编辑。
首先,输入法转换任务的输入序列是逐个获得的,并且需要在每一次收到按键信息后立即返回词网格中的最优路径。现存的优化手段[7-8]普遍着眼于提升对序列进行批处理时的速度。文献[9]的方法融合了前缀树,但是无法保证在最坏情况下运算时间仍然能够满足实时应用的需求。其次,输入法在给出转换结果后,允许用户以手动选择候选词的方式对词网格进行编辑。这一特点限制了多种端到端模型[10-11]的使用,因为它们都没有提供允许用户编辑部分转换结果的方法。
为满足输入法转换任务的要求,本文提出了一个新的基于深度学习算法的输入法模型。在该模型中,用户输入首先被切分成拼音音节,通过维特比解码器构造出相应的词网格。然后通过融合递增词汇选择的长短期记忆[12](long short-term memory,LSTM)语言模型计算最优路径的概率。该语言模型在解码过程的第步构建一个输入法总词汇表的子集V。由于V中词汇的数量通常在总词汇量的1%以下,仅在V上执行softmax运算,模型消耗的时间相较基线模型有了大幅降低。
早期相关研究常采用基于统计语言模型[13]或统计机器翻译[14]的方法。近年来出现了采用深度学习算法的研究。文献[15]将输入法转换任务看作机器翻译,使用了一个融合注意力机制的编码器-解码器模型完成音字转换任务,并使用信息检索技术对模型的联想输入功能进行了增强。文献[16]在基于LSTM的编码器-解码器模型基础上,通过在线词汇更新算法扩充输入法词汇表,提高了转换准确率。文献[17]通过在输入法中增加输入上下文的编码模块,提高了模型在简拼模式下的表现。文献[18]使用一个字符级中文预训练语言模型作为输入法核心完成音字转换,并获得了当前最高性能(state-of-the-art,SOTA),同时研究了基于预训练语言模型的输入法在简拼场景下的表现。现有模型普遍比较复杂,需要在GPU的支持下才能运行,文献[15]则是将输入法转换任务和联想功能等功能全部架设在云服务器上。本文工作的重点是在计算资源有限的用户设备上实现基于神经网络的实时输入法。
具有大量词汇的softmax层是神经网络语言模型中计算量最大的操作,目前针对softmax瓶颈的解决方法主要有两种。其一是对softmax运算进行近似。文献[19]提出的差异化softmax(differentiated softmax)及文献[20]提出的自适应softmax(adaptive softmax)将语言模型中频率较低的长尾词汇按词频进行分割,并减少其嵌入向量维度,从而降低softmax运算的计算量。对于预测任务,其前个候选的重要性较高,文献[21]提出的奇异值分解softmax(singular value decomposition softmax,SVD-softmax)对权重矩阵进行奇异值分解,并使用得到的低秩矩阵进行softmax运算。在解码过程中,如果目标词汇有一个确定的范围,则可以使用结构化输出层[22]避免计算所有词汇的概率分布。文献[23]提出了一种快速词图解码方法,该方法可以在对数时间复杂度内找到神经网络语言模型前个最有可能的预测。
另一种解决softmax瓶颈的方法是对推理过程的词汇进行操作,与机器翻译任务中的方法相似。即先针对待翻译的句子构建一个可能使用的总词汇表的子集,然后在这一子集上进行softmax运算[24-25]。文献[26]提出了一种针对日语输入法的词汇选择方法,降低了模型推理时间。基于单字的模型,如单字循环神经网络[27-28](recurrent neural network,RNN)语言模型相较于基于词语的模型可以大幅减少模型中的词汇量,然而汉字的数量仍然不是一个小数目,并且这种方法无法利用词语的信息,所以会导致模型准确率大幅下降。
受上述研究启发,本文提出一种融合递增词汇选择方法的深度学习输入法模型,该模型使用词网格进行解码,可以在用户输入过程中递增地构建所需词汇表,提升了转换准确率并降低了转换任务中序列解码所需的时间。
2.1 深度学习输入法模型
本文提出的长短期记忆语言模型输入法模型总体架构如图1所示。考虑模型的实时性目标,本文采用一个LSTM语言模型计算词网格解码器中不同句子的路径概率。由于序列到序列[10]等模型不能动态递增地生成转换结果,本文没有采用这类模型。
在音字转换任务中,用户按键输入首先被切分为拼音音节序列。对第步输入产生的音节序列(1,···,x),用式(1)查找字典中满足该序列所有后缀的词语组成词网格。
其中,fetch(·)函数从输入法总词汇表中查找并返回所有符合部分序列(x,···,x)的词汇。例如,对于音节序列“zai hu zhou”,产生的子词汇集D包含所有匹配“zai hu zhou”“hu zhou”和“zhou”的结果。
图1 长短期记忆语言模型输入法模型总体架构
对于词汇表子集中的任意词语w∈D,为了构造一个以w结尾的候选π,之前步骤生成的部分候选π被用作计算(w|π)的上下文,其中,是w的长度,只有字符数量匹配的部分候选才会被连接成一个完整的候选。最后,使用一个束宽度为的维特比解码器对候选进行排序。
在维特比解码器中,使用LSTM语言模型计算(w|π)。对于每一个输入序列,音字转换任务需要进行步LSTM运算,其中是词汇表中词汇的数量,是音节序列的长度,输入法主要的计算量集中于LSTM单元和softmax的矩阵运算。假设一个输入法的词汇总量为10万,使用一个嵌入向量维度和隐藏维度均为512的LSTM语言模型,以矩阵中的乘法为基准操作估计。LSTM单元中有4处矩阵乘法,每处为两个512维向量与512维权重方阵相乘,为操作数量的高阶项,总计512×512×2×4次乘法操作,数量约为200万。在softmax层,需要将512维向量投影成10万维以计算每个词汇的概率,为操作数量的高阶项,总计512×100 000次乘法操作,数量约为5 000万,占比为51 200 000/53 200 000,为总量的96%以上。对于应用于中文输入法的拥有大量词汇的语言模型而言,其时间效率瓶颈在于softmax操作中的大量矩阵运算。
2.2 递增词汇选择模型
为了降低解码过程中softmax的运算量,本文使用递增词汇选择算法改进了LSTM基线模型,如算法1所示。
算法1 递增词汇选择
初始化:束宽度,候选字典[],采样词汇V,当前时间步
其中,是存储每一步最优候选及其LSTM隐藏状态的字典。定义[·]为某一特定时间步用于获取当前最优候选的查找操作。的初始内容为上一次音字转换任务结果及其LSTM隐藏状态,第一次转换任务时为空。
在第步,接收到一个新的拼音音节x时,算法构造一个相应的词汇表V,如式(2)所示,V中覆盖了所有到第步为止可能出现的词语。
对候选(π,w)进行排序需要计算概率(w|π),而该概率已经在[]计算过并存储在字典中了。然而,因为V的构建是递增的,所以在之前步骤计算的概率分布中可能并没有包含w。所以,为了计算[],需要修复之前概率分布计算中缺失的词汇。可以通过式(3)修正第步的概率。
其中,是输出层的权重矩阵,是对应候选π的LSTM隐藏状态,是词汇集V和V的差集。在当前第步向词网格中新增中的词汇后,导致与之前步骤进行softmax运算时的分母不一致,所以该步在之前softmax结果的分母中加入新增词汇对应的输出单元的值,即分母中的第二项,可以保持各步涉及词汇进行softmax概率计算时的分母相同。因为词网格解码器中的每一条路径都有不同的缺失词汇,所以先取这些词汇的并集fix,再重新计算所有路径的概率。因为在一次输入前几步的词汇集比较小,所以引入从整体词汇表中采样出的一个特定子集V。后续实验中对比了两种不同采样方式的效果:其一是顶端采样,即从总词汇表中选出词频最高的若干词作为V;
其二是均匀采样,即从总词汇表中随机选出若干词汇作为V。当仅使用V时相当于去掉了softmax分母中的部分项,此时会导致概率偏大,将采样出的词汇集与之合并,同时使用V和V,使词语的概率更加接近原始概率。计算结束后,[]中最优的个候选将会作为输入法音字转换任务的结果返回给用户。
3.1 数据集和评价标准
为了验证模型的效果,本文分别在两个不同的中文数据集上进行了实验。
(1)人民日报实体数据集。该数据集语料提取自1992—1998年的人民日报新闻内容,是中文输入法研究中常用的数据集[14]。其中,训练集包含了504万个最大输入单元,测试集包含2 000个最大输入单元。最大输入单元的定义为句子中最长连续汉字序列[15]。
(2)中文维基百科数据集。由于人民日报数据集语料内容较为陈旧,数据量也相对较小,本文选择在中文维基百科数据集上完成模型推理时间的实验。该数据集语料为截至2022年1月1日维基百科所有中文词条内容。原始语料为9.58 GB,预处理时先将句子切分成最大输入单元后再进行分词和标注拼音形成汉字-拼音平行语料。数据按照7:2:1的比例划分为训练集、验证集和测试集,其中训练集包含6 660万个最大输入单元,验证集包含1 902万个最大输入单元,测试集包含951万个最大输入单元。
本文使用了输入法研究中[15-18]普遍采用的“TopAccuracy”作为评价指标,这一指标表示在输入法提供的前个候选中用户期待输入的汉字序列的命中率,其计算式如下。
其中,exist(·)为判断前个候选中是否存在期待输入汉字序列的函数,当前个候选中存在期待的候选时返回值为1,否则为0;
为测试集数量。
3.2 实验设置
实验中使用TensorFlow实现模型,训练使用的GPU型号为NVIDIA Tesla V-100。为防止模型过拟合,引入了丢弃机制,参数值为0.9。模型使用Adam优化器,学习率固定为0.001。对于所有实验,这些参数都是相同的。
在人民日报数据集上进行实验时,选择频率最高的前5万词作为输入法词汇表,与文献[16]中的对比模型保持一致,这些词汇覆盖了语料内容的99%。词汇表中的词汇按照频率排列,高频词在前。由于词汇量小,训练时批处理大小设置为2 048。
在中文维基百科数据集上进行实验时,先使用jieba分词工具对语料进行分词和标注拼音。参考常见的开源拼音输入法的词汇数量,sunpinyin约为8.4万、libpinyin约为11.1万、rime约为9.9万。同时,自归一化模型在不同词汇量下的表现曲线如图2所示,更大的词汇量可以带来更高的准确率,但是其边际收益是递减的。
图2 自归一化模型在不同词汇量下的表现曲线
实验中依照上述经验值,选择频率最高的前10万词作为输入法词汇表,这些词汇覆盖了语料内容的96%,词汇数量作为受控变量在不同各实验中保持一致。文献[18]使用分类语料对按照领域信息划分词汇表的方法进行了研究,本文计划将这一课题作为未来的研究方向之一。词汇表同样按照词频降序排列。训练批处理大小为1 024。由于划分了验证集,所以在训练中使用了早停策略防止过拟合,当验证集上的语言模型困惑度连续两轮不再下降时将提前停止训练。困惑度计算式如下。
其中,PP是困惑度,是语料,w是其中第个词语,是语料中词语总数。困惑度能够反映语言模型对数据的拟合能力,一般困惑度低的模型能够在推理任务中获得较高的准确率。训练模型时使用困惑度的原因在于困惑度是可微的,而准确率是不可微的。在对比模型表现时使用准确率这一指标可以使结果更加直观。
在GPU上完成训练后,将模型参数导出至文件,供词网格解码器在解码过程中使用。输入法的解码实验在Intel(R) Xeon(R) E5-2650 v3上完成,模型使用numpy实现,其结构与TensorFlow模型相同。
3.3 转换准确率
输入法转换准确率对比结果见表1,实验将本文模型与如下基线模型进行了对比。
(1)三元语法语言模型输入法。该模型为开源输入法中广泛使用的语言模型,使用开源工具包斯坦福研究院语言建模工具包[1](Stanford research institute language modeling toolkit,SRILM)进行训练,平滑方法使用改良的Kneser-Ney算法[29-30]。为了获得更高的转换准确率,没有设置截止频率或对模型进行剪枝。
(2)谷歌拼音输入法。谷歌拼音输入法是一个提供了调试接口的商业输入法。
(3)在线词汇更新音字转换(online updated vocabulary pinyin to character,Online P2C)。该模型为文献[16]在2019年提出的方法。模型使用一个带有注意力机制的编码器―解码器结构完成转换任务,并使用在线词汇更新算法对其进行了增强。
(4)生成式预训练音字转换(generative pre-training pinyin to character,GPT P2C)。该模型为文献[18]在2022年提出的方法。模型使用一个字符级GPT输入800 GB语料在32个NVIDIA Tesla V-100上训练完成,并且使用拼音嵌入对模型进行了增强。
表1 输入法转换准确率对比结果
本文LSTM模型词向量嵌入维度和隐藏维度均为512,并使用文献[31]中的方法对输入和输出的词向量进行了绑定,这一方法可以节约存储空间且几乎不造成精度损失。
由实验结果可知,本文模型在Top 1 Accuracy上相比GPT P2C提升了15.4%,取得了新的最高性能。这表明了本文方法在提升转换准确率方面的有效性。
3.4 模型运行时间
本节使用上一节LSTM模型作为基线,对比了多种加速方法的效果。本文仅计算了参与语言模型概率运算的组件的执行速度,其中包含LSTM层和softmax层的运算时间。实验中,在LSTM单元和softmax单元前后分别插入计时点记录单次运算时间,所有推理任务结束后求平均值作为单次LSTM和softmax运算的运行时间,单步时间为两者相加之和。构造词网格的组件等则没有被包含进来,一方面因为这些组件对于不同模型是共用的,另一方面它们的具体实现对运行时间影响很大,不具有参考价值。另外,文献[16]和文献[18]中的两个深度学习模型由于复杂度高,需要GPU支持运算,强行转移到CPU上进行推理任务带来的时间消耗是实际应用场景下无法承受的,因此没有参与对比。
单步转换时延对于需要满足用户实时输入需求的输入法而言是十分重要的,表2对比了每一步收到按键信息之后的平均解码时间。解码整个输入拼音序列的时间消耗与解码步数(拼音字母数量)成正比。模型运行时间对比见表2,同时单独提供了softmax的运算时间以供对比。
由表2可以看出,本文提出的融合递增词汇选择模型的softmax运算速度约是LSTM基线模型的130倍。输入法的整个词汇表中含有10万个词汇,而实验中词网格解码器使用到的词汇只有几百个,对上述实验词网格解码器中的词汇数量进行统计,仅有188个句子的词汇数量超过了总词汇量的1%,约占实验中所有句子的2%,其中最多的一句词网格包含了2 302词。递增词汇选择模型只需要3.2 ms处理一个新加入序列的按键信息。这样的解码速度可以在计算资源有限的用户终端设备上满足实时交互需求。
表2中还对比了递增词汇选择的各种采样方法。可以看出,对总词汇集进行采样可以缩小与基线模型之间的准确率差距。在实验中,顶部采样和均匀采样的词汇数量均设置为500词。
另外,还可以使用自归一化[32]作为softmax近似。原始softmax的对数概率计算式为:
表2 模型运行时间对比
其中,
其中,是词汇,是输出单元的值,是当前词汇序号。自归一化通过显式地令分母尽量接近1简化softmax运算。因此需要在训练过程的目标函数中加入额外的归一化项,如式(8)所示。
其中,是自归一化权重,实验中设置为0.1。在使用自归一化时,为了保证网络在初始时就是自归一的,输出层的初始偏置设置为ln(1)。在解码过程中,直接使用U()代替ln((x))。
差异化softmax和自适应softmax可以降低超过一半的softmax运算时间,然而由于输入法词汇量巨大,这些方法对速度提升有限。
对于单字模型,实验使用了一个嵌入向量维度和隐藏状态向量维度均为512的LSTM语言模型。该模型将输入法词汇量从10万降低到了5 000,然而这一数量仍然会带来不小的开销。在转换任务中,单字模型的准确率损失较大,需要采用更大的束宽度提高转换准确率,实验中大的束宽度设置为50。
递增词汇选择算法中用于修正词汇表的时间由于依赖具体实现没有给出,而且在实际应用场景中,用户并不会一次性输入一个完整的句子而是分成多个片段输入,这些时间与softmax运算消耗的时间相比是很小的。
本文提出了一种融合递增词汇选择的深度学习输入法模型。相较于传统元语法模型和其他深度学习输入法,该模型能够提供更高的转换准确率;
相较于未作改进的基线模型,该模型能够在不损失转换准确率的同时缩短softmax运算所需的时间。本文在真实中文数据集上进行了实验,实验结果表明,该模型能够满足输入法的实时交互需求。后续笔者将在其他数据集和其他中文输入方法上对本文模型做进一步测试和增强。
[1] STOLCKE A. SRILM - an extensible language modeling toolkit[C]//Proceedings of 7th International Conference on Spoken Language Processing (ICSLP 2002). ISCA: ISCA, 2002: 901-904.
[2] XIAO Y L, LIU L M, HUANG G P, et al. BiTIIMT: a bilingual text-infilling method for interactive machine translation[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2022: 1958-1969.
[3] PARASKEVOPOULOS G, PARTHASARATHY S, KHARE A, et al. Multimodal and multiresolution speech recognition with transformers[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020: 2381-2387.
[4] DING Z X, XIA R, YU J F. End-to-end emotion-cause pair extraction based on sliding window multi-label learning[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics, 2020: 3574-3583.
[5] DING Z X, XIA R, YU J F. ECPE-2D: emotion-cause pair extraction based on joint two-dimensional representation, interaction and prediction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020: 3161-3170.
[6] PANDEY P, BASU P, CHAKRABORTY K, et al. GreenTPU: improving timing error resilience of a near-threshold tensor processing unit[C]//Proceedings of DAC "19: Proceedings of the 56th Annual Design Automation Conference. [S.l:s.n.], 2019. 2019: 1-6.
[7] LIU X Y, CHEN X, WANG Y Q, et al. Two efficient lattice rescoring methods using recurrent neural network language models[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(8): 1438-1449.
[8] LEE K, PARK C, KIM N, et al. Accelerating recurrent neural network language model based online speech recognition system[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5904-5908.
[9] CHEN X, LIU X Y, WANG Y Q, et al. Efficient training and evaluation of recurrent neural network language models for automatic speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2146-2157.
[10] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder–decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1724-1734.
[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 22(7): 139-147.
[12] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[13] CHEN Z, LEE K F. A new statistical approach to Chinese Pinyin input[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics - ACL "00. Morristown, NJ, USA: Association for Computational Linguistics, 2000: 241-247.
[14] Yang S, Zhao H, Lu B. A machine translation approach for Chinese whole-sentence Pinyin-to-character conversion[C]//Proceed ings of the 26th Pacific Asia Conference on Language, Information, and Computation. [S.l.:s.n.], 2012: 333-342.
[15] HUANG Y F, LI Z C, ZHANG Z S, et al. Moon IME: neural-based Chinese pinyin aided input method with customizable association[C]//Proceedings of ACL 2018, System Demonstrations. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 140-145.
[16] ZHANG Z S, HUANG Y F, ZHAO H. Open vocabulary learning for neural Chinese pinyin IME[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019: 1584-1594.
[17] HUANG Y F, ZHAO H. Chinese pinyin aided IME, input what You have not keystroked yet[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 2923-2929.
[18] TAN M H, DAI Y, TANG D Y, et al. Exploring and adapting Chinese GPT to pinyin input method[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2022: 1899-1909.
[19] CHEN W L, GRANGIER D, AULI M. Strategies for training large vocabulary neural language models[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 1975-1985.
[20] Joulin A, Cissé M, Grangier D, et al. Efficient softmax approximation for GPUs[C]//International Conference on Machine Learning. [S.l.:s.n.], 2017: 1302-1310.
[21] Shim K, Lee M, Choi I, et al. SVD-softmax: Fast softmax approximation on large vocabulary neural networks[J]. Advances in Neural Information Processing Systems, 2017, 30: 5463-5473.
[22] SHI Y Z, ZHANG W Q, LIU J, et al. RNN language model with word clustering and class-based output layer[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2013, 2013: 22.
[23] Zhang M J, Wang W H, Liu X D, et al. Navigating with graph representations for fast and scalable decoding of neural language models[J]. Advances in Neural Information Processing Systems, 2018, 31: 6308-6319.
[24] MI H T, WANG Z G, ITTYCHERIAH A. Vocabulary manipulation for neural machine translation[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 124-129.
[25] JEAN S, CHO K, MEMISEVIC R, et al. On using very large target vocabulary for neural machine translation[C]//Proceed ings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 1-10.
[26] Yao J, Shu R, Li X, et al. Enabling real-time neural IME with incremental vocabulary selection[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.:s.n.], 2019: 1-8.
[27] MIKOLOV T, KARAFIÁT M, BURGET L, et al. Recurrent neural network based language model[C]//Proceedings of Interspeech 2010. ISCA: ISCA, 2010, 2(3): 1045-1048.
[28] ELMAN J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.
[29] KNESER R, NEY H. Improved backing-off for M-gram language modeling[C]//Proceedings of 1995 International Conference on Acoustics, Speech, and Signal Processing. Piscataway: IEEE Press, 1995: 181-184.
[30] James F. Modified kneser-ney smoothing of n-gram models[R]. Research Institute for Advanced Computer Science, 2000.
[31] PRESS O, WOLF L. Using the output embedding to improve language models[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. Stroudsburg, PA, USA: Association for Computational Linguistics, 2017: 157-163.
[32] DEVLIN J, ZBIB R, HUANG Z Q, et al. Fast and robust neural network joint models for statistical machine translation[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1370-1380.
Deep learning Chinese input method with incremental vocabulary selection
REN Huajian, HAO Xiulan, XU Wenjing
Zhejiang Province Key Laboratory of Smart Management and Application of Modern Agricultural Resources,Huzhou University, Huzhou 313000, China
The core task of an input method is to convert the keystroke sequences typed by users into Chinese character sequences. Input methods applying deep learning methods have advantages in learning long-range dependencies and solving data sparsity problems. However, the existing methods still have two shortcomings: the separation structure of pinyin slicing in conversion leads to error propagation, and the model is complicated to meet the demand for real-time performance of the input method. A deep-learning input method model incorporating incremental word selection methods was proposed to address these shortcomings. Various softmax optimization methods were compared. Experiments on People’s Daily data and Chinese Wikipedia data show that the model improves the conversion accuracy by 15% compared with the current state-of-the-art model, and the incremental vocabulary selection method makes the model 130 times faster without losing conversion accuracy.
Chinese input method, long short-term memory, vocabulary selection
TP391
A
10.11959/j.issn.1000–0801.2022294
2022–07–08;
2022–12–07
郝秀兰,hxl2221_cn@zjhu.edu.cn
浙江省现代农业资源智慧管理与应用研究重点实验室基金项目(No.2020E10017)
任华健(1994– ),男,湖州师范学院硕士生,主要研究方向为自然语言处理、中文输入法。
郝秀兰(1970– ),博士,女,湖州师范学院副教授、硕士生导师,主要研究方向为智能信息处理、数据与知识工程、自然语言理解等。
徐稳静(1998– ),女,湖州师范学院硕士生,主要研究方向为自然语言处理、虚假新闻检测。
The Foundation of Zhejiang Province Key Laboratory of Smart Management and Application of Modern Agricultural Resources (No.2020E10017)
猜你喜欢 词汇表输入法语料 基于归一化点向互信息的低资源平行语料过滤方法*通信技术(2021年12期)2022-01-25要命的输入法小雪花·初中高分作文(2021年3期)2021-08-27Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature reviewWorld Journal of Gastroenterology(2021年3期)2021-02-04濒危语言与汉语平行语料库动态构建技术研究计算机应用与软件(2018年9期)2018-09-26找回微软拼音输入法设置电脑爱好者(2018年7期)2018-04-23输入法顺序听我使唤电脑爱好者(2018年7期)2018-04-23——以“把”字句的句法语义标注及应用研究为例">对外汉语教学领域可比语料库的构建及应用研究——以“把”字句的句法语义标注及应用研究为例中文信息学报(2017年6期)2017-03-12百度被诉侵犯商标权和不正当竞争中国知识产权(2016年11期)2016-11-11国内外语用学实证研究比较:语料类型与收集方法外语教学理论与实践(2014年2期)2014-06-21词汇表双语时代(2009年3期)2009-09-24
- 范文大全
- 说说大全
- 学习资料
- 语录
- 生肖
- 解梦
- 十二星座
-
主题党日活动交流发言8篇
主题党日活动交流发言8篇主题党日活动交流发言篇13月13日,东城区党史学习教育动员大会召开。市委
【活动总结】 日期:2022-12-23
-
2022年4月主题党日活动记录范文15篇
2022年4月主题党日活动记录范文15篇2022年4月主题党日活动记录范文篇1一个崇尚阅读的民族,必然精神饱满、意气风发、活力四射。习近平总书记强调:“学习
【活动总结】 日期:2022-08-01
-
家乡赋|最美的家乡赋
家乡赋 孙传志 今安康市,白河双丰镇,吾之家乡也。三环沃土,山水环抱。其北依山,山系五岭,山
【调研报告】 日期:2020-04-01
-
少先队的光荣历史故事 队前教育-光辉历程
2017-2018学年队前教育1光辉历程一、劳动童子团1924——1927二、三十年代年的中国是一个
【法律文书】 日期:2020-06-23
-
【人教版1-6年级数学上册知识点精编】1-6年级数学人教版教材
人教版二年级数学上册知识点汇总第一单元长度单位一、米和厘米1、测量物体的长度时,要用统一的标准去测量
【调研报告】 日期:2020-11-08
-
党支部1-12月全年主题党日活动计划表
2022年党支部主题党日活动计划表序号活动时间活动方式活动内容12022年1月专题学习研讨集中观看2022年新年贺词,积极开展学习研讨交流。组织生活会组织党员认真对照党章...
【活动总结】 日期:2022-10-14
-
2022年2月份主题党日活动记录5篇
2022年2月份主题党日活动记录5篇2022年2月份主题党日活动记录篇1尊敬的党组织:在今年的开学初,本人积极参加教研室组织的教研活动,在学校教研员的指
【活动总结】 日期:2022-08-12
-
2023年平安校园建设方案13篇
平安校园建设方案“平安校园”创建工作,我们幼儿园全体教职员工一直把它当作头等大事来抓。领导高度重视,以“平安校园”创建活动为抓手,建立和规范校园安全工作机制
【规章制度】 日期:2023-11-02
-
医院最佳主题党日活动11篇
医院最佳主题党日活动11篇医院最佳主题党日活动篇1 医院最佳主题党日活动篇2为隆重纪念中国共产党成立100周年,进一步巩固党的群众路线教育实践活动成果,切实
【活动总结】 日期:2022-10-29
-
主题党日活动记录202210篇
主题党日活动记录202210篇主题党日活动记录2022篇12021年是中国共产党成立100周年,为广泛开展爱国主义宣传教育,铭记党的历史,讴歌党的光辉历程,
【活动总结】 日期:2022-08-02
-
正式的晚宴邀请函 公司晚宴邀请函
尊敬的先生 女士: 我公司谨定于xxxx年xx月xx日xx:xx在xxxx店隆重举行xx市xx届xxxx晚宴(宴会地址:xx区xx路xxxx) 敬请届时光临!xxxxxx集团股份有限公司xxxx有限公司敬邀xxxx年xx月xx日
【简历资料】 日期:2019-08-03
-
一年级新学期目标简短_一年级学生新学期打算
新学期到了,我是一年级下册的小学生了。 上课的时候,我要认真学习,不做小动作,认真听讲。我要认真学习,天天向上,努力学习,耳朵要听老师讲课,眼睛要瞪得大大的看老...
【简历资料】 日期:2019-10-26
-
[信访复查复核制度作用探讨]信访复查复核有用吗
作为我国特有的一项制度,信访制度的出现并长期存在不是偶然的,虽然一些法学专家认为信访制度具有“人治”
【职场指南】 日期:2020-02-16
-
[党员干部2019年主题教育个人问题检视清单及整改措施2篇] 党员干部
2019年主题教育问题检视清单及整改措施根据主题教育领导小组办公室《关于认真做好主题教育检视问题整改
【求职简历】 日期:2019-11-08
-
网络维护工作内容_(精华)国家开放大学电大专科《网络系统管理与维护》形考任务1答案
国家开放大学电大专科《网络系统管理与维护》形考任务1答案形考任务1理解上网行为管理软件的功能【实训目
【职场指南】 日期:2020-07-17
-
党委会与局长办公会的区别_局长办公会制度
为进一步加强xxx局工作的规范化、制度化建设,提高行政效能,规范议事程序,特制定本制度。一、会议形式1、局长办公会议由局长、副局长参加。由局长召集和主持。根据工作需要...
【求职简历】 日期:2019-07-30
-
学生会组织部部长竞选稿5篇
学生会组织部部长竞选稿以“三制”为统领推进农村党的建设中共**市委组织部近年来,**市认真落实中央、省和徐州市委的部署,积极适应发展要求,从加强领导体制、运
【求职简历】 日期:2023-11-06
-
如何凝心聚力谋发展【坚定信心谋发展凝心聚力促跨越】
当前,清河正处于在苏北实现赶超跨越基础上全面腾飞的战略机遇期,处于在全市率先实现全面小康基础上率先实
【简历资料】 日期:2020-03-17
-
《铁拳砸碎“黑警伞”》警示教育片观后感
影片深刻剖析了广西北海市公安局海西派出所原所长张枭杰蜕变堕落的轨迹。观看警示教育片后,做为一名党员教
【简历资料】 日期:2020-08-17
-
系领导班子行为准则_必须以什么为行为准则
为了更好地完成本系的各项工作,充分发挥系领导班子的模范带头作用,特制定本行为准则如下:一、要勤政为民,真抓实干,坚持科学态度和求实的精神,兢兢业业地作好本职工作。...
【求职简历】 日期:2019-08-30
-
2022小学教师个人述职报告(精选)(2022年)
下面是小编为大家整理的2022小学教师个人述职报告(精选)(2022年)文
【其他范文】 日期:2022-09-14
-
【办公室支部书记在2021年学习教育专题组织生活会个人对照材料范文五页】
办公室支部书记在2021年学习教育专题组织生活会个人对照材料 按照召开党史学习教育专题组织生活会的
【礼仪】 日期:2021-08-31
-
2023中国(广州)国际物流装备与技术展览会
猜你喜欢展览会广州装备这些精锐与装备驰援泸定环球时报(2022-09-07)2022-09-07港警
【其他范文】 日期:2023-03-23
-
最美应急人先进事迹材料4篇
最美应急人先进事迹材料4篇最美应急人先进事迹材料篇12020年的春节注定是不寻常的,新型冠状型病毒肺炎疫情的爆发使全国人民在这个本该阖家团圆、串亲访友的日子
【其他范文】 日期:2022-08-02
-
党风廉政和反腐败工作报告 [最新纪委书记党风廉政建设和反腐败工作报告]
最新纪委书记党风廉政建设和反腐败工作报告 这次会议的主要任务是:认真学习贯彻XX会议精神,总结20
【汇报体会】 日期:2021-01-30
-
建筑工地复I新型冠状病毒肺炎预防及应急预案4篇
建筑工地复I新型冠状病毒肺炎预防及应急预案4篇建筑工地复I新型冠状病毒肺炎预防及应急预案篇1一、
【其他范文】 日期:2022-12-25
-
发电机火灾事故现场处置方案6篇
发电机火灾事故现场处置方案6篇发电机火灾事故现场处置方案篇11)、锅炉事故地点:主、副井工业广场
【其他范文】 日期:2022-12-07
-
细旦丙纶长丝生命周期分析研究
江建平,许斯佳,邓佶,郭熙桃,柯伟斌,郭清海,邱志明*(1 广东蒙泰高新纤维股份有限公司,广东揭阳5
【其他范文】 日期:2023-02-25
-
2022八五普法教师研修总结(2022年)
以下是为大家整理的关于八五普法教师研修总结6篇,供大家参考选择。八五普法教师研修总结6篇第1篇:八五普法教师研修总结乡镇八五普法总结汇报我镇“八五普法”工作以党的十九大...
【其他范文】 日期:2022-08-24
-
公路工程桥梁桩基的施工技术研究
刘方金(岳西县交通建设工程质量监督站,安徽安庆246600)公路工程桥梁桩基施工技术有效应用的价值包
【其他范文】 日期:2023-01-09
-
军转座谈会交流发言4篇
军转座谈会交流发言4篇军转座谈会交流发言篇1大家好,我叫贺丽,2015届选调生,来自康定市委组织部,现在省委编办跟班学习。今天,非常荣幸向大家汇报我的学习收
【发言稿】 日期:2022-10-27
-
12岁生日小寿星发言4篇
12岁生日小寿星发言4篇12岁生日小寿星发言篇1各位来宾、各位朋友:大家好!今天,我们欢聚在这里,共同庆祝**十二周岁生日。首先,我代表**的父母以
【发言稿】 日期:2022-07-31
-
廉政大会总结发言稿7篇
廉政大会总结发言稿7篇廉政大会总结发言稿篇1各位领导,同志们:根据会议安排,我就党风廉政建设工作做表态发言,不妥之处,请批评指正。一、提高认识,切实
【发言稿】 日期:2022-10-30
-
破冰提能大讨论个人发言4篇
破冰提能大讨论个人发言4篇破冰提能大讨论个人发言篇1党史学习教育开展以来,我坚持读原著、学原文、悟原理。今天,根据会议安排,现在我就“学史明理”主题谈几点个
【发言稿】 日期:2022-10-09
-
纪委书记工作表态发言4篇
纪委书记工作表态发言4篇纪委书记工作表态发言篇1在镇党委政府正确领导下,在全村干部和群众的共同努力下,紧紧围绕建设社会主义新农村工作为重点,尽职尽责,与时俱
【发言稿】 日期:2022-09-30
-
我最敬佩的人开头_我敬佩的一个人作文20篇2020年
我敬佩的一个人作文20篇 我敬佩的一个人作文一): 我身边有很多值得我们敬佩的人,但我最敬佩的一
【发言稿】 日期:2020-11-10
-
党员教育培训总结交流发言12篇
党员教育培训总结交流发言12篇党员教育培训总结交流发言篇1根据市委组织部《关于开展我市〈20XX
【发言稿】 日期:2022-12-19
-
[钻井队队长(副队长、指导员)岗位HSE应知应会试题(1863)]
钻井队队长(副队长、指导员)岗位HSE应知应会试题(判断题:771;单选题:626;多选题:466)
【贺词】 日期:2020-09-23
-
话剧《家》剧本 话剧剧本:爱的空间
找文章到更多原创-(http: www damishu cn)人物介绍:刘伟,男,32岁,某购物广
【演讲稿】 日期:2020-01-21
-
五言绝句大全500首古诗_五言绝句144首
五言绝句144首 五言绝句(一): 1《春夜喜雨》唐朝·杜甫 好雨知时节,当春乃发生。随风潜入
【祝福语】 日期:2021-03-13
-
学习周永开先进事迹心得体会3篇
学习周永开先进事迹心得体会【一】通过学习周永开老先生先进事迹后,结合自己工作思考,感慨万千。同样作为
【格言】 日期:2021-04-10
-
2023年中国行政区划调整方案(设想优秀3篇
中国行政区划调整方案(设想优秀民政部第二次行政区划研讨会会议内容一、缩省的意义与原则1.意义1)利于减少中间层次中国行政区划层级之多为世界之最,既使管理成本
【周公解梦】 日期:2024-02-20
-
XX老干局推进党建与业务深度融合发展工作情况调研报告:党建调研报告
XX老干局推进党建与业务深度融合 发展工作情况的调研报告 党建工作与业务工作融合发展始终是一个充满生
【成语大全】 日期:2020-08-28
-
中国共产党第三代中央领导集体的卓越贡献
中国共产党第三代中央领导集体的卓越贡献 --------------继往开来铸就辉煌 【摘要】改
【成语大全】 日期:2020-03-20
-
信息技术2.0能力点 [全国中小学教师信息技术应用能力提升工程试题题库及参考答案「精编」]
全国中小学教师信息技术应用能力提升工程试题题库及答案(复习资料)一、判断题题库(A为正确,B为错误)
【格言】 日期:2020-11-17
-
党建工作运行机制内容有哪些_构建基层党建工作运行机制探讨
党的基层组织是党在社会基层组织中的战斗堡垒,是党的全部工作和战斗力的基础。加强和改进县级以下各类党的
【经典阅读】 日期:2020-01-22
-
2023年和儿媳妇在一起幸福的句子3篇
和儿媳妇在一起幸福的句子1、假如人生不曾相遇,我还是那个我,偶尔做做梦,然后,开始日复一日的奔波,淹没在这喧嚣的城市里。我不会了解,这个世界还有这样的一个你
【格言】 日期:2023-11-10
-
集合推理_七,推理与集合
七推理与集合1 期中考试数学成绩出来了,三个好朋友分别考了88分,92分,95分。他们分别考了多少分
【名人名言】 日期:2020-12-18
-
电大现代教育原理_最新国家开放大学电大《现代教育原理》形考任务2试题及答案
最新国家开放大学电大《现代教育原理》形考任务2试题及答案形考任务二一、多项选择题(共17道试题,共3
【成语大全】 日期:2020-07-20
-
基层党务工作基本内容_党建基本工作有哪些
党建基本工作有哪些(一) 基层党建工作包括哪些内容 选择了大学生村官这条路,你就与农村基层党
【名人名言】 日期:2020-08-06
-
关于三农工作重要论述心得体会3篇
关于三农工作重要论述心得体会3篇关于三农工作重要论述心得体会篇1习近平总书记指出:“建设现代化国家离不开农业农村现代化,要继续巩固脱贫攻坚成果,扎实推进乡村
【学习心得体会】 日期:2022-10-29
-
【福生庄隧道坍塌处理方案】 福生庄隧道在哪里
(呼和浩特铁路局大包电气化改造工程指挥部,内蒙古呼和浩特010050)摘要:文章介绍了福生庄隧道
【学习心得体会】 日期:2020-03-05
-
五个一百工程阅读心得体会13篇
五个一百工程阅读心得体会13篇五个一百工程阅读心得体会篇1凡益之道,与时偕行。在全国网络安全和信
【学习心得体会】 日期:2022-12-07
-
城管系统警示教育心得体会9篇
城管系统警示教育心得体会9篇城管系统警示教育心得体会篇1各党支部要召开多种形式的庆七一座谈会,组织广大党员进行座谈,回顾党的光辉历程,畅谈党的丰功伟绩,
【学习心得体会】 日期:2022-10-09
-
发展对象培训主要内容10篇
发展对象培训主要内容10篇发展对象培训主要内容篇1怀着无比激动的心情,我有幸参加了__新区区委党校20__年第四期(区级机关)党员发展对象培训班。这次的学习
【培训心得体会】 日期:2022-09-24
-
凝聚三种力量发展全过程人民民主心得体会12篇
凝聚三种力量发展全过程人民民主心得体会12篇凝聚三种力量发展全过程人民民主心得体会篇1新民主主义革命是指在帝国主义和无产阶级革命时代,殖民地半殖民地国家中的
【学习心得体会】 日期:2022-08-31
-
2022年全国检察长会议心得7篇
2022年全国检察长会议心得7篇2022年全国检察长会议心得篇1眼睛是心灵上的窗户,我们通过眼睛才能看到世间万物,才能看到眼前这美好的一切。拥有一双明亮的眼
【学习心得体会】 日期:2022-10-31
-
在街道深化作风建设推动高质量发展走在前列动员会上讲话
在2023年街道深化作风建设推动高质量发展走在前列动员会上的讲话同志们:今天我们召开“街道深化作风建设推动高质量发展走在前列动员会”,这次会议是街道三季度召开的第一场...
【军训心得体会】 日期:2024-03-17
-
全面从严治党的心得体会800字7篇
全面从严治党的心得体会800字7篇全面从严治党的心得体会800字篇1中国特色社会主义是我们党领导
【学习心得体会】 日期:2022-12-14
-
矫正心得体会6篇
矫正心得体会6篇矫正心得体会篇1今天,是自己出监后第一次参加阳光中途之家组织的社区矫正方面的教育
【学习心得体会】 日期:2022-12-24
-
2024年主题教育民主生活会批评与自我批评意见(38条)(范文推荐)
2023年主题教育民主生活会六个方面个人检视、相互批评意见:1 理论学习系统性不强。学习习近平新时代中国特色社会主义思想不深不透,泛泛而学的时候多,深学细照的时候少,特...
【邓小平理论】 日期:2024-03-19
-
2024年交流发言:强化思想理论武装,增强奋进力量(完整)
习近平总书记指出:“一个民族要走在时代前列,就一刻不能没有理论思维,一刻不能没有思想指引。”党的十八大以来,伴随着新时代中国特色社会主义思想在实践中形成发展的历程...
【三个代表】 日期:2024-03-19
-
2024年度镇年度县乡人大代表述职评议活动总结
xx镇20xx年县乡人大代表述职评议活动总结为响应县级人大常委会关于开展县乡两级人大代表述职评议活动,进一步激发代表履职活力,加强代表与人民群众的联系,提高依法履职水平...
【马克思主义】 日期:2024-03-19
-
“千万工程”经验学习体会(研讨材料)
“千万工程”是总书记在浙江工作时亲自谋划、亲自部署、亲自推动的一项重大决策,也是习近平新时代中国特色社会主义思想在之江大地的生动实践。20年来,“千万工程”先后经历...
【三个代表】 日期:2024-03-19
-
2024年在市政协机关工作总结会议上讲话
同志们:刚才,XX同志对市政协机关20XX年工作进行了很好的总结,很精炼,很到位,可以感受到去年机关工作确实可圈可点。XX同志宣读了表彰决定,机关优秀人员代表、先进集体代...
【邓小平理论】 日期:2024-03-18
-
在全区防汛防涝动员暨河长制工作推进会上讲话提纲【完整版】
区长,各位领导,同志们:汛期已经来临,我区城区防涝工作面临强大考验,形势不容乐观。年初,区城区防涝排渍指挥部已经召开专题调度会,修订完善应急预案,建立网格化管理机...
【马克思主义】 日期:2024-03-18
-
2024年镇作风整治工作实施方案(完整文档)
XX镇作风整治工作实施方案为深入贯彻落实党的二十大精神及省市区委深化作风建设的最新要求,突出重点推进干部效能提升,坚持不懈推动作风整治工作纵深发展,根据《关于印发《2...
【毛泽东思想】 日期:2024-03-18
-
2024市优化法治化营商环境规范涉企行政执法实施方案【优秀范文】
xx市优化法治化营商环境规范涉企行政执法实施方案为持续优化法治化营商环境,激发市场主体活力和社会创造力,规范行政执法行为,创新行政执法方式,提升行政执法质效,着力解...
【毛泽东思想】 日期:2024-03-18
-
2024年度关于开展新一轮思想状况摸底排查工作通知(完整)
关于开展新一轮思想状况摸底排查工作的通知为深入贯彻落实关于各地开展干部职工思想状况大摸底大排查情况上的批示要求和改革教育第二次调度会议精神,有针对性做好队伍教育管...
【三个代表】 日期:2024-03-18
-
2024年公路养护中心主任典型事迹材料(完整文档)
“中心的工作就是心中的事业”——公路养护中心主任典型事迹材料**,男,1976年6月出生,1993年参加工作,2000年4月调入**区交通运输局工作,大学本科学历,中共党员,现任**...
【马克思主义】 日期:2024-03-17