网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > “语言数据与数字经济”多人谈

    “语言数据与数字经济”多人谈

    时间:2022-12-29 20:50:30来源:百花范文网本文已影响

    黄少安 汪张龙 宋晖 高宁 姜国权 饶高琦 陈振铎

    “数字化”技术将大幅度提升“语言数据”的经济价值

    黄少安(山东大学经济研究院) 数字化经济已经成为热议话题,但是一些基本概念却还没有完全厘清。现在说“数据”是一种新的生产要素,这个“数据”不是抽象的“数字”,而是针对特定对象的、经过数字化处理的各种信息,其中既有数字信息,也有非数字信息。抽象的“数字”本身不可能成为生产要素。2019年11月发布的《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》中,“数据”第一次被官方文件纳入生产要素并参与分配。2020年4月9日新华社正式刊发的中共中央、国务院《关于构建更加完善的要素市场化配置体制机制的意见》,提出“加快培育数据要素市场”,也是使用“数据要素”。官方文件的表述是精准的。但是仍然有很多文献使用得不准确。“数字经济”的准确说法应该是“数字化经济”,属于“信息经济”时代的新阶段,因为所谓“数字化技术”无非是信息技术的进一步发展,主要标志是互联网的计算机技术、航天技术(通信卫星)和智能化技术。由于有了这些技术,人类对各种形态和性质的信息都能及时地海量地采集、处理、储存、传输、分析和运用,从而才有了所谓的“大数据”。一方面,采集、处理、储存和分析各种数据的数字化技术本身会催生许多公司和非公司性机构,形成数字技术产业化;另一方面,数字化技术和各种数据又会被其他产业广泛运用,从而改造其他产业,即所谓的“产业数字化”。

    数字化技术使得“语言大数据”成为可能,而且应用价值大幅提高。语言与蓬勃兴起的数字化技术密切相关,确切地说,数字化技术在语言信息领域大有用途。过去对语言信息的采集、处理、储存等,是十分困难而且难以准确的,用途也局限于一定领域。数字化技术普及后,许多工作变得可能和简单,例如,可以建立多媒体、全语种、多维度的语言数据库,语言的相关信息也可以形成大数据。关键是用途大大扩展,例如,利用语言大数据,分析语言对经济增长的影响变得可能,语言扶贫(提高相应群体的语言人力资本)变得可操作,民族语言的经济价值及其开发也变得可评估和可操作,语言资源的保护和利用也变得相对精准并能进行效用评估,语言产业蓬勃发展也将成为可能。

    能否充分利用数字化技术形成语言大数据并进而同样充分加以利用,关键问题之一是能否合理配置语言数据的产权。语言数据资源和数据产品的产权界定和保护,必须遵循效率与公平统一、以效率为主的总原则。具体原则是:第一,在数据分类基础上分类界定产权,界定为私有、公有还是混合所有,不同类型的数据可能不同;第二,区分数据资源和数据产品,二者的产权界定应该不同或有不同的界定原则;第三,必须在产权保护(包括隐私保护)与数据高效利用之间寻求平衡。

    智能技术助力语言培训测试行业数字化转型

    汪张龙(科大讯飞股份有限公司) 受制于技术限制,传统语言教学与评测对人工特别是专家依赖度较高,难以实现精准化语言教学、个性化语言学习以及大规模语言水平评测。随着人工智能技术的不断发展和完善,语言数据对行业变革的影响也在逐渐加深,特别是在语言教育行业方面。

    智能语音技术发展离不开语言数据。得益于语言大数据的获取和累积、高性能计算能力的提升、深度学习算法的突破,以智能语音、自然语言理解等技术为代表的第三次人工智能浪潮兴起。海量采集的语音数据,经过人工专家标注,基于深度神经网络的机器学习算法,帮助智能语音技术真正走入到实用阶段。如语音合成技术可以将任意的文字信息转化为自然流程的语音,机器合成效果接近真人发音水平;语音识别技术可以将语音中的内容、说话人、语种等信息识别出来,目前识别准确率达到95%以上;口语评测技术可以对说话人的语音标准程度进行自动评测并给出科学反馈指导,中英文口语评测接近高水平专家的评分效果;机器翻译可以实现多语种互译,实现跨语言的自主学习。

    智能语音技术促进了语言培训测试行业的发展。在相关测试中,如国家普通话水平测试、中高考英语口语考试等,智能语音技术已得到广泛应用,有效地保障了评分效果、提升了测试效率、降低了测试的组织难度,每年参加智能测试的考生超过1600万。在语言培训方面,基于全过程的语言数据采集,可实现动态学习评价,教师可精准把握学生学情,精准教学,实现“因材施教”。智能学习技术能够为学生定制个性化语言学习方案,基于智能技术打造的语言教师,可以实时反馈学生的语言评测结果,帮助学生提升学习兴趣和效率。如新疆和田皮山县面向幼儿园、中小学、教师、农牧民等群体开展人工智能国家通用语言教学,半年时间内中小学生国家通用语言听说能力人均分数提升10%,教师普通话测试平均分提高了24%。在全球中文推广方面,教育部指导建设了“全球中文学习平台”,平台面向海内外中文学习者,提供个性化的学习资源和工具,学习者可以通过语音或文本输入其母语内容,实时翻译出中文并自动分句。平台目前已覆蓋了182个国家,用户超过618万。

    语言数据作为数字经济的生产要素,将会不断促进包括人工智能在内的新一代信息技术的发展,这些新技术在语言培训测试领域的成熟应用,将不断变革原有行业形态,帮助行业完成数字化转型,促进相关产业成为数字经济的一方支柱。

    语言数据的优化与自媒体传播效率的提升

    宋 晖、高 宁(1.北京第二外国语学院文化与传播学院/国家语言规划与治理研究中心;2.浙江大学国际教育学院) 阅读量是自媒体的生命线。在大数据语境下,利用数据指导自媒体运营,可以有效提高阅读量。当下自媒体平台形式多样,如微信公众号、微博、B站、小红书、抖音和快手等,我们以微信公众号为代表做了考察。

    运营者需要参照的数据分为运营数据和语言数据。运营数据是平台自带的数据即平台内部的监测数据,和第三方提供的数据即平台外部的评价数据。语言数据则是运营者根据内容生产需要抓取的数据。运营数据为我们在技术上运营公众号提供了数据支撑。但如何获取更多的阅读总量则主要依靠语言数据来指导实践。语言数据的抓取和分析是为内容服务的,在内容选择受限的情况下,语言数据的应用主要表现在标题的设置上。一直以来,“标题党”备受诟病,我们也认为运营者必须具有底线意识,不能为了博人眼球一味夸大甚至虚构标题,坚决抵制“假大空”标题。但同时我们应积极地从学理角度发现和总结自媒体标题的语言规律。笔者曾经就公众号标题做过数据分析,发现标题的语言类型显著影响公众号的打开率。

    第一,数字类标题打开率更高。我们曾对新榜某类公众号阅读量10万+的文章进行过统计,其中标题含有数字的文章超过70%。

    第二,悬疑性标题打开率更高。我们对某公众号2020年11月推送的数据高点连线后发现,60%的题目包含疑问句,如“这些热词,你知道几个?”“为什么中国人要讲方言?这是我听过最好的答案!”“北方人天天挂嘴边却不会写的26个字,你认识几个?”等。

    第三,评价性标题和高识别度标题打开率更高。运营者常把个人情感、判断嵌入标题中,构成评价性标题,如“意外”“泪奔”“疯掉”“抓狂”“惊呆”等。识别度高的标题指包含受众熟知的、影响力大的关键词的标题。我们做过一个简单的测试,将同样内容的文章通过体量相当的两个公号推送,使用评价性标题和高识别度标题,其打开率远远高于那些不用的。

    当然,语言数据的功用,还可以通过分析标题音节的数量、句式句型特点发现标题制作的一些规律;在不考虑时效性的情况下,可以通过竞品分析,获取同一选题不同维度的内容等。

    语言数据与运营数据是一种互为参照的关系,语言数据主要是负责内容制作提供服务,只有坚守内容底线,运营数据才能曲线“优美”;同时,运营数据的“美丑”又会倒逼运营者深挖语言数据。两者不存在此消彼长,只有互嵌式的融合才能有力助推自媒体实践。

    2020年度国家社会科学基金重大项目“网络空间社会治理语言问题研究”

    语言数据助力数字丝绸之路建设

    姜国权(首都师范大学国际文化学院) 习近平总书记指出:“要坚持创新驱动发展,加强在数字经济、人工智能、纳米技术、量子计算机等前沿领域合作,推动大数据、云计算、智慧城市建设,连接成21世纪的数字丝绸之路。”语言数据是在人类运用语言文字交流思想的社會活动中形成的,用以进行统计、计算、研究、设计、分析、推理、决策等活动的语言文字数据,具有全球性、多样性、基础性、系统性、动态性等特征,连接着丝绸之路的历史、现在和未来。高效顺畅的语言数据交流和转换应用可以为21世纪数字丝绸之路建设扫除语言障碍,是21世纪数字丝绸之路建设的关键要素和核心基石。

    语言数据与共建“一带一路”时空相伴、同向同行,不仅承载和体现着共建各方的现实需求,蕴含和表达着共建各方的发展愿望,描述和记录着“一带一路”建设进程,融入并呈现着共建“一带一路”成果,而且业已成为巩固互联互通合作基础、拓展国际合作新空间、促进共建国家民心相通的重要支撑。

    “一带一路”倡议提出以来,语言数据的研究应用在服务“一带一路”倡议方面的成效不断显现。百度翻译、腾讯翻译君、科大讯飞文档翻译等一批基于人工智能、移动互联网等前沿科技的数字化翻译平台,通过语言数据识别、转换等信息处理,支持中文和俄语、阿拉伯语等多个“一带一路”沿线国家语种之间的实时互译,为服务“一带一路”经济文化交流提供了重要支持。

    面向未来,以语言数据助力21世纪数字丝绸之路建设可以从以下几个方面着眼:(1)统筹推进数字经济发展和数字社会语言生态体系构建,加快“一带一路”语言数据服务体系建设;(2)强化“一带一路”语言数据资源共建共享,探索语言数据跨境安全有序流动的策略机制;(3)支持“一带一路”语言数据资源开发和应用,创新语言数据应用模式和应用场景,推进语言数据标准化、规范化、便利化;(4)完善语言数据风险防控机制,强化语言数据安全保障和风险预警;(5)加强“一带一路”语言数据相关学科建设和专业人才培养。

    随着语言数据理论研究和实践应用的不断发展,以及21世纪数字丝绸之路的数字基础设施建设、产业数字化转型、社会信息化发展、民众数字素养提升,语言数据将汇聚铺就21世纪语言数据丝绸之路,并在深化各方互信、促进理念认同、推进合作行动、形成务实成果等方面发挥更大作用,为创新推动数字丝绸之路建设做出新的贡献。

    挖掘古籍语言资源,助力文化强国建设

    饶高琦(北京语言大学汉语国际教育研究院) 中国是世界上古籍典藏最丰富的国家,据统计现存古籍20余万种,其时间跨度、涉及领域和保存质量在全球皆无出其右。在现代传媒出现以前,历史、知识和传统文化大部分以文字形式保存在古籍当中。作为文化大国的重要标志,古籍承载民族公共记忆,并潜移默化地塑造了我们的历史认同和文化认同。就此而言,古籍是十分重要的语言数据资源,对古籍语言数据的开发对文化强国建设有巨大助力。我们要重视古籍的语言资源价值,并为此加强古籍智能化技术、数据、平台的建设工作。

    古籍的作用本质上是古籍中语言数据的作用。基于已数字化的古籍材料,众多智慧应用如雨后春笋般快速涌现。如在历史研究领域广被使用的中国历代人物传记资料库,支持了登科时空分布、文学家旅行图景、儒学思想交流网络绘制等成果。上海图书馆基于家谱这一特殊类型古籍,开发了中国家谱知识服务平台,并构建了宗族源流、可视化迁徙、族训、家训变迁、传承查询等服务。这些成果和产品兼具科研和科普价值,社会效益和经济效益俱佳。这些可以说都是古籍蕴含的语言数据开发利用所获得的红利。

    然而若要持续受益,我们必须持续加强古籍整理及其数字化工作。新中国成立70余年来,共整理古籍38 000余种,但较之传世古籍20余万种,仍有巨大差距。差距同样也是机遇。文字识别、自动句读、智能分析等智能技术被纷纷应用于古籍整理。2022年“北京大学-字节跳动数字人文开放实验室”研发古籍数字化平台,利用智能技术加速古籍资源建设,预计3年就可以完成10 000种精选古籍的修复整理。以中华书局、上海古籍出版社和商务印书馆等为代表的专业出版机构也纷纷投巨资组建专门团队,打造古籍数字化出版、加工平台。

    然而,我们也应该清醒地看到,热潮之下学界和业界对古籍语言资源的开发利用尚在起步阶段。正如其他成熟领域中语言资源的开发进程,古籍语言资源开发也需要建设大规模数据基础设施、广泛开展技术评测活动、建立健全规范标准保障。在数据上,应探索建立公益目的、开放获取、版权可控、受益共享的古籍数据平台和系列开源工具集合。相关学术组织应积极规划、联合举行具有公信力的智能处理技术评测。语言文字管理部门应当会同文化、宣传部门组织研制面向历史语言文字资源的语言规范、交换标准和技术标注,形成规范标准体系,引领学术、技术和产业发展。

    总之,古籍是重要的语言文字数据载体。将古籍送入数字时代,并使其更好地发挥公共记忆、历史镜鉴和文明图腾的价值,是数字转型、智能转型中学术界和产业界应承担时代使命。

    教育部人文社科基金“清末以来汉语报刊词汇使用计量研究”(20YJC740050)

    信息社会与人文社会科学知识生产

    陈振铎(杭州师范大学钱江学院) 从2002年《布达佩斯开放获取倡议》开始,在麻省理工学院诞生的开放式获取技术逐渐成为国际普遍采用的科学基础设施基本技术标准,加上互联网技术本身的革新换代,形成一种信息社会的趋势:在AI翻译、语音-文字转换技术以及互联网神经大数据等技术加持下,各种传统语言在知识传播上的差异逐渐消除,各种语种和学科知识,包括各种历史档案文献、学术活动信息,都得以流通使用,在巨型数字平台中表现和“实”现。诸如生产、传播和教育等本来分离的部分,能通过屏幕上的同一个平台内实现,传统的物理介质和空间载体不再占主导,甚至连生产的“后台”过程也聚合到平台中成为知识本身的一部分,所有流程变为一体的数字信息。

    这种局面是现代大学和传统出版诞生以来从未有过的局面,倒逼各种传统力量加速转型,出现几条汇流:第一,传统的全球商业型学术出版商布局数字出版,加速将原来的馆配发行转向开放式获取,并生成了不同的收费和盈利模式;第二,欧盟中法、德等国介入保护公共资金的科研成果,并提出建设自己的公立开放科学基础设施;第三,社会化和中小型商业化知识生产,抓住新技术赖以产生的创业群体、保持独立或争取新市场的学者以及传统平台转型,形成了分众的社会化平台。无论大型出版商还是国家的科研基础设施,或是各群体自建的平台,都走向开放获取或开放科学,出现雅克·埃呂尔所描述的“技术综合体”形态,在3个层面逐渐统合为一体:“听、说、读、写”统合;传统的语种、学术语言和技术语言统合;口语、书写和视觉语言统合。从社会学的角度,可以把它定义为一种基于话语表达权力的“语言技术综合体”。

    这也形成两个基本趋势:传统私立大型出版商逐渐成长为一种巨型综合体,控制公立学术生产的各方面,公共资金资助的科研成果变成巨型综合体的抽象产权;英语和信息技术发达的美国成为世界各种语言和科研的中心枢纽。这种全方位的巨型综合体在机制上是为私利还是为公益;是闭合还是开放;是让技术服务资本或技术本身,从而异化人,还是作为工具服务人,促进知识的传播与进步:这是信息社会时代人文社会科学知识生产的主要挑战。

    国家层面建设整体的开放科学基础设施,保护公共科研的公共属性和本国语言的知识生产,是个体和集体抵抗这种巨型技术综合体的一条出路。欧盟已经开展实践,以法国国家开放文献中心为例,国家投入资金、制定标准和规则,涉及知识生产的各主体平等参与、自主建设,形成四位一体的统合局面:公共资金建设的高校、科研机构的学术信息展示;公立大学和学术出版社以及小型独立学术出版社的学术图书出版;各种学术期刊的发布;所有参与主体实时更新的学术活动。这是中国人文社会科学在开放科学基础设施建设方面的一种可资借鉴的方向。

    责任编辑:王 飙

    猜你喜欢 古籍数字化数字 揭示数字化转型的内在逻辑进出口经理人(2021年2期)2021-03-28数字化起舞董事会(2021年12期)2021-02-11西藏大批珍贵藏文古籍实现“云阅读”布达拉(2020年3期)2020-04-13古籍修复师的巧手与匠心出版人(2019年11期)2019-12-19高中数学“一对一”数字化学习实践探索福建基础教育研究(2019年1期)2019-09-10高中数学“一对一”数字化学习实践探索福建基础教育研究(2019年1期)2019-05-28江苏完成九成以上古籍普查科学导报(2018年44期)2018-05-14答数字创新作文(5-6年级)(2018年11期)2018-04-23数字看G20南风窗(2016年19期)2016-09-21成双成对小天使·六年级语数英综合(2014年3期)2014-03-15

    相关热词搜索:语言 数字 数据

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座