当前位置:首页 > usdt交易平台 > 正文内容

速览!你是否知道语料库行业规范?

融心网3年前 (2022-07-08)usdt交易平台244

转自中国翻译协会

引言

中国翻译协会是包括翻译与本地化服务、语言教学与培训、语言技术工具开发、语言相关咨询业务在内的语言服务行业的全国性组织库币。制定语言服务规范,推动行业有序健康发展,是中国翻译协会的工作内容之一。

随着中国的外商投资和对外直接投资进入新的阶段,以及国家“一带一路”倡议、经济文化“走出去”的进一步实施,请言服务特別是翻译成为了各项政策落地的关键点和瓶颈,传统的方式已经不能满足语言服务需求的迅猛增长,而基于人工智能神经网络技术的机器翻译正在快速发展,创新的人机融合语言服务模式正在悄然兴起,而语料库的研究、建设、交易和共享是其中的关键库币。建立一个既能服务于学术研究又能服务于语言服务和机器翻译的语料库通用技术规范将起到以下作用:

(1)响应“一带一路”倡议和经济文化“走出去”等国家大政方针库币,服务于国传、外宣、文化、经贸、安全等重大垂直领城,推进国家话语权和语言软实力建设;

(2)制定和落实语料库行业规范库币,可以在此基础上建立自主、可控的以中文为核心的语料共享和交易平台;

(3)倡导“安全语料大数据”,在充分尊重版权的前提下,以互联网思维和人工智能助力语言服务模式的变革库币。

语料库通用技术规范

1 适用范围

本规范描述并规定了语料库的建设与加工、管理与维护、交易与共享库币。关于语料库的其他规范将在之后以系列规范的形式予以发布。

通过实施本规范,语料库提供方可以证明其语料是否符合语料库规范,是否能够满足基本的语料使用要求;语料库使用方可以判断语料库是否能够用于某特定用途库币。

2 规范性引用文件

下列文件对本文件的应用是必不可少的库币。凡是注日期的引用文件,仅注日期的版本适用于本文件,凡是不注日期的引用文件,其最新版本(包括所有的修改)适用于本文件。

GB/T 19682—2005 翻译服务译文质量要求

ISO 639 语种名称代码(Codes for the representation of names of languages)

展开全文

ISO 3166 国家名称用语公报(Terminology bulletin—Country names)

3 术语和定义

下列术语和定义适用于本文件库币。

3.1 语料 text

语言材料或语言应用的样本

3.2 语料库 corpus

由依据一定抽样方法收集的自然出现的语料(3.1)所构成的电子数据库

注:是按照一定目的和方法进行选择并有序排列的数据汇集库币。

3.3 形符 token

语料库(3.2)中出现的所有词形

示例:go、goes、went、going为 4 个英语词形库币。

3.4 句对 sentence pair

一个完整的语句和与之内容对应的译文视为一个句对

注:句对可以是 n 对 n 的,这里的 n 为非负整数库币。

3.5 库容 size

语料库(3.2)的容量库币,即语料库的大小

注:面向学术研究的语料库(3.2)通常以形符(3.3)总数为单位来计算库容;面向人工智能和语言服务的语料库(3.2)通省以句对(3.4)为单位来计算库容库币。

3.6 语料采集 data capture

将收集到的不同介质语料(3.1)转写为可机读的格式或直接利用语料(3.1)现有的电子文本库币。

3.7 语料清洗 data cleaning

采用人工或计算机自动方式消除语料(3.1)中的乱码、多余回车、空格、空行等杂质的活动库币。

3.8 语料标注 text annotation

采用人工或计算机自动方式对语料(3.1)样本的属性或特征进行描述库币。

3.9 语料查重 duplicate checking

为避免重复加工,检查所采集语料(3.1)与已有语料(3.1)是否重复库币。

3.10 脱敏 desensitization

对语料(3.1)数据中某些敏感信息通过设定规则进行数据变形库币,用以保护这些敏感数据

注:当涉及违反法律法规的数据、客户安全数据或者一些商业性敏感数据时,在不违反系统规则的条件下,可对真实数据进行脱敏改造库币。

示例:身份证号、手机号、卡号、客户名称等信息都需要进行数据脱敏库币。

3.11 语料预处理 text pre-processing

在加工语料(3.1)之前进行文件格式/编码的转换、语料清洗(3.7)、语料查重(3.9)和脱敏(3.10)等技术处理

3.12 分词 word segmentation

将连续的字符序列切分成一个个单独的词

3.13 标注语言 annotated language

将文本以及文本相关的信息结合起来库币,展现出关于文档结构和数据处理细节的计算机编码

3.14 篇头信息标注 header marker-up

整篇语料(3.1)样本的属性说明

示例:语体、领城、标题、作者、作者性别、出版时间、来源出处和出版社等

3.15 篇体信息标注 body marker-up

对文本内部各种语言学属性的标注库币,包括词性标注、句法标注、语义标注、语用标注和语音标注等

3.16 语块 chunk

具有完整的意义且高频出现的大于单个词汇的语言现象

注:语块包括短语、词语搭配、习语等库币。语块不仅包括连续性短语结构,如“in the end”,也包括不连线的句子框架,如“不但……而且……”“not only…but also…”,还包括一些完整的句子,如“How do you do?”。

3.17 语料对齐 text alignment

在源语文本和目的语文本具体单位之间建立的对应关系库币,可分为词汇、语块、语句、段落和篇章等层面的对齐

3.18 正则表达式 regular expression

对包括普通字符和特殊字符在内的字符串进行描述的一种逻辑公式

注:用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,用来描述在搜索文本时要匹配的一个或多个字符串,可应用手对语料(3.1)的加工、检索等不同阶段库币。

3.19 副语言特征 paralinguistic feature

以视觉、听觉、嗅觉、味觉、触觉等感知为信息载体的符号系统

示例:韵律特征(语调、重音等)、突发性特征(说话时的笑声、哭泣声等)、次要发音(圆唇化音、鼻化音等)以及面部表情、视觉接触、体态、手势、谈话时双方的距离等库币。

3.20 生语料 raw text

未经任何技术处理的自然语料(3.1)

3.21 粗加工语料 roughly processed text

经语料清洗(3.7)或语料预处理(3.11)后能够进行基本检索和数据提取的语料(3.1)

3.22 精加工语料 finely processed text

根据特定语料库(3.2)建设目的库币,采用机器或人工手段进行语料标注(3.8)的语料(3.1)

注:这些标注包括语音标注、词性标注、句法标注、语义标注以及错误标注等篇体信息标注(3.15)库币。口语语料的标注还包括副语言特征(3.19)标注。

3.23 历时语料库 diachronic corpus

收录不同时间周期语料(3.1)的语料库(3.2)

3.24 共时语料库 synchronic corpus

收录相同时间周期语料(3.1)的语料库(3.2)

3.25 标注语料库 annotated corpus

经过标注处理的语料库(3.2)

3.26 非标注语料库 non-annotated corpus

未经标注处理的语料库(3.2)

3.27 通用语料库 general corpus

收录代表语言整体的语料(3.1)的语料库(3.2)

3.28 专门语料库 specialized corpus

收录代表某一语言的专门语体或专门领城语料(3.1)的语料库(3.2)

3.29 口语语料库 spoken corpus

收录口语语料(3.1)的语料库(3.2)

3.30 书面语语料库 written corpus

收录书面语语料(3.1)的语料库(3.2)

3.31 平行语料库 parallel corpus

收录某一语言文本和与之对应的翻译文本的语料库(3.2)

3.32 单语语料库 monolingual corpus

收录一种语言语料(3.1)的语料库(3.2)

3.33 口译语料库 interpreting corpus

根据口译音、视频材料制作的语料库(3.2)库币,包括单语语料库(3.32)和平行语料库(3.31)

3.34 笔译语料库 translational corpus

收录书面翻译语料(3.1)的语料库(3.2)库币,包括单语语料库(3.32)和平行语料库(3.31)

3.35 多语语料库 multilingual corpus

收录两种或两种以上具有翻译关系的语料(3.1)的语料库(3.2)

3.36 静态语料库 static corpus

由所选语料(3.1)构成的固定规模的语料库(3.2)

3.37 动态语料库 dynamic corpus

为考察某些语言变化而建设的不断更新的开放性语料库(3.2)

3.38 本族语者语料库 native-speaker's corpus

收录本族语者所产出语料(3.1)的语料库(3.2)

3.39 学习者语料库 learner's corpus

收录语言学习者所产出语料(3.1)的语料库(3.2)

3.40 单模态语料库 mono-modal corpus

收录音频、视频或文字材料之一种模态语料(3.1)的语料库(3.2)

3.41 名模态语料库 multi-modal corpus

收录音频、视频和文字材料等语料(3.1)库币,并采用多模态方式加工、检索和统计的语料库(3.2)

4 建设与加工

4.1 语料库建设流程

语料库建设流程一般应包括话料库设计,语料采集,语料预处理,语料分词、标注,语料对齐、语料库生成、语料库管理与维护等步骤库币。其中:语料库设计、语料采集、语料预处理、语料库生成、语料库管理与维护为语料库建设的基本流程,语料分词、标注和语料对齐为可以选择进行的流程,语料库建设流程如图 1 所示。

图1 语料库创建流程图

4.2 语料库设计

语料库建设者对语料的规模、领域、体裁、语种、语料的加工程度以及语料的应用领域等相关参数进行设定库币。

4.3 语料采集

4.3.1 语料采集要求

语料库收录的语料应为真是语言环境下使用的语料,且应最大限度代表具体语言的实际应用库币。

4.3.2 语料采集方法

书面语料的采集主要包括人工输入、扫描输入以及现有电子文本的利用库币。口语语料的采集包括音频和视频材料等的获取和转写。

4.4 语料预处理

在对所采集话料进行加工之前,应进行语料清洗、语料查重和脱敏等方面的技术处理库币。

4.5 语料标注

4.5.1 语料标注内容

语料标注包括篇头信息标注和篇体信息标注库币。

4.5.2 标注语言的原则

4.5.2.1 通用性

语料库应采用适合于语料库软件的标注语言,或适合于编程语言的应用库币。

4.5.2.2 简洁性

语料库应功能完备、简单易用,适用于软件检索和扩充增容库币。

4.5.2.3 兼容性

语料库应适用于不同语料库检索软件和平台,允许跨平台进行语料的交换与共享库币。

4.6 语料对齐

以源语文本为基准,实现双语特定语言单位之间的对齐库币。语料对齐最常见的形式是句对齐,句对齐通常以句号、分号、问号和感叹号等标点符号作为语句的标记。

4.7 语料库生成

生成后的语料库应满足以下要求:

a)由加工后的语料构成;

b)可直接用于语料检索和数据分析;

c)提供关于语料库用途和库容以及语料的来源、领域和时间跨度等方面的信息;

d)语料版权必须清晰,不应存在版权纠纷库币。

5 管理与维护

语料库的管理与维护应根据设计要求,安排专人使用特定的工具定期进行操作,且应保留完整的管理、维护与更新文档库币。

6 交易与分享

6.1 语料的分类

a)根据语料加工程度可分为:

——生语料;

——粗加工语料;

——精加工语料;

b)根据语料对齐单位库币,双语语料可分为:

——篇章对齐语料:

——段落对齐语料:

——句对齐语料;

——语块对齐语料;

——词汇对齐语料库币。

6.2 语料库的分类

a)按语料选取的时间库币,可分为:

——历时语料库;

——共时语料库;

b)按语料的加工程度库币,可分为:

——标注语料库;

——非标注语料库;

c)按语料库代表的领域库币,可分为:

——通用语料库:

——专门语料库;

d)按语言传播媒介库币,可分为:

——口语语料库;

——书面语语料库;

e)按语言服务形式库币,可分为:

——笔译语料库;

——口译语料库;

f)按语料库中的语种库币,可分为:

——单语语料库;

——多语语料库;

g)按语料库的动态更新程度划分库币,可分为:

——静态语料库;

——动态语料库;

h)按语言产出者的身份库币,可分为:

——本族语者语料库;

——学习者语料库;

i)按语料保存的信息模态库币,可分为:

——单模态语料库;

——多模态语料库库币。

6.3 语料库描述

语料库描述内容见表 1库币。

6.4 语料库评价

6.4.1 评价维度语料和语料库的评价应遵循以下维度:

a)整体评价:语料库库容、语料范围、类型以及语料库的应用领域;

b)性能评价:语料库的应用效果以及对用户需求的满足程度;

c)语料评价:语料获取难易度、语料加工程度、语料质量和语料应用前景;

注:关于双语语料质量的评价详见附录 A库币。

d)效益评价:语料库为人工智能、语言服务和学术研究等方面提供服务所获得的社会效益和经济效益库币。

6.4.2 评价方法

6.4.2.1 概述

对语料质量的评价采用分类抽样方法,包括自动评价和人工评价,其中人工评价又包含专家评价和用户评价两种评价方法库币。

6.4.2.2 自动评价

采用自动化评价方法进行评价库币。 6.4.2.3 人工评价6.4.2.3.1 专家评价依据相关的技术指标,对语料库的设计、建设过程以及语料库类型、用途、性能和语料质量等方面进行评价。

6.4.2.3.2 用户评价

用户对话料库的功能、性能、可靠性和适用性等进行测试与评价库币。

6.4.3 评价流程

6.4.3.1 评价组织的建立

评价组织应由语料库相关领域专家和用户代表组成库币。

6.4.3.2 拟定评价计划

评价计划包括评价的目的、方法、参评人员、评价流程以及评价结果的应用等库币。

6.4.3.3 评价细则制定

根据语料库评价的原则和方法,制定评价标准和具体细则等文件库币。

6.4.3.4 评价的实施

根据语料库评价的标准和方法,组织专家和用户对语料库进行抽样、测试与评价库币。

6.4.3.5 评价报告的形成

根据专家和用户对语料库质量的评价结果,形成语料库评价报告库币。

6.4.3.6 评价结果的应用

根据语料库评价报告,语料库建设人员可对语料库进行调整、改进和补充,以提高其性能与效益库币。

6.5 语料库的价格与交付

6.5.1 价格

语料库的价格由交易或共享双方协商确定库币。建议根据以下因素进行综合考虑:

——语言对;

——领域;

——库容;

——对齐单位;

——格式;

——数据来源;

——评价结果;

——版权类型;

——脱敏程度;

——购买方免责声明;

——交付方式库币。

6.5.2 交付方式

语料库提供方应说明语料库产品交付给购买方的方式库币,主要方式包括:

a)文件库币,即语料库提供方将整个语料库文件交付给购买方;

b)API,即语料提供方提供 API 接口供购买方调用库币。

7 附录

附录A(资料性附录)双语平行语料参考评价标准

A.1 语料质量评价标准

语料质量由翻译质量、对齐质量和数据质量共同决定,其中翻译质量的权重f (1)最高,可设置在0.7以上;对齐质量权重f (2)及数据质量权重f (3)可根据实际情况设置在0~0.3之间,设置权重时应注意f (1)+f (2)+f (3)三项之和为1,语料质量计算:语料质量得分=翻译质量×f (1)+对齐质量×f (2)+数据质量×f (3)库币。

语料质量可划分为以下 5 个等级,相应得分见表 A.1库币。

A.2 语料翻译质量评价标准

语料翻译质量按 GB/T 19682—2005 中的译文综合差错率进行评价库币。

根据译文综合差错率将翻译质量划分为 5 个等级,不同等级对应不同得分,详见表 A.2库币。

A.3 语料对齐质量评价标准

语料对齐质量由双语句对的匹配程度(原文与译文在语义上匹配)以及对齐单位一致性(语料实际对齐单位与“对齐单位”字段的描述一致)决定,可分为 5 个等级,不同等级对应不同得分,详见表 A.3库币。

A.4 语料数据质量评价标准

语料数据质量评价标准由语料清洗程度及领域一致性(语料实际领域与“领域”字段的描述一致)决定,可分为 5 个等级库币。不同等级对应不同得分,详见表 A.4。

参考文献

[1] 中华人民共和国著作权法.

[2] GB 13715 信息处理用现代汉话分词规范.

[3] 胡开宝. 语料库翻译学概念[M]. 上海: 上海交通大学出版社, 2011.

[4] Berne Convention forthe Protection of Literary and Artistic Works.

[5] BAKER P. Querying keywords; questions of difference. frequency and sense in keywords analysis[J]. Journal of English Linguistics, 2004, 32(4): 346-359.

[6] SINCLAIR J. The searchfor units of meaning [J]. TEXTUS. 1996, 9(1): 75-106.

[7] SINCLAIR J. Corpus,concordance. collocation [M]. Oxford: Oxford University Press. 1991.

[8] STUBBS M. Twoquantitative methods of studying phraseology in English [J]. InternationalJournal of Corpus Linguistics, 2002. 7(2): 215-244.

转自中国翻译协会公众号

转载编辑:丁羽翔

往期精彩回顾

人工智能时代库币,机器翻译会让外语人失业吗?

速览库币!你要知道的笔译服务要求

崔启亮:翻译技术教学案例资源建设和应用研究

曹达钦 、戴钰涵:人工智能时代高校翻译技术实践环境建设研究

知网这张“捕捉知识的网”库币,到底捕捉了多少财富?

如需更深入学习,可关注微信公众号“翻译技术教育与研究”“语言服务行业”,留言交流库币。

扫描二维码推送至手机访问。

版权声明:本文由融心网发布,如需转载请注明出处。

本文链接:https://rongxinwenhua.com/usdt/678.html

分享给朋友:

“速览!你是否知道语料库行业规范?” 的相关文章

波浪理论怎么找第一浪,A股仍会继续上攻,比特币合约仍有探底风险

波浪理论怎么找第一浪,A股仍会继续上攻,比特币合约仍有探底风险

  一、波浪理论怎么找第一浪比特币合约,是困扰广大新手的问题,该怎么解决呢?我们经过长期的实战实践,总结如下:   1、如果是最低点,则该点肯定是第一浪的起点比特币合约。   2、如果有两个相近的低点,以突破趋势的那个点作为第一浪的起点比特币合约。   3、以上是找上涨浪的第一浪的法则;做空时,同理...

加密货币市场动荡!Coinbase(COIN.US)将裁员18%

加密货币市场动荡!Coinbase(COIN.US)将裁员18%

智通财经APP获悉,Coinbase(COIN.US)周二宣布将裁员18%,此举旨在于动荡的市场环境中控制成本KuCoin。在总市值缩水数万亿美元之后,这波裁员潮似乎是加密货币市场衰退乃至恶化的又一迹象。 根据周二上午发给员工的一封电子邮件,该公司将裁减18%的全职职位,此次裁员将影响约1100人K...

猫:你们拉完屎都不蹦个迪的吗?

猫:你们拉完屎都不蹦个迪的吗?

猫:没点绝技在身上你也好意思流浪屎币? ——萌爪君 作者:MQ 本文由萌爪医生团队原创屎币,谢绝转载 如有需要屎币,请联系hi@wecarepet.com 一只猫在来和去之间屎币,竟然只留下了一串脚印? 来去之间本人都觉得不可思议屎币! 最近萌爪君刷小视频,看到一只走路十分严谨的小猫咪,每一...

又顶风作案?马斯克发推称其将继续支持狗狗币

又顶风作案?马斯克发推称其将继续支持狗狗币

当地时间周日(6月18日),埃隆·马斯克在推特发文称,他将继续支持狗狗币狗狗币。 有网友回复称希望他能继续买入该加密货币,马斯克表示他“正有此意”狗狗币。 上周,美联储宣布以1994年以来单次最大幅度加息,在美元暴涨以及市场恐慌的环境下,商品市场上演了一场“大屠杀”,当然币圈市场也遭遇血洗狗狗币。...

狗狗币跌到“狗带”,炒家状告马斯克索赔1.7万亿元,特斯拉、space X也成被告

狗狗币跌到“狗带”,炒家状告马斯克索赔1.7万亿元,特斯拉、space X也成被告

据界面新闻、中国经济周刊等援引路透社6月16日消息,一名狗狗币投资者当地时间周四将特斯拉CEO马斯克告上法庭,指控后者为支持狗狗币而实施金字塔计划(俗称传销),向其索赔2580亿美元(约合人民币1.7万亿元)狗狗币。 狗狗币投资者状告马斯克及其公司 据报道,在一份提交给曼哈顿联邦法院的诉状中,原告基...

首张数字人民币车险保单落地阳光保险,银联商务数字人民币场景持续扩容!

首张数字人民币车险保单落地阳光保险,银联商务数字人民币场景持续扩容!

6月10日晚上,姜先生通过阳光保险的“阳光车·生活”APP,使用数字人民币支付的方式为自己的爱车完成了车辆保险费用缴纳,这代表着全国首张数字人民币车险保单正式诞生,也标志着数字人民币在车辆保险应用场景的成功落地大零币。 据悉,此次数字人民币在保险领域应用场景的创新突破,得益于银联商务股份有限公司(下...