2019唯美句子英中(合集6篇)

个人学习 12 0

2019唯美句子英中 第1篇

我第一次写这篇文章时过于仓促,文章中有不少错误,实验部分也没写完。我后来把本文又重新修改了一遍,补充了实验部分。

我之前使用了一个较大的数据集,但发现做实验做得很慢,于是换了一个较小的数据集。以前的数据集预处理介绍就挪到这里了。

在开启一个深度学习项目之初,要把任务定义好。准确来说,我们要明白这个任务是在完成一个怎样的映射,并准备一个用于评测的数据集,定义好评价指标。

英中翻译,这个任务非常明确,就是把英文的句子翻译成中文。英中翻译的数据集应该包含若干个句子对,每个句子对由一句英文和它对应的中文翻译组成。

中英翻译的数据集不是很好找。有几个比较出名的数据集的链接已经失效了,还有些数据集需要注册与申请后才能获取。我在中文NLP语料库仓库(https://lp_chinese_corpus)找到了中英文平行语料 translation2019zh。该语料库由520万对中英文语料构成,训练集516万对,验证集万对。用作训练和验证中英翻译模型是足够了。

机器翻译的评测指标叫做BLEU Score。如果模型输出的翻译和参考译文有越多相同的单词、连续2个相同单词、连续3个相同单词……,则得分越高。

PyTorch 提供了便捷的API,我们可以用一行代码算完BLEU Score。

得到数据集后,下一步要做的是对数据集做处理,把原始数据转化成能够输入神经网络的张量。对于图片,预处理可能是裁剪、缩放,使所有图片都有一样的大小;对于文本,预处理可能是分词、填充。

, ,它们的结构如下:

这些json文件有点不合标准,每对句子由一行json格式的记录组成。english属性是英文句子,chinese属性是中文句子。比如:

因此,在读取数据时,我们可以用下面的代码提取每对句子。

这个数据集有一点不干净,有一些句子对的中英文句子颠倒过来了。为此,我们要稍微处理一下,把这些句子对翻转过来。如果一个英文句子不全由 ASCII 组成,则它可能是一个被标错的中文句子。

经过这一步,我们只得到了中英文的字符文本。而在NLP中,大部分处理的最小单位都是符号(token)——对于英文来说,符号是单词、标点;对于中文来说,符号是词语、标点。我们还需要一个符号化的过程。

英文符号化非常方便,torchtext 提供了非常便捷的英文分词 API。

而中文分词方面,我使用了jieba库。该库可以直接 pip 安装。

分词的 API 是 。由于分词的结果中,相邻的词之间有空格,我一股脑地把所有空白符给过滤掉了。

经过这些处理后,每句话被转换成了中文词语或英文单词的数组。整个处理代码如下:

为了让计算机更方便地处理单词,我们还要把单词转换成序号。比如令apple为0号,banana为1号,则句子apple banana apple就转换成了0 1 0

给每一个单词选一个标号,其实就是要建立一个词典。一般来说,我们可以利用他人的统计结果,挑选最常用的一些英文单词和中文词语构成词典。不过,现在我们已经有了一个庞大的中英语料库了,我们可以直接从这个语料库中挑选出最常见的词构成词典。

根据上一步处理得到的句子数组sentences,我们可以用下面的 Python 代码统计出最常见的一些词语,把它们和4个特殊字符, , , (句子开始字符、句子结束字符、频率太少没有被加入词典的词语、填充字符)一起构成词典。统计字符出现次数是通过 Python 的 Counter 类实现的。

准备好了词典后,我还编写了两个工具函数sentence_to_tensortensor_to_sentence,它们可以用于字符串数组与序号数组的互相转换。测试这些代码的脚本及其输出如下:

在这一步中,有一个重要的参数:词典的大小。显然,词典越大,能处理的词语越多,但训练速度也会越慢。由于这个项目只是一个用于学习的demo,我设置了比较小的词典大小。想提升整个模型的性能的话,调大词典大小是一个最快的方法。

都说程序员是新时代的农民工,这非常有道理。因为,作为程序员,你免不了要写一些繁重、无聊的数据处理脚本。还好,写完这些无聊的预处理代码后,总算可以使用 PyTorch 的 API 写一些有趣的代码了。

把词语数组转换成序号句子数组后,我们要考虑怎么把序号句子数组输入给模型了。文本数据通常长短不一,为了一次性处理一个 batch 的数据,要把短的句子填充,使得一批句子长度相等。写 Dataloader 时最主要的工作就是填充并对齐句子。

先看一下Dataset的写法。上一步得到的序号句子数组可以塞进Dataset里。注意,每个句子的前后要加上表示句子开始和结束的特殊符号。

接下来看一下 DataLoader 的写法。在创建 Dataloader 时,最重要的是 collate_fn 的编写,这个函数决定了怎么把多条数据合成一个等长的 batch。

collate_fn 的输入是多个 dataset __getitem__ 的返回结果构成的数组。对于我们的 dataset 来说,collate_fn 的输入是 [(x1, y1), (x2, y2), ...] 。我们可以用 zip(*batch) 把二元组数组拆成两个数组 x, y

collate_fn 的输出就是将来 dataloader 的输出。PyTorch 提供了 pad_sequence 函数用来把一批数据填充至等长。

实现完collate_fn后,我们就可以得到了DataLoader。这样,数据集预处理部分大功告成。

2019唯美句子英中 第2篇

[size=]1. 句子英译中,共三个。

[size=]2. 段落英译中一篇。以下是原文:

Rational, industrious, useful human beings are divided into two classes: first, those whose work is work and whose pleasure is pleasure; and secondly, those whose work and pleasure are one. Of these the former are the majority. They have their compensations. The long hours in the office or the factory bring with them as their reward, not only the means of sustenance, but a keen appetite for pleasure even in its simplest and most modest forms. But Fortune’s favored children belong to the second class. Their life is a natural harmony. For them the working hours are never long enough. Each day is a holiday, and ordinary holidays when they come are grudged as enforced interruptions in an absorbing vacation. Yet to both classes the need of an alternative outlook, of a change of atmosphere, of a diversion of effort, is essential. Indeed, it may well be that those whose work is their pleasure are those who most need the means of banishing it at intervals from their minds.

2019唯美句子英中 第3篇

C、德国侵略者屠杀了这个城市的无辜平民,无一幸免。这种残暴的行为受到了全世界的指责。

50、找出正确的译文。

这位营业员对顾客出言不逊,被当场炒了鱿鱼。

A、The shop assistant was sacked on the spot for using defensive language to a customer.

B、The shop assistant was dismissed on the spot for using defensive language to a customer.

C、The shop assistant was caught on the spot for using defensive language to a customer.

2019唯美句子英中 第4篇

1. 句子中译英,共三个,不难。

2. 段落中译英一篇,出自2018年9月王毅国务委员兼外长在美国对外关系委员会的演讲。以下是原文:

中国古代圣贤孔子主张:“君子和而不同”,“己所不欲勿施于人”。这些充满真理和智慧的思想同样适用于国与国之间的关系。尊重彼此差异、学会换位思考,才能达到真正的和。这个世界上没有放之四海而皆准的发展模式,国与国交往的目的恰恰是在承认不同的前提下增进相互了解、彼此和平共处。历史反复证明,一定要按照自己的标准来改造对方,执意把外来的制度强加于人,大多难以成功,不少还会引发灾难性后果。我要强调的是,不管过去、现在还是将来,中国既不会照搬外国的模式,也不会要求别国复制中国的做法。

2019唯美句子英中 第5篇

B、后置法

C、融合法

46、We have nothing to do with David Swan until we find him at the age of twenty on the main road from his home to the City of Boston where his uncle, a businessman, is going to give him work in the store which he owns.

我们与戴维•斯旺本来毫无关系。直到有一天,我们见到20岁的他离家上了大路,去波士顿他舅舅家。他舅舅是做生意的,开了个店,安排他去那里做事。 这个英文长句的翻译使用了什么方法?

A、顺序法

B、变序法

2019唯美句子英中 第6篇

谈谈你对TO BE GREAT IS TO BE MISUNDERSTOOD的理解。

勒家鸣

艺术生考入南京师范大学

普通三本考入南京大学

二本辞职考入武汉大学

徐贤哲

三本68天考入211

抱歉,评论功能暂时关闭!