forked from gdsc-uba/the-translator
-
Notifications
You must be signed in to change notification settings - Fork 0
/
chinese.txt
325 lines (323 loc) · 21.1 KB
/
chinese.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
文本与计算机简史
1.文本在计算机发展中的核心作用
第一台可编程数字计算机建于 1940 年代。文本的处理是
一种更近的做法,可以追溯到 1960 年代。只是在 1990 年代
计算机也开始为文本的分发提供一个重要的替代方案。然而在更少的
半个多世纪以来,计算机已经将自己融入社会的肌理中,
以至于没有他们就无法运作。本章探讨了如何
计算机在如此短的时间内发挥了如此重要的作用,特别是在
文字世界。
此后成为数字化发展的一些重要里程碑
可以识别文本媒体。
在 19 世纪,单用途计算机首先被设想为
有可能变成一台通用机器,能够执行以下任务
可以用算法来表示。 1940 年代,第一台 Universal Machines 出现在
建成。在 1960 年代,计算机作为通用机器能够处理文本,
这使它在文本创建阶段发挥了作用。 1980 年代的图形人机
计算机的界面大大增加了排版的可能性
文本的渲染。它使计算机在生产过程中发挥核心作用
印刷品。图形界面也为两者的共存铺平了道路
以数字方式处理文本的不同方法:逻辑和印刷。
• 在 19 世纪,首次构思出单用途计算机
有可能变成一台通用机器,能够执行任务
可以通过算法来表达。
• 1940 年代,第一台 Universal Machines 诞生。
• 在 1960 年代,计算机作为通用机器能够处理文本,这
让它在文本创建阶段发挥作用。
• 1980 年代计算机的图形人机界面大大增强
文本印刷呈现的可能性。它使计算机可以播放
在印刷品生产中发挥核心作用。图形界面也铺平了
以数字方式处理文本的两种不同方式共存的方式:逻辑和
印刷的。
• 在 1990 年代,计算机被包含在网络中,这扩大了其作为
通讯工具,从模拟印刷品生产的辅助工具到
一种新的、完全数字化的媒体,它本身也包括发行和
消耗。
罗伯特·达顿在他的“通信电路”1 中将整个
书籍和其他印刷文本形式的传输过程,因为它已经运行了几个
世纪。该模型可视化了各种连续演员工作的过程
1 见 Robert Darnton,“什么是书籍的历史”,代达罗斯,1982 年夏季,第 65-83 页。
2
在不同的文化、经济和政治条件下共同传播
作者的文字,以便它可以接触到读者。将通信电路铺设在
数字文本的传输过程 此模型将识别异同
新数字媒体与其前身之间的(或连续性和不连续性)
打印介质。
文本公开和传播的过程包括各种
不同的阶段。这些大致对应于来文中确定的那些
电路:文本的创建(写作),然后是其产生(乘法),
分发(文本公开的那一刻),最后是消费(阅读)。
但是,要考察计算机在发展的不同阶段所扮演的角色
文本的传输更紧密,我想提出一个小的适应这个链
的阶段。我想在链条的第一个链节上放一个放大镜,
“创作阶段”,即文本的内容和形式尚未形成的阶段
被敲定。除了作者撰写文本外,这一阶段还包括其
编辑,无论是由作者完成还是由代表他或她的人完成(对于
例如出版商的编辑)。从技术上讲,这意味着区分 (a)
文本输入,(b) 文本记录,以及 (c) 文本输入后的操作。
在创作阶段认识到这种流动性,包括任何写作和编辑
迭代次数,更容易跟踪计算机在
写作过程。可以识别该发展的大致三个阶段。这些部分
重叠,但它们根本不同,足以将它们分开处理。这
阶段是(1)文本在计算机上的表示(输入、记录、存储),(2)
为科学和专业应用处理存储的文本,以及 (3) 实际
电脑上的文字处理,作为作者思考和写作的辅助
过程。
当今最流行的计算机应用程序无疑是聊天、文字
处理、发送电子邮件和浏览网页,所有基于文本的追求。但也在这些之外
文字应用 文字是我们使用电脑的关键。在所有算术、分析、中间
以及计算机作为通用机器的其他应用程序,文本具有
一个中心的地方。在万维网上——以及一般的互联网上——文本是最
组织、搜索和查找信息的常用方法,即使信息本身
不是文本,而是例如音乐文件或图像。在所有日常交往中
计算机文本提供了操作系统的主要界面以及
应用程序。文件被命名并停留在文件夹中,这些文件夹再次使用文本命名。但
也超越了这种日常消费者使用语言是所有人机的基础
相互作用。所有现代编程语言都使用一种自然语言。还
标记(在计算机上对文本进行编码的最重要方法之一——以及
万维网上发布的技术基础)完全是文本实践。
在上一章中,我描述了西方社会是如何被
书籍作为传播知识的主要手段的社会文化意义。我有
称之为书的秩序。在这种背景下,这似乎是很自然的,而且在
几乎不可避免的事实是,计算机将被部署用于文本通信
一旦这成为可能,整个人机交互就变成了
文字事务。事实上,文字处理器在
1980 年代似乎证实了这一想法。鉴于基于文本的应用程序在
3
今天流行的计算机使用,这个问题甚至提出了为什么计算机是
被发明为计算机而不是语言机器。原来,电脑
继续必须重新计算我们提供给
只有它知道的有意义的单位:一和零。为什么不可能
用语言本身计算?这个想法可能看起来比实际更奇怪。他的一生
威廉·莱布尼茨继续相信构建一种由逻辑组成的语言
可以通过计算器操作的符号。这样的语言,和
机器来“计算”它将使任何哲学辩论都可以通过点击来解决
的一个按钮。 2 莱布尼茨的梦想还没有实现,与其说是因为这样一个
符号的逻辑系统是不可行的。 3 真正的问题是
意味着我们可以——并且希望能够——用自然的人类语言表达
不适合被简化为逻辑符号系统。
零和一个,然后。不过为了方便,感觉
有必要设计一种方法将计算机的指令转换为人类可理解的
形状。因此,程序行、菜单、文件名等现在都有一个人-
可读的形式,即使在幕后计算机仍然使用唯一的
它知道的数字:一和零。现在没有用户停下来认为每次击键都是
转换成一系列二进制数。事实上,在我们的感知中,语言是
我们今天处理计算机的主要方式。计算机显示的数字
确实,仰卧起坐似乎只是从属角色;数字似乎
跟着文字的节奏起舞。但是一旦情况正好相反,并且从
作为计算机的二进制核心,人们一直在寻找一种表示字母的方法。
鉴于文本对于日常计算机使用的巨大重要性
令人惊讶的是,在计算机真正处理文本之前还需要付出多少努力。
这个过程是如何发生的,为什么要花这么长时间?哪些因素阻碍和
刺激它:设计和机会、非预期效果、预期效果失败等。
章将大致重建该过程。
那个文字在电脑上已经占据中心位置,一见钟情
顺其自然——体现了文字在社会中的重要性。同时一些
评论员指出,文本实际上开始失去其重要性。 4 他们是
显然不是暗示我们将要进行直接的二进制数据交换
计算机,或者人类最近获得了大量的培训和经验
符号逻辑。他们的意思是,除了文本之外,其他形式,尤其是
图像在数字通信中发挥着越来越重要的作用,就像在社会中一样
大体上。这通常被称为视觉文化的优势。 5 一个简单的
其他方式增加的解释可能是数字媒体使
由于第 2 章中确定的趋同,很容易整合各种模式,例如
2 《朝臣与异端:莱布尼茨、斯宾诺莎和 G 的命运》od in the Modern World (纽约
和伦敦,2006 年,p。 79),马修·斯图尔特(Matthew Stewart)描述了莱布尼茨的这一理想。
3 Alfred North Whitehead 和 Bertrand Russell 的《数学原理》(1910-1913)是令人印象深刻的证据
确实如此,即使道格拉斯·霍夫施塔特对库尔特·哥德尔的含义的解释是正确的
1931 年关于罗素堡垒命运的爆炸性文章,他认为这是坚不可摧的(见道格拉斯
Hofstadter,我是一个奇怪的循环,纽约,2007 年,第 10 章)。
4 Steve Johnson,界面文化:新技术如何改变我们的创造和
沟通(纽约,1997 年,见第 148-52 页)是例外之一。
5 例如,参见 Mitchell Stephens,The Rise of the Image, the Fall of the Word。
4
文本中的图像和声音。但是视觉文化的概念并不是那么新,当然
早于计算机的出现。从 20 世纪初开始,许多
世界各地的各种视觉语言都被设计用于标志、包装
和其他形式的交流。 6 上世纪中叶德拉封丹
Verwey 在他对荷兰复制和印刷的贡献中发现,图像,
“[s]被书取代了一段时间”,“恢复了它的古老权利并从事
完成了几个世纪以来由印刷文字完成的任务。'7
不仅文本开始失去其重要性的迹象
晕,文字的作用可能同时在其他方面得到加强,比如
作为计算机和互联网的主要文本界面,但
在手机上发短信非常受欢迎。从人气来判断
社交网络、博客和这么多网站上的评论功能,很可能是
比以往任何时候都更多的人写作——至少考虑到一种出版形式。
然而,这种现象不一定总是同样可见。少的例子
直接可见的文本使用是关键字按顺序分配给图像和声音的方式
能够搜索它们。这可能是暂时的现象,而可搜索性
通过其他图像和声音的图像和声音仍处于起步阶段。当时
无论如何,整个数字世界——包括游戏和聊天——都可以通过以下方式访问
文本的手段。
如果文本与其他形式之间的关系确实在发生变化,那么
至少到目前为止,变化似乎并不特别剧烈。尽管如此,在更长的历史
观点 可以很好地想象文本不一定是最多的情况
重要的交流方式。我将在第 6 章回到这个推测。
2. 计算机和计算的历史
最初几乎没有证据表明文本在数字化中扮演的重要角色
世界。文本出现在计算机上的历史始于两大
计算机本身历史上的发展飞跃。有两个特别重要:
(a) 从只有一种功能的机器到多功能机器,以及 (b)
从机械到电子,数字机器。在机械类中只有
一个功能,两个与计算机作为机器的历史特别相关
用于处理文本。首先是计算器,它仍然是每个人的核心
计算机。第二个是打字机,它以键盘的形状传递着
当今计算机的主要输入方式。此外,还有许多
专用机器,其中一些我还将简要提及。
计算器作为计算机先驱的历史可以追溯到大约四
6 对图像的潜力有着巨大的信念(以象形图和图标的形式,但也
基于图像的统计)在促进有效的信息传输方面。一个特别突出和
使用信息图形的不懈倡导者是 Isotype 的发明者 Otto Neurath
(国际印刷图片教育系统)符号在 1920 年代。逃离家乡后
1930 年代,他在奥地利海牙创立了国际视觉教育基金会,后来
牛津同型研究所。
7 H. de la Fontaine Verwey,“二十世纪”,载于 W. Gs Hellinga,荷兰的复制和印刷:
历史书目地图集,阿姆斯特丹,1962 年,第 59-67 页,第 10 页。 59.
5
世纪。 1623 年,图宾根的 Wilhelm Schickard (1592-1635) 进行了 6 位“计数”
时钟”,可以加减。他称他的机器为时钟,因为机器
让人想起一个。该仪器完全是机械的。当半个世纪后
威廉莱布尼茨开始构思他的数字计算器的想法,他很了不起
更有野心。他的机器能够处理通用逻辑符号。在
尽管他有着肆无忌惮的野心和奉献精神,但他从未设法超越一种
机械袖珍计算器,可以加、减、乘和划分。像莱布尼茨
十七世纪,英国数学家查尔斯·巴贝奇在十九世纪
Century 的愿景是计算器可以用于制造以外的用途
数值计算。在其间的几个世纪里,科学知识和仪器
制作技能已经如此先进,以至于巴贝奇能够实施
他的想法比他的前辈更进一步。尽管巴贝奇从未建造过超过
他的“分析引擎”,8 就他的设计实力而言,他可以被认为是
第一台通用机器。就像 Schickard 和 Leibniz 的计算器一样,它完全是
机械(它将由蒸汽驱动)并使用十进制而不是数字
数字,但它是可编程的,将数据与程序分开,并且能够
循环和条件分支。这超出了大多数计算机的能力
甚至一个世纪后。巴贝奇甚至考虑导出计算结果
打孔卡。受提花织机启发的这一概念将使
机器编写和存储自己的程序。
查尔斯巴贝奇有远见;艾达,洛夫莱斯伯爵夫人,一位数学家
一晚晚餐时听他解释的人,是极少数人中的一员
了解它的含义。认识到在更高层次的抽象计算
不是计数,而是符号的操纵,她开始设计一些
可能实际上已经由分析引擎执行的算法曾经有过
已建成。当洛夫莱斯翻译意大利人关于分析引擎的文章时
数学家和军事工程师 Luigi Menabrea 她添加了一些非常有洞察力的
她自己的笔记,相当于原始文章的两倍。在这些笔记中,她
正确地预测了像分析引擎这样的机器可能被用来组成
音乐、制作图形和执行各种科学任务:
[我]可能对除了数量之外的其他事物起作用,如果发现的对象具有相互
基本关系可以用抽象的运算科学来表达,
并且它也应该容易适应操作的动作
发动机的符号和机制。例如,假设基本
和声科学与作曲科学中音高的关系是
容易受到这种表达和改编的影响,引擎可能会精心制作
任何复杂程度或程度的科学音乐作品。 9
8 最初,巴贝奇设计了一种更简单的“机器”,他将其命名为“差异引擎”,因为它
能够自动生成数字集之间的间隔(或差异)表
来自程序化的一系列渐进式添加。这台机器可以打印表格。
9 “Charles Babbage, Esq. 发明的分析引擎草图”,作者 L. F. Menabrea,附 Ada 笔记
Lovelace,转载于查尔斯·巴贝奇《科学与改革:查尔斯·巴贝奇选集》,编辑。
Anthony Hyman, CUP, 1989, pp. 243-311, on p. 270. 强调原文。
6
巴贝奇和洛夫莱斯的愿景可以成为现实的证据,只是被交付了
艾伦·图灵在二十世纪中叶。根据图灵的摘要
“图灵机”能够执行所有可以计算的功能
算法过程的形式。现代数字、电子可编程计算机
满足图灵要求的算法最早是在 1940 年代开发的。
二元原理不仅用于计算本身,还用于
数据的编码方式。正如数字可以同时表示
二进制系统和十进制系统,原则上同样适用于文本、图像和
声音。在数字和文本的情况下,离散字符的数量非常有限,
每个字符可以用有限的位数表示。对于拉丁文字,a
单个字节(八位)可以编码 256 个唯一字符。图像和声音等模式
编码更复杂。这里信号必须被分成任意
组成成分的数量。将图像(或声音)划分为离散的粒子
意味着转换永远不会是连续的,而总是增量的。的数量
每单位信号的分量(例如,每英寸像素)决定了信号的真实性
二进制表示:越多越好。但是无论每个像素的数量有多高
英寸,数字再现的真实性原则上永远不会等于模拟
演绎。尽管存在所有缺点,但二进制表示的相关性在于,所有
所有模式的数据和所有可以应用于它们的计算,都可以被编码
以相同的二进制方式。这使得“二元性”成为“元素” 10
吹嘘的模态融合(在第 5 章中有更多内容)可以发生。
打字机是第二个单f除了有计算器的油膏机
在计算机上开发文本编码方面具有重要意义。某些
最早的打字机是为盲人设计的,11 这很好地说明了
发明者的意图和发明的实际社会用途之间可能存在分歧。的
本主题特别感兴趣的是键盘的情况。在所有巧妙的打字中
系统曾经设计过 12 它是由克里斯托弗·肖尔斯(Christopher Sholes)设计的,他是第一个
打字机进入商业生产,这成为标准。这是
具有众所周知的 qwerty 布局的键盘。 13 肖尔斯最重要的遗产
键盘是他键盘上的字符现在仍然是原子建筑
计算机上的文本块。标准电脑键盘没有重音
字符,不区分连字符和破折号,或
小数点和句号,并且缺少各种特殊字符:来自印刷
通过数学到货币符号。相反,它只是视觉外观
决定是否创建一个单独的字符。 14 计算机键盘编码
单个字母二进制并将它们输入计算机。就像在打字机上一样,这
是通过为每个键分配一个字符来完成的,尽管该数字可能会增加
使用 shift 键(以及计算机上的各种功能键)。
10 该术语是 Michael Heim 的,来自 Electric Language,p。 102.
11 Michael H. Adler,《写作机器》,伦敦,1973 年,p。 48.
12 阿德勒,《写作机器》,p。 25-90。
13 qwerty 布局在许多国家仍在使用,例如在整个英语世界。在
其他一些国家的布局不同。法国使用 azerty 键盘,而德国和一些东方
欧洲国家使用 qwertz 键盘。
14 因此,在某些键盘上,没有单独的数字 1,字母 l 被认为非常相似
在形状上。
7
在许多创造性和创造性较低的替代文本输入系统中
不做肯定要提到道格拉斯·恩格尔巴特的想法,也被称为
电脑鼠标的发明者,15 输入标准 5 位代码的 31 个字符
“电传打字机”(电传的前身)通过同时按下五个键(25 =
32)。 16 恩格尔巴特在 1960 年代开发了这款“五键手机”,作为他雄心勃勃的一部分
人类智力增强框架,将获得更多
请注意本章后面的内容。虽然这个想法并不新鲜(在十九世纪
世纪以来已经设计了几台带有钢琴键盘的打字机)和
当然有优势,它并没有对抗 qwerty 键盘的统治地位
然后已经获得。它在世界大部分地区和几代打字员中使用
已经学会了使用 qwerty 布局盲打字。
打字机没有走创作——编辑——制作——的过程
超越创作阶段的出版——发行——消费。它照顾了
“数据输入”和“存储”(实际上只是创建的功能的过时术语
由计算机)的文本,但对其复制、出版和
17 作为一种媒介,这并不能将打字机与
手稿——除了可读性之外。在这方面
打字机只有非常部分接近印刷字体。然而,这并没有保持其
发明者不要强调这一特性,即使是在最早的机器中也是如此。 18
我放在创作和编辑阶段的放大镜显示
在处理文本方面,打字机的表现相当差。
在历史上相关的更专业的技术中
计算机当然属于电报,尤其是用于文本输入的 Baudot 系统
可以追溯到 1874 年。这是在讨论中已经提到的标准 5 位代码
键盘。尽管可以输入的字符数有限(最多 32 个)
用这个五位系统加密,这个字符编码由 Emile Baudot (1845-1903)
仍然在数字电子环境中使用,直到它被 ASCII 取代
1960 年代中期。 19 由于带有点和破折号的莫尔斯系统也是二进制的,
Baudot 的编码系统特别适合传输到计算机。
另一个值得关注的文本处理专业设备是
用于印刷生产的排版机。 20 排版机使用了
打字机键盘的优势(尽管排字机的键盘是
配备了更多的按键; Monotype 有四套完整的 qwerty
键,罗马、斜体、粗体和小型大写各一个)。至少有四项重大改进
15 见 Thierry Bardini,Bootstrapping:Douglas Engelbart,C进化论和个人的起源
计算,斯坦福大学,2000 年,第 81-102 页。
16 参见 Bardini,Bootstrapping,第 58-80 页。
17 当然,除了抄本的有限帮助。模板机和复印机
可以无视。虽然这些技术使用打字机来记录文本,但乘法是一种
单独的步骤,这需要一台复印机。
18 一位英国工程师亨利·米尔获得了英国专利号。 395 在 1714 年的设备能够
在纸上或羊皮纸上一个接一个地“以书面形式”印上字母,产品是如此整洁和
精确到与印刷无法区分”(阿德勒,写作机器,第 47 页)。
19 Bardini,Bootstrapping,第 65-79 页。关于 ASCII(美国信息标准
交换)在本章后面。
20 可以提及的其他更边缘的系统例如用于生成
随着时间的推移,电影和电视的标题和字幕也变得越来越复杂。
8
在排版行业中即使不是第一次应用也很早,
对数字文字处理的发展具有重要意义。这些是使用
存储介质,以 Monotype 排版机的穿孔带的形式
从 1887 年开始;远程打字机通过6位进行远程排版的应用
1920 年代后期 TeleTypeSetter (TTS) 的代码;计算机在中的应用
1960 年代后期的第三代照排机,以及
1960 年代和 1970 年代的标记概念,稍后再谈。