考虑到历史文本的

Unite professionals to advance email dataset knowledge globally.
Post Reply
Bappy11
Posts: 446
Joined: Sun Dec 22, 2024 9:33 am

考虑到历史文本的

Post by Bappy11 »

本文描述的项目是 Patrick Sahle 在其关于数字版形式的三卷出版物中描述为“较小项目” [1]的工作的一个例子:它的起源可以追溯到维也纳市的一项个人研究资助[2] 。当这笔奖学金的资金用于购买第一批图像扫描件作为全文数字化的模板时,著名传教士和作家亚伯拉罕·圣克拉拉 (1644-1709) 逝世 300 周年在维也纳悄然过去。 2012年至2014年间,该项目得到了奥地利国家银行禧年基金的大力支持。“奥地利巴洛克文学分析的文本技术方法”项目的批准使得来自文学研究、语言学和语料库语言学领域的跨学科项目团队[3]齐聚 奥地利科学院 (ÖAW) 语料库语言学和文本技术研究所 (ICLTT) 。该团队希望在巴洛克时期的远程文本源上测试数字方法、注释标准和工具的使用情况,并对其具体内容获得可靠的见解。在资源有限的项目过程中,获得并发展了必要的概念和技术技能。[4]对所访问的文本不仅进行了研究,而且还在项目完成后立即以数字形式提供,这并非项目计划的一部分,如果没有奥地利数字人文中心 (ACDH) 的机构支持和密切的内部合作,这也不可能发生。

2. 亚伯拉罕·阿萨克塔·克拉拉所著的文本
该项目的目的并非使大量文本可以被访问。相反,最初的重点是收集和编纂巴洛克时期[5]的有关死亡准备的精选版画,即《死亡警示》、《死亡的艺术》和《死亡之舞》文学。选择这个主题重点不仅考虑到了特定的研究兴趣,也考虑到了与死亡相关的文本在所研究时期的文学创作中占有很高的比例和重要性。记录下来的文本(其中一些不太引人注意)代表了巴洛克时期丰富而广泛的文学传统。由此产生的特定文本集合被称为奥地利巴洛克语料库(ABaC:us),目前包含多位作者的约 20 部作品,主要创作于 17 世纪和 18 世纪早期。

在这些作者中,至今仍为人所知的奥古斯丁赤脚传教士亚伯拉罕·圣克拉拉,实际上是约翰·乌尔里希·梅杰勒 (Johann Ulrich Megerle,1644-1709) [6],在这本巴洛克文学数字收藏中占有特殊的地位:他的五部或被认为由他撰写的[7]与死亡相关的作品已经经过了各个注释阶段,并于 2015 年 5 月 5 日起以数字版的形式首发,包括畅销书如Merck's Wienn (1680),也包括不太为人所知的圣奥古斯丁亡灵兄弟会的新年礼物,该会的精神领袖是亚伯拉罕神父,以及具有象征意义的Todten=Capelle,它在 1710 年出版据说是他最后一部作品时以他的宣传名称命名:

Mercks Wienn / 这是对这位著名首领和皇帝的暴死的完整描述。 1679 年居住在奥地利,[…] 由维也纳大学荣誉印刷商 Peter Paul Vivian 于 1680 年印刷。[8]
Lösch Wienn / 这对 Kay 一家来说是一个动人的提醒。居住地 = 奥地利维也纳的地方,这些数字,是成千上万的已故熟人和亲属不愿忘记的数字 […] 由彼得·保罗·维维安于 1680 年在维也纳印刷。[9]
伟大的亡灵兄弟会 / 这是对凡人生活的简短描述 / 附有目录或名单,列出了 1679 年至 1680 年间去世的所有绅士兄弟、女士和处女姐妹。印刷于1681年。[10]
奥古斯丁 火热的心熊 对在仙女之火中受苦的可怜灵魂表示衷心的同情 / 那是 / 一个小小的家庭建议,一些来自我们救赎著作的格言。父亲的[…] 1693年由梅尔基奥·哈恩(Melchior Haan)在萨尔茨堡印刷。[11]
为亡灵专门布置和装饰的小教堂,或者为亡灵准备的普通镜子,在这里,所有人,无论其地位如何,都可以照看自己,并在多样而有意义的画作中研究“死亡警告”[...]。纽伦堡 […] 由 Marrtin Frantz Hertz 印刷。到。 1710. [12]
图 1:左图:亚伯拉罕·圣克拉拉 (Abraham a Sancta Clara) 的肖像,位于他的其中一篇讣告之前。来源:约翰·卡尔·梅杰勒 (Johann Carl Megerle),亚伯拉罕已去世。维也纳[1710]。维也纳奥地利国家图书馆,签名 220677-C。右图:ABaC:us 版中所含文字的标题页和铜版画。自己的插图© ACDH。
图 1:左:亚伯拉罕·圣克拉拉 (Abraham a Sancta Clara) 的肖像,位于他的其中一篇讣告之前。来源:约翰·卡尔·梅杰勒 (Johann Carl Megerle),亚伯拉罕已去世。维也纳[1710]。维也纳奥地利国家图书馆,签名 220677-C。右图: ABaC:us版中所含文字的标题页和铜版画。自己的插图© ACDH。
ABaC:us 的接收者有时会问自己为什么语料库中包含的印刷品没有以历史批判的方式进行编辑。需要注意的是,该项目主要是为了建立多部作品的数字收藏,以便以文本内在和比较的方式研究语言现象,而不是探索一部作品的各个方面。如果人们想要考虑和评估 ABaC:us 中每部作品的所有可用文本证据,考虑到 Abraham a Sancta Clara 的作品已经印刷了多少版本,这将是一个持续数年的大型项目。正是由于这个原因,他生前和死后作品的再版情况基本上未被完全探究。在可能范围内,项目团队仍然尝试以文本批判的方式进行,这将在下一节通过示例得到说明。

3. 访问深度和注释级别
为了创建尽可能接近原文的转录本,使用 XML 和相关技术将打印模板处理成机器可读的文本,并根据国际推荐标准(TEI - 文本编码倡议 P5 版本http://www.tei-c.org/Guidelines/P5/index.xml)进行访问。数字数据在页面、线条和字符方面忠实地再现了相应的印刷模板。它们经过了多重整理过程,质量经过了仔细检查,并且没有改变文本的历史语言状态。

然而,编码不仅是记录性的,因为它以最高的精度遵循了印刷模板,而且也是对文本至关重要的,因为原文[13]中明显的文本错误留在了转录中,但却被识别和评论:编辑评论用红色上标括号表示,只要用户将光标移到它们附近,它们就会打开相应的更正建议。这些错误最初是谁造成的——作者本人、排字工人还是印刷工人? – 必须保持开放;这些例子显示了非常常见的字母遗漏以及计算错误(图 2 和图 3 ),在死亡教堂的序言中,错误地将亚伯拉罕的年龄延长了两年。

图2:对明显错误进行评论。 © ACDH。
图2:对明显错误的评论。 © ACDH。
图3:对明显错误进行评论。 © ACDH。
图3:对明显错误的评论。 © ACDH。
文本还包含历史、圣经和神话中人名以及地名的注释。在后一类中,显示了维也纳的山脉、水域、地区、国家和大陆、城市和村庄以及街道和广场的名称。

3.1.语言注释,我们投入了相当多的时间进行语言注释,包括词性分类和词形还原:一方面,印刷版的古新高地德语与今天的文本已经具有足够的相似性,因此值得测试和使用注释工具;另一方面,在词汇、词形变化模式、句法和图形方面,它与专注于分析当代语言的标注员所能识别的所有内容存在很大偏差,因此使用自动化工具不可避免地会受到限制。由于时间和资源有限,且数据量(180,000 个标记)看似可控,因此,五部作品中的三部首先通过首先在单词级别对原始文本的字符流进行分割,然后进一步将每个单独的标记分配给一个形态句法词类(使用 54 部分的斯图加特-图宾根标记集),并使用TreeTagger软件为其提供词干,从而第一步自动注释了它们。第二步,检查这些作业,手动编辑并逐步改进。尽管通过使用研究所开发的token_Editor实现了技术简化,但由于以下几个原因,这一校正过程仍然十分耗时:

(1)首先,正如预期的那样,标记器的表现远远没有达到预期的结果。[14]由于错 阿根廷电报数据 误分配的数量很多,必须在上下文中检查每个词类归属和相应的词形。[15]注释团队的经验证实,那些与当今规范只有微小偏差的词形无法被 TreeTagger 识别,从而导致错误的分类。最常错误分配的标签是专有名词(NE),随后的标签流分析表明,错误分配的 NE 标签主要分布在实际名词或外语材料上。

(2) 此外,连字符和断字的历史惯例也使分类更加困难:对于诸如 »wirst«、»meinest« 或 »mustu« 等缩写形式,标准化的斯图加特-图宾根标签集 ( STTS ) 中没有提供类别,这就是为什么引入了新的组合标签来类似于现有类别,并在登记册中这样标识(对于上面提到的例子,例如 VAFINPPER、VVFINPPER 和 VMFINPPER)。

(3)在词形还原[16]中,每个标记都采用了规范化的基本词形,并使用杜登词典和雅各布和威廉·格林编著的《德语词典》作为参考资料。文本中出现的 1000 多个词形,如果在上述两本参考书中没有相应的词典条目,则被标记为所谓的词汇外的词,并追溯到明显的基本形式 - 例如“beindrechslerisch”、“brumbrumbrummend”或“Butterkind”等词素等等。

(4) 文字游戏提出了一个特殊的挑战,因为它不允许对词条进行明确的分配:例如,文本中有一段文字询问哪种颜色最美丽,即金色,在一个迷恋的世界中,哪种颜色比“白色”更受青睐。在这里,作者有意保留两种解释的余地​​,因为人们既可以谈论“白色”,也可以谈论“智慧世界”。在这种情况下,注释的方式既保留了词语的机智,即对同一个词形使用两个词条,允许两种读法,这样这段话就可以在两个条目下找到——“white”或“wise”(见图4)。
Post Reply