论文解读 | 西方工业化？关于110年间（1830-1940）报纸技术话语的混合方法分析-编程实验室

标题：论文解读 | 西方工业化？关于110年间（1830-1940）报纸技术话语的混合方法分析

一、翻译全文

原标题：An Industrial West? A Mixed-Methods Analysis of Newspapers Discourses about Technology over One Hundred and Ten Years (1830-1940)

摘要

本文通过以多语言历史报纸（《费加罗报》、《纽约先驱报》、《公正报》、《新汉堡报》和《新闻报》）为代理，探索了110年间（1830-1940）的信息行为，旨在观察技术在多大程度上作为一种凝聚力贯穿西方社会。作为一项探索性研究，本文选择了三个关键技术术语（电话、汽油和铁）。随后，实施了结合定量和定性研究方法的混合方法。在定量分析中，我们使用了一个五步流程，包括主题建模（Pachinko Allocation）、主题词翻译成英语、词嵌入、Ward层次聚类和有向图。在定性分析中，我们首先从每家报纸每十年随机选择一份，以观察多语言历史报纸是否为可比较的分析对象（即其格式是否足够相似以实施有意义的话语分析）。其次，我们还随机抽取了包含所选关键术语的各种文章，以便通过细读方法评估技术的社会影响。

我们的定量数据分析揭示了三个主要发现：首先，我们检测到信息扁平化的趋势与第二次工业革命的高峰期（1890年和1900年）相吻合，以及随后几十年信息复杂化的趋势。其次，我们观察到在20世纪有更细微的共识模式，表明当时的社会和政治两极分化并未影响与技术相关的话语。第三，我们注意到在整个观察时间内，三个选定关键术语的内容相似度很高，显示出几乎相同的措辞。这些发现与我们的定性分析产生共鸣，我们在定性分析中观察到报纸格式和文章选择之间存在一定程度的异质性，但非常微妙。这些结果使我们推测，可以将技术相关话语中共享的西方声音追溯到两百年前，揭示了技术作为信息行为方面文化扁平化触发因素的能动性。

关键词：话语分析，主题建模，主题演变，科学史，社会中的科学与技术

I. 引言

当代关于技术的看法倾向于将最新的数字革命视为在以欧洲为中心的工业化社会中引发前所未有的社会变革浪潮的责任者。尽管一些作者将20世纪最后几十年置于后工业主义的标签下，且经验证明过去三十年到达社会的技术创新数量确实比有记载历史的任何时期都高，但一些作者指出19世纪最后几十年是一个时刻，当时技术发明的迅速涌入不仅在同一时期深刻改变了西方世界的社会生活，而且具有印刻长久历史和社会影响的能力，这些影响可以追溯到我们今天的时代。

第二次工业革命已从历史、经济和地理角度被广泛分析。19世纪公民关于工业革命给社会留下的深刻社会和历史变革的同期观点也受到了一些批评性关注，主要是在社会史领域。本文旨在通过分析一个尚未探索的方面来参与这些学术对话：我们旨在通过考察技术作为跨越时间和空间的信息同质化和文化扁平化的触发因素的能动性来观察技术的社会影响。我们使用多语言历史报纸作为代理。我们将信息同质化定义为数据处理中缺乏语义多样性，这是由我们借用自Fernández Fernández和Savcisens的五步流程输出的。

该流程首先对过滤后的多语言报纸语料库样本（电话、汽油和铁）使用主题建模，随后将主题建模的多语言单词翻译成英语。之后，我们使用词嵌入来检测这些单词之间的语义接近度。最后，我们实施Ward层次聚类和有向图来完成另一轮语义亲和力过滤，仅选择跨报纸非常相似的主题。数据分析中的高语义相似率可以理解为技术相关信息在我们的观察国家中被类似报道的代理。我们将文化扁平化定义为一种社会标准化过程，这是由于在我们的不同研究对象（多语言历史报纸）中对所选技术相关术语的类似同化。

Fernández Fernández和Savcisens最近的工作声称，在关于可持续性的当代新闻话语（1999-2018）中存在日益增长的信息一致性模式，以及存在清晰流动的西方声音，可以追溯到二十年前，随着接近当代变得更加明显。作者认为，西方国家的记录报纸（《泰晤士报》、《国家报》、《费加罗报》、《纽约时报国际版》、《新苏黎世报》、《新闻报》）非常相似地编码了与可持续性相关的话语，为其各自国家的多语言读者提供了高度同质化的信息。这些发现与Hermans和Chomsky等其他作者提出的观点产生共鸣，他们也定性地指出了西方媒体的同质性。

在本文中，我们寻求与这些学术对话互动，特别是与Fernández Fernández和Savcisens提出的观点互动，因为我们有兴趣探索：a）他们的发现是否仅限于可持续性相关话语，或者在广泛的技术相关话语中是否可以检测到类似的信息行为趋势；b）是否早在19世纪中叶就能注意到信息同质化的趋势，或者这是否是21世纪独有的现象。为了做到这一点，我们定量分析了历史多语言报纸记录的关于19世纪到达社会（如电话）或在这个历史时期被广泛使用（如汽油和铁）的技术创新的西方公共话语。我们旨在观察在110年（1830-1940）的时间跨度内，它们的新闻报道在时空上相似或不同的程度。我们的观察时间恰逢深刻的社会变革，这些变革加速了文化扁平化的过程（如19世纪最后几十年全球化的第一个高峰）以及激烈的社会和政治分裂（第一次和第二次世界大战，以及战间期）。

我们遵循Stearns提出的全球化定义，并同意Stearns和Robertson的提议，即理解全球化是一个渐进的历史过程。我们还认为19世纪下半叶是近代人类历史上最关键的时刻之一，恰逢第二次工业革命的高潮。19世纪下半叶也见证了现代民族的兴起。Anderson等作者讨论了新闻界作为民族凝聚力和身份构建力量的作用。在本文中，我们寻求提出不同的论点。虽然我们不同意Anderson的观点，但我们主要感兴趣的是观察关于技术创新的话语如何在新闻中被相似或不同地编码，因为我们认为历史多语言报纸是分析技术作为文化扁平化触发因素的社会影响的理想媒介。

因此，我们使用多语言历史报纸数据集作为代理。我们选择了三个技术相关术语：汽油、铁和电话，并用它们过滤我们的语料库，作为分析公共技术话语的首次探索性方法。我们选择这些术语的动机是Smil的观点，他指出这些技术是第二次工业革命不同主题部分中的重要元素。之后，我们遵循Fernández Fernández和Savcisens提出的五步流程，旨在跟踪跨国家的信息同质性与异质性率及其时间演变。该流程尽可能独立于语言和档案类型编写，并且可以轻松调整以支持更多语言和解析其他报纸。我们将较少的主题多样性解释为信息同质性的信号，并推测这种新闻话语的一致性可以被视为共享的西方声音，可能标志着存在共同的技术相关共享新闻身份。推而广之，我们认为技术可以被视为西方社会文化凝聚力的一个要素，早在19世纪下半叶就可以观察到，并且它与全球化进程和社会两极分化事件（如第一次和第二次世界大战）共存并表现得更好。

此外，我们实施定性研究方法以补充我们的定量数据分析。为了从格式角度（即报纸的版块、文章长度、字体大小或广告）评估多语言历史报纸是否为话语分析的可比较对象，我们在每十年每个出版物中随机选择一份报纸。我们还检查了从所有出版物中选择的包含我们三个关键术语的随机文章样本。我们希望定性地评估话语如何反映技术的社会影响，以便更好地理解我们的数据集，进而更好地解释我们的数据分析结果。

II. 现有技术

工业革命及其对社会的影响已受到跨学科的相当关注。现有的定性技术水平集中在世界历史、地理或经济史等主题上。此外，学术批评也广泛分析了这一时期不同国家的历史特殊性。近年来，数字人文领域通过使用计算方法分析过去，为关于工业革命的现有定性分析贡献了新的和高度创新的视角。然而，现有的工作主要使用英语资源。在“与机器共存”（Living with Machines）研究项目下，开发了各种新工具、研究文章、数据集和方法，利用维多利亚时代的英国报纸作为研究对象，深化对英国工业革命的分析。

在本文中，我们寻求与现有的学术工作进行定性和定量的跨领域对话，分析第二次工业革命。我们的主要贡献在于调查技术在19世纪和20世纪初塑造信息行为方面的能动性，特别是作为文化扁平化和信息同质化的触发因素。此外，如前所述，我们主要与Fernández Fernández和Savcisens对话。作者使用多语言报纸数据集，时间跨度为20年（1999-2018），使用我们在本文中实施的相同流程，但针对可持续性相关话语。他们的发现显示，随着我们接近当代，信息同质性趋势增加，将全球化过程与信息同质化联系起来。此外，他们还注意到整体信息一致性很高，展示了清晰的西方共同声音。我们寻求扩展他们的分析，通过使用额外110年的数据（1830-1940以补充他们的1999-2018观察时间），我们总共涵盖了近两百年的西方历史，从而有助于深化我们对技术在西方身份形成过程中历史作用的理解。

III. 语料库

我们的数据集由各种历史多语言报纸组成，包括英语（《纽约先驱报》）、法语（《费加罗报》）、德语（《新汉堡报》）、西班牙语（《公正报》）和意大利语（《新闻报》）。我们的观察时间涵盖110年（1830-1940）。在此期间，一些报纸经历了不同的所有权阶段，进而也经历了不断变化的意识形态管理。

尽管我们的语料库在范围和读者群方面呈现出一定程度的异质性，但我们认为我们选择的报纸足够相似，可以进行有意义的跨文化比较，以考察技术在观察时间内对西方国家的社会影响。我们选择这些报纸的动机主要与可用性有关。本文作者精通英语、西班牙语、法语和德语，他们的领域知识专长集中在讲这些语言的西方国家。此外，我们有兴趣选择在各国倾向于政治中心观点的报纸，这些报纸在我们的观察时间（1830-1940）内具有大量的历史可用性，且格式便于数据挖掘。

IV. 语料库质量

这些报纸的原始数据是通过使用光学字符识别（OCR）数字化原始期刊收集的。由于这种方法不可靠且经常导致错误，确定语料库质量是必要的。为此，使用了Thomas Benchetrit的OCR资格流程。它将文本质量表示为文档中被正确数字化的单词比例，这是通过检查它们是否存在于相应语言的字典中来确定的。结果记录在图2中（原文图表略）。

V. 文章拆分

每个报纸的数据以“文档”的形式提供，这些文档以不同方式收集报纸文本。对于主题建模，这种文章之间缺乏界限是有问题的。因此，需要一个将这些文档拆分为单独文章的流程。这些流程是根据经验确定的。针对不同报纸（《公正报》、《费加罗报》、《纽约先驱报》等）采用了基于换行符、大写字母频率、字体大小变化等规则的特定拆分策略。

VI. 关键词检测

为了确定我们语料库报纸中围绕不同技术的对话，文章被过滤，仅保留包含给定关键词的文章。用于过滤报纸文档的确切单词在表2中总结（汽油、电话、铁及其在各语言中的对应词）。为了简单起见，单词仅在其基本名词形式中被过滤，但也包括包含词根的单词。

VII. 方法

7.1 主题建模
本文的目标是检测不同国家随时间推移围绕技术的讨论的性质和演变。为了观察语料库报纸中的主流话语，我们首先使用主题建模作为代理对文档进行分类。
7.1.1 Pachinko Allocation Model (PAM)
使用PAM来检测文档中的主题。选择该模型是因为它能够捕获主题之间的相关性。它将词汇建模为有向无环图（DAG）的叶子，将主题建模为节点。
7.1.2 最佳参数计算
为了训练Pachinko模型，我们需要两个参数k1和k2，分别表示语料库中超级主题和子主题的数量。通过网格搜索和一致性值（cV-coherence）比较来确定最佳参数。

7.2 模型训练
为了跟踪主题随时间和报纸的演变，分别为关键词、报纸和时间跨度的每种组合训练单独的模型。流程包括按10年时间跨度拆分文章，使用Spacy检索单词的词形还原，确定最佳参数，并使用Tomotopy的Pachinko Allocation训练模型。

7.3 主题相似度
为了聚类源自不同报纸的相似主题，我们计算每对主题之间的相似度分数。首先，将每个主题向量关联的单词（来自意大利语、西班牙语、德语和法语）使用Google Translate API翻译成英语。其次，创建一个包含所有报纸和时间跨度中所有唯一英语单词的全局词汇集V。使用矩阵Γ \GammaΓ提取词嵌入。基于每个主题中N个顶部单词的平均成对余弦相似度计算主题相似度。

7.4 全局主题聚合
为了分析报纸是否在特定时间跨度内共享讨论点，我们查看主题相似度。如果多个内部主题足够相似，我们假设它们共享相似的上下文。我们使用带有Ward链接函数的层次聚类分析（HCA）将主题聚类在一起。使用轮廓方法（Silhouette method）作为聚类质量的代理来确定最佳阈值。

7.5 主题的时间演变
我们有兴趣看到主题如何随时间变化。为了检查全局主题的演变，我们查看相邻时间跨度t和t+1之间全局主题的相似度。基于平均成对余弦相似度计算相似度。如果相似度高于特定阈值（基于相似度分数累积分布的第n个分位数），我们在主题之间画出连接。基于传入和传出的箭头，全局主题的生命可以以几种方式发展：诞生、进化、分裂、合并或死亡。

VIII. 结果与讨论

应用我们的五步流程后，我们使用三个不同的指标来解释数据分析：多样化、关注度和地理。

8.1 电话
电话的观察时间涵盖1870-1930年。在多样化方面，可以观察到信息简化的明显趋势，与1890年和1900年第二次工业革命的高潮相吻合，随后在接下来的二十年中逐渐碎片化，与第一次世界大战和战间期相匹配，并在1930年代再次简化。我们观察到语义类别的变化非常小（总共七个）：法律与秩序、家政服务、娱乐、航运业、金融、教育和第一次世界大战。这种一致性表明该技术（电话）的社会影响在信息行为方面在我们的多语言报纸选择中具有相似性。

8.2 汽油
汽油在三个不同的分析标准（多样化、地理和关注度）上显示出与电话非常相似的结果。虽然观察时间更宽（1850-1930），但我们观察到1890年和1900年左右的信息简化趋势非常相似，1910-1920年左右出现碎片化，1930年再次简化。主题与电话非常相似，我们还发现了药物工业、运输和淘金热等额外主题。

8.3 铁
铁显示出与汽油非常相似的行为，在多样化、地理和关注度方面也与电话有非常相似的趋势。在多样化方面，我们注意到与汽油几乎对称的趋势：1870-1880年代左右信息碎片化，随后在1890-1900年代左右简化，以及与第一次世界大战和战间期相吻合的另一波碎片化。主题与电话非常相似，与汽油几乎相同。

IX. 局限性

由于使用计算分析大量数字化数据，获得的结果存在一些局限性。首先，OCR数字化并不完美，导致数据存在缺口。其次，文章拆分流程是实验性的，可能不完美。第三，所选技术没有相同的寿命。第四，我们的方法在分析技术相关修辞时存在局限性，因为它旨在仅选择跨国家具有最高语义相似率的单词，从而过滤掉了文化上的少数派话语。最后，报纸是商品化对象，报告特定的现实片段。

X. 报纸版块和精选文章的细读

为了更好地理解我们的数据集，我们实施了混合方法，包括对随机选择的报纸版块和包含目标关键词的文章样本进行细读分析。我们观察到报纸之间存在一定程度的异质性，但总体上相当有限。我们还注意到，随着第一次和第二次世界大战以及战间期的到来，信息两极分化日益增加。然而，我们的数据分析输出在这个时间框架内相当平坦。这证实了我们关于技术作为西方国家文化扁平化触发因素力量的假设。

XI. 结论

我们的数据分析显示了三个主要发现，这些发现在我们选择的三个关键术语中一致出现：首先，我们检测到1890年和1900年代的信息简化趋势。其次，我们观察到20世纪前二十年（1910年和1920年）的语义碎片化模式，但在汽油和铁的情况下，这一时期也观察到更高的一致率。第三，我们注意到三个关键术语之间显著的语义同质性。这些结果使我们推测，在我们观察期间，技术的社会影响在不同的欧洲中心社会的新闻话语中反映得相当同质。本文补充了现有关于技术社会影响的研究，说明了共享的西方声音可以追溯到19世纪中叶现代民族诞生的早期阶段，以及技术作为新闻话语中身份凝聚力力量的能动性，能够中和两次世界大战和战间期的两极分化影响。

二、解读

这项研究是数字人文领域的一次重要尝试，它通过混合方法（Mixed-Methods）挑战了我们对工业革命时期西方社会信息传播的传统认知。通常，我们认为19世纪末至20世纪初是一个民族主义兴起、政治冲突剧烈（包括两次世界大战）的时期，这理应导致各国媒体话语的高度分化。然而，本文的核心论点却恰恰相反：技术作为一种强大的媒介，实际上在这一时期充当了文化扁平化（Cultural Flattening）和信息同质化的催化剂。

从方法论的角度来看，该研究并未止步于简单的关键词统计，而是构建了一个复杂的五步定量分析管道。研究者首先利用Pachinko Allocation Model（PAM）进行主题建模，这是一种比传统LDA更先进的模型，因为它能捕捉主题之间的相关性。最具创新性的一点在于其处理多语言数据的策略：先建模，后翻译。研究者没有先将所有文本翻译成英语再建模（这可能会丢失原始语境的细微差别），而是先在各自语言中提取主题词，然后再将这些主题词翻译成英语进行比较。这种方法保留了原始语言的结构特征，同时实现了跨语言的语义对齐。随后引入的词嵌入（Word Embeddings）和Ward层次聚类，进一步从数学上量化了不同国家报纸在谈论“电话”、“汽油”和“铁”时的语义距离。

研究结果揭示了一个引人深思的历史现象：“工业化的西方”在话语层面实际上是一个高度整合的实体。数据显示，在1890年至1900年（第二次工业革命的高峰期），各国报纸关于技术的话语呈现出明显的“简化”和“趋同”特征。这意味着，无论是在巴黎、纽约还是汉堡，人们谈论这些技术的方式、将其关联的社会场景（如金融、政治、娱乐）是惊人一致的。即便是在政治极度对立的战争时期（1910-1940），这种技术话语的底层逻辑依然保持着某种程度的共识和连贯性。这暗示了技术本身具有一种超越国界和政治意识形态的“客观性”或“普世性”，它构建了一种共享的西方现代性体验。

然而，这种解读也必须考虑到研究的局限性，作者在文中也坦诚了这一点。历史报纸的OCR质量（尤其是哥特体德语报纸）是一个经典的数据噪音来源。更重要的是，所谓的“同质化”可能部分归因于算法本身的设计——该算法倾向于过滤掉那些独特的、低频的“少数派话语”，而保留高频的共性词汇。此外，报纸作为商业产品，其内容本身就受到市场逻辑的约束，这可能也是导致内容趋同的一个非技术性因素。尽管如此，这项研究通过将大规模计算分析与传统的文本细读（Close Reading）相结合，有力地证明了在近两百年前，技术就已经开始塑造一种跨越国界的“西方声音”，这种声音甚至比我们通常认为的全球化进程要早得多。

三、问答

1. 为什么研究者选择报纸作为分析技术社会影响的代理？
研究者选择报纸是因为在19世纪和20世纪初，报纸是主要的大众传播媒介。正如Benedict Anderson所指出的，阅读报纸是一种集体仪式，有助于构建“想象的共同体”。通过分析报纸，研究者可以捕捉到当时社会对技术创新的即时反应和主流话语，从而观察技术如何跨越国界塑造公众舆论和共享的文化身份。

2. 什么是“文化扁平化”（Cultural Flattening），它在本文中如何体现？
文化扁平化在本文中被定义为一种社会标准化过程，即不同国家和文化对特定技术术语（如电话、汽油）表现出相似的理解和同化方式。在数据分析中，这体现为不同国家的报纸在讨论这些技术时，使用了高度相似的语义结构和主题词，表明技术作为一种力量，削弱了地域文化的差异性，促进了信息的同质化。

3. 为什么研究选择了“电话”、“汽油”和“铁”这三个特定的关键词？
这三个词被选为第二次工业革命的代表性技术。根据Smil的分类，它们分别代表了通信与信息（电话）、内燃机与能源（汽油）以及新材料（铁）。这些技术在观察期内被广泛使用且具有深远的社会影响，因此是分析技术如何作为跨文化凝聚力因素的理想案例。

4. 请简述本研究使用的五步定量分析流程。
该流程包括：(1)主题建模：使用Pachinko Allocation Model (PAM) 对过滤后的文章进行主题提取；(2)翻译：将提取出的多语言主题词翻译成英语；(3)词嵌入：使用词嵌入技术检测翻译后单词之间的语义接近度；(4)层次聚类：使用Ward方法对主题进行聚类；(5)有向图：构建有向图来展示主题随时间的演变和关联。

5. 为什么选择Pachinko Allocation Model (PAM) 而不是其他主题模型？
研究者选择PAM是因为它能够捕捉主题之间的相关性（Correlations）。PAM将词汇建模为有向无环图的叶子，主题为节点，能够表示超级主题（Super-topics）和子主题（Sub-topics）之间的层级关系。相比于假设主题间相互独立的传统模型（如LDA），PAM更适合捕捉复杂话语中的细微联系和结构。

6. 研究如何解决多语言数据处理的难题？
研究采用了一种“后翻译”策略。它首先在每种语言的原始文本上分别训练主题模型，提取出最具代表性的主题词（Lemmas）。然后，利用Google Translate API将这些多语言的主题词统一翻译成英语。通过这种方式，研究者既保留了原始语言的统计特征，又在英语这一通用语义空间中实现了跨语言的主题比较和聚类。

7. 所谓“共享的西方声音”具体指什么？
“共享的西方声音”是指在分析结果中观察到的、跨越不同国家报纸的高度一致的话语模式。尽管这些报纸来自政治立场和文化背景各异的国家（如法国、德国、美国），但在涉及技术话题时，它们倾向于使用非常相似的词汇、语义框架和叙事逻辑（如将技术与金融、政治、娱乐联系起来）。这表明存在一种超越国界的、共同的西方新闻身份和技术认知。

8. 第一次和第二次世界大战对技术话语有何影响？
数据分析显示，在战争期间（1910-1940年），虽然信息呈现出碎片化和复杂化的趋势（即主题数量增加），但在不同国家的报纸之间，关于技术的话语仍然保持了惊人的高一致性。这意味着，尽管政治上存在极端的两极分化和敌对，但技术作为一种社会存在，其在媒体中的呈现方式并未受到根本性的割裂，反而显示出一种跨越战线的共识。

9. 这项研究的主要局限性是什么？
主要局限性包括：(1) OCR质量问题，特别是旧报纸的识别错误导致数据缺失；(2) 文章拆分算法不够完美，可能导致主题建模的混淆；(3) 算法本身的设计倾向于过滤掉独特的“少数派话语”，可能人为放大了同质性结果；(4) 报纸作为商业产品的属性本身就带有一定的格式化倾向；(5) 语料库存在时间上的缺口，并非所有年份的数据都完整。

10. 定性分析如何补充了定量分析的发现？
定量分析虽然能处理大规模数据并揭示宏观趋势，但可能忽略细微差别。定性分析通过细读随机抽取的报纸版块和文章，确认了报纸在格式上的相似性（如都包含广告、连载小说等），同时也揭示了内容在战争期间的政治极化。定性分析发现，技术通常被嵌入在更广泛的叙事中（如作为冒险故事的一部分或出现在广告中），这种具体的语境化理解验证了定量分析中得出的“语义同质性”结论并非算法伪影，而是真实存在的社会现象。