优惠论坛
标题:
AI「解码」古罗马,重现千年铭文真相,DeepMind新模型再登Nature
[打印本页]
作者:
whywhy
时间:
2025-8-29 13:44
标题:
AI「解码」古罗马,重现千年铭文真相,DeepMind新模型再登Nature
爱在西元前的歌词里唱到:「当古文明只剩下难解的语言,传说就成了永垂不朽的诗篇。」如今借助DeepMind推出的生成式AI工具Aeneas,考古学家面对古代碑文不再抓瞎了。Aeneas原本是古希腊神话中流浪英雄。
7 C- \4 z9 V9 O: Z
出现在7月24日Nature主刊的Aeneas则是一个多模态生成式神经网络,它能帮助历史学家更好地解读、归属和修复残缺文本。
5 p6 \; j9 W a( q% b l
想象考古学家在欧洲发现了一块刻有古代文字的铭文,文本残缺不全、部分文字被风化或被故意破坏。
$ |7 I4 o* ^6 P/ T, f4 S) a
也没有语境信息,这使得恢复、确定年代和定位这块铭文的出处变得几乎是不可能的,尤其是在比较相似的铭文时。
1 p. V3 J# T! m i u( m4 D, c
考虑到在罗马世界,文字无处不在——从帝国纪念碑到日常用品,无不刻有文字。从ZZ涂鸦、爱情诗篇和墓志铭,到商业交易、生日邀请和魔法咒语。
& N1 f7 X0 a9 q1 A' p# D. W
图1 由Aeneas修复的,公元113/14年来自萨丁岛的青铜军事命令,由皇帝Trajan授予一艘战船上的水手
v2 C |# h8 U! m. F3 _, W
这些铭文为现代历史学家提供了丰富的见解,揭示了罗马世界日常生活的多样性。
) k' h7 Q( r% w( y6 n7 l5 G9 S! D, J
但也增加了考古工作的难度,考古学家需要依赖其专业知识检索自身积累的数据库,方可识别相似文本——这些文本在措辞、句法、标准化公式或来源方面具有相似性。
+ |! C2 K$ H, Y
然而检索相似的信息,为文章确定上下文,不就是生成模型适合的活吗?
1 F. B' V% y1 N {$ S% }8 ]0 h; J
于是Aeneas出现了,它能够跨越数千份拉丁铭文进行推理,在几秒钟内检索出文本和语境相似文本,这样的加速度,让考古学家从检索文本这项复杂且耗时的工作中解脱出来。
# [ \" x2 T1 n. M' z
如今他们能快速地拿到对古代铭文的解释,并基于模型的发现进行进一步研究。
% F% m6 Z8 i' Y% h* l; D# v5 z2 {/ A
图2 Aeneas的使用界面
5 ]4 W/ g( G: @: ~) {- H: p8 m
Aeneas的丰富功能
# y. Z2 Z# @2 h+ D5 i: y9 ~; ^
在Aeneas出现之前,2022年Deepmind推出了Ithaca,这是一个基于深度神经网络预测古希腊铭文年代,并补全缺失文本的工具。
8 e$ \( L: D4 ]" _$ l6 l- }
Aeneas则更进一步,它能帮助历史学家解读文本,通过提供上下文,赋予孤立片段意义,从而得出更丰富的结论,并整合对古代历史的更好理解。
3 |1 h. b r$ D$ d& J# e2 W
具体来看,它在庞大的拉丁铭文集合中搜索平行文本。通过将每个文本转化为一种历史指纹,Aeneas可识别出文本间的深层联系。
" W% G# T5 n/ N( V. @
在年代和出处预测方面,Aeneas能够将文本置于历史学家提供的日期范围内13年内,以72%的准确率将铭文归入62个古代罗马行省之一。
6 G& X& Z. @6 q& s7 z
作为首个利用多模态输入确定文本地理来源的模型。它可同时分析文本和视觉信息,例如铭文图像。
; n9 r. @& Z, d0 Z; ]! n
不同于只能预测单个词的Ithaca,Aeneas够修复文本中缺失长度未知的段落。
& b! q% S6 X4 K/ D7 |2 @! B
Aeneas能以73%的准确率修复最多十个字符缺失的损坏铭文。当修复长度未知时,准确率也会有58%。
8 w$ y y7 P* m+ d: W- x% i
这使得它成为处理严重损坏材料的史学家的更通用的工具。
9 D8 |5 P$ n' G* X& m0 r4 U
Aeneas不仅适用于铭文,还可以适应其他古代语言、文字和媒介,从莎草纸到硬币,扩展其功能以帮助连接更广泛的历史证据。
( X. U! r0 l" V6 A5 _3 z- r
想试用Aeneas的可登录predictingthepast.com,以交互式使用。
: b" ^! I/ Y2 _7 E
作为开源软件,天朝的考古学家也可以调整Aeneas,让Aeneas能够用于解读诸如西夏文,契丹文等失传的天朝古迹。
9 I. a' A2 X: E4 ?5 M* y, S; D9 |0 `
工作原理和典型案例
" W: V+ Z. W) J
为了训练Aeneas,Deepmind的研究者精心策划了一个庞大且可靠的数据集,借鉴了数十年来历史学家的工作成果来创建数据集,其中包括了古希腊和罗马时代铭文的文本和图像。
% \' K, e) n# T; U6 D: a9 q8 [
Aeneas使用了NLP领域的大杀器transformer来处理碑文文本输入,并通过解码器检索相似的碑文,并按相关性排序。
1 _ {/ t% k% r- D6 G0 T3 g
对于每块铭文,Aeneas的语境化机制使用一种称为嵌入的技术检索一系列相似物——将每块铭文的文本和语境信息编码成一种包含文本内容、语言、来源时间地点以及与其他碑文关联性的历史指纹。
$ {- o K" q7 D+ Z" C+ {' _4 t% ?
图3 Aeneas的架构,展示该模型如何接收文本和图像输入以生成省份、日期和修复预测
4 p+ L/ @! A! T1 ?6 i% u( {
接下来看Aeneas解析古代文本的一个典型例子。
% I: V) O- \0 z r/ @6 e7 h, ]
古罗马皇帝奥古斯都以第一人称成就记述《功业记》,这是古罗马历史中一块著名的石碑,这份铭文由奥古斯都亲自撰写、是其自我夸耀的终身成就的总结。
, v/ h; i3 _$ l {) w7 x0 _
文本中出现了对帝国夸张的描述、无关的日期和虚假的地理标志,而且学界对其撰写的时间也存在争议。
- L/ {7 \' D3 b7 X( S4 f
历史学家们长期以来一直争论这块铭文的年代。Aeneas将所有碑文的模糊年代和来源特征进行语境化分析。
! F; C2 ^: y/ P3 I( O# I6 U
它捕捉到了拼写和词汇的线索,以及表明微妙ZZ意识形态和帝国归属的语言学细微差别。
2 L: e. O c, G3 W j8 C7 T
其预测基于文本中提到的微妙语言特征和历史标志,如官方头衔和纪念碑。
# d6 a$ `+ k _
通过将年代问题转化为基于语言和上下文数据的概率估计。
3 z: K/ i4 b$ a
有趣的是Aeneas并没有预测一个固定的日期,而是产生了一个可能的日期分布的详细情况,如图4所示。
' N0 B2 |6 R1 X" P2 [
其预测呈现两个明显的峰值,一个较小的峰值出现在公元前10-1年左右,一个较大的、更自信的峰值在公元10-20 年之间。
, D: m* Q7 B5 `. P
这些结果说明Aeneas给出的预测是谨慎的,其反映了当前学者们意见的差异。
& U3 `* _7 u5 ]: ?+ N2 `0 G
给出了两个可能的日期范围,而不是单一的预测,反而说明了Aeneas能够历史辩论提供了一种新的、定量的方法。
% g: o, S* R- x2 R; l
图4 Aeneas对《功业记》年代归属预测的直方图,该模型模拟了围绕这一著名碑文年代测定所展开的学术辩论
0 F3 Q: M M3 g, y6 s
近期,有不少将AI技术应用于考古领域的尝试,从为无名老兵做面部复原,到博物馆里对古人构建数字虚拟替身,AI在考古及历史领域的应用值得关注。
9 f% f' `/ J( Y" H2 L3 X4 N% U! k
去年复旦大学更是开设了「AI考古」的课程,华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)也曾推出的专注于古籍文言文处理的通古大模型。
5 q' Y5 D% E1 D8 w1 }! M5 T- @$ c. K% Q) C
面对天朝浩如烟海的古籍古碑,未来的考古学家,或许更需要像Aeneas这样的工具,来从海量数据中淘金。
Z( y8 t/ o2 a# q9 m! _+ D
参考资料
1 k( p1 n: i; {) \! |) }& t- q
. Q2 Y( i2 ^7 m' ^' `7 b
8 I# n6 l9 j j* k- V8 `
0 G6 [, c0 l$ C4 T/ Y
本文来自微信公众号“新智元”,作者:peter东 英智,36氪经授权发布。
/ H8 [3 p( G6 T0 q
作者:
垂钓园
时间:
2025-8-29 16:01
DeepMind新模型Aeneas像翻牌一样帮考古学家解码古文,让我们看到了罗马世界的生动画面。
作者:
百战
时间:
2025-8-29 16:10
此次方法在论坛的运气还是值得肯定的.
作者:
一路顺风
时间:
2025-8-29 16:18
方法最后一段话觉得是很有道理的,但是在我面前就难以实现,毕竟自己的运气太差了。
作者:
洋森
时间:
2025-8-29 16:23
每个方法也是值得去看看了解下的啦。
作者:
不傻不成气候
时间:
2025-8-29 16:30
此次方法能赢钱一天的生活费我也满足了。
作者:
大吉大利
时间:
2025-8-29 16:33
这个方法能自己好好掌握,也是超级好的。
作者:
wuzhaoshichao
时间:
2025-8-29 16:38
这一个这次方法也的确很不错的胜利来的啊
作者:
朱古力
时间:
2025-8-29 16:44
其实每一种方法的吧~这个也是关注一下了
作者:
知行合一
时间:
2025-8-29 16:46
看到这个方法我感到也是必定学习起来了的哦。
作者:
小梦
时间:
2025-8-29 16:48
使用这个方法有赢钱是最容易的结果了呀。
作者:
不洗脸都帅
时间:
2025-8-29 17:00
有盈利的时候就该撤,全部方法长玩就是回不了头
作者:
rainwang
时间:
2025-8-29 18:02
无论是什么东西的新模型啊,我们都用不上的
作者:
韩少
时间:
2025-8-30 08:53
看到这个ai真的是无所不能把这些铭文都解析
作者:
舞出精彩
时间:
2025-8-30 11:51
解码的这些到底是有什么了
作者:
whywhy
时间:
2025-8-30 12:56
DeepMind的新模型Aeneas,真是考古学家的神助攻啊!
作者:
22301
时间:
2025-8-30 13:13
也是不能错过了解下的了啊。
作者:
爬格子的瘦书生
时间:
2025-8-30 18:21
这些东西我倒是一窍不通了
作者:
whywhy
时间:
2025-8-30 20:01
这Aeneas简直就是考古学家的神助攻,古罗马铭文瞬间重现,太牛了!
作者:
爱美的女人
时间:
2025-8-30 21:58
新模型的话还是要在去了解了
作者:
德罗星
时间:
2025-9-3 10:40
古罗马方面继续看了的啊。
作者:
g9527
时间:
2025-9-4 01:04
这AI牛逼啊,以后破译古文字跟开挂一样,考古学家要失业咯
欢迎光临 优惠论坛 (https://tcelue.cc/)
Powered by Discuz! X3.1