各位见知的小伙伴们大家过年好呀,新年第一期的巡山报告又和大家见面了。本期巡山报告给大家带来AI在修图以及辅助古文字破译上的应用。(多图预警,预计阅读时长 3 + 7 分钟)
一、大面积缺失图像的AI修复
节假日打卡热门景点,你是否苦于拍的照片总有路人乱入。三星实验室主导的这份研究或许在不久的将来就能帮助解决这一问题。让你无需掌握PS技术,一秒消除乱入的路人,还你纯净美景。
AI图像修复已经不是一个新名词了,然而现存的算法常常受制于图像大面积缺失、复杂的几何结构和高分辨率问题。研究人员针对这些问题,分析得出主要原因之一是修复网络和损失函数都缺乏有效的感受野,LaMa(large mask inpainting)应运而生。
相比于传统方法,LaMa具有:
- 基于快速傅里叶卷积的大感受野架构
- 高感受野感知损失
- 较大的训练mask
实验结果表明,该修复网络在一系列数据集相较于其他热门图像修复算法均有提升,尤其对于预测具有周期性结构的图像。该模型还出乎意料地适用于高的分辨率图像,并以比基线更低的参数和计算成本实现了这一点。
国外网友的试用反馈也非常正面。
结果均为实时处理,非常快速
小编的测试结果也是非常amazing。虽然部分处理后的图像看起来会留下阴影,但已经让不会PS技术的小编非常满意了。真是万分期待它集成到修图软件 / 手机相机的那天。
二. 辅助识别古文字
不知道大家有没有好奇过斯巴达王后海伦和特洛伊王子帕里斯是用什么语言互诉衷肠;这件事又是如何激起了一场足以毁灭文明的特洛伊战争的呢?
考古学家早年在希腊克里特岛附近发现的迈锡尼文明时期*(公元前2000-前1150)的陶板可能就记录了相关信息,学界将这一文字系统称为线性文字B。但如何解读它们却困扰了历史和语言学家相当长的时间。(*荷马史诗所描绘的特洛伊战争所属的年代,大体对应中国殷商时期)
出土的线形文字B陶板
对于文字解读而言,我们大致可以将其分为三类:第一类用未知符号记录已知语言,第二类用已知符号记录未知语言,第三类用未知符号记录未知语言。前两类难度明显小于第三类。而不幸的是,线性文字B发现时恰属于第三类,并且该文字也没有发现罗塞塔石碑这样的多语对照文本用以研究。
电影《降临》中外星人企图和人类交流所用的文字就属于第三类。
经过整理出土的样本,研究人员发现线性文字B为一种表音字符 + 象形字符辅助表意的文字系统。大家可以回忆下小时候用拼音和绘图 / Emoji写的短文。
表意字符
表音字符
研究人员同时注意到出土的文字中有一些特定的字符组反复出现,每次出现时仅末尾字符不同。语言学家由此推断该语言体系中的词语会因人称语态的不同而对词尾进行改变。类似英语中的 I enjoy / He enjoys (Chinese New Year)。同时为了解释下图中形式3的存在,推测线性文字B中一个字符可能代表两个音。
线性文字B中单词的变体
通过长期的分析研究,学者们整理出了一张共计10个字符,标记哪些字符共享一个音节的映射关系表。然而我们仍然无从得知该音节对应已知哪个语系中的哪个音。并且由于没有任何的双语对照文本,传统的古文字破解方法至此似乎已经走到了尽头。
破译后的表音字符与元音/辅音映射关系
似乎是冥冥之中,奥林匹亚众神不愿自己的语言就此被历史的尘埃掩埋。在众多线性文字B的研究者中,迈克尔•文特里斯(Michael Ventris)敏锐地注意到有三个元音开头的词语出现的频率非常之高,他大胆地将其与希腊语中元音开头的克里特岛附近重要地名进行匹配,并奇迹般地获得了成功。线性文字B的破译工作由此完结。然而此时距离亚瑟•伊文思(Arthur John Evans)第一次发现该语言体系已经过去了整整53年,早期参与线性文字B破译的众多专家直到离世也没有等到它重见天日的那天。
根据发音,希腊语/现代英语对线形文字B的解读
好消息是随着近些年AI技术的发展,研究人员有望省去大量时间找寻古代文字和现代文字匹配的桥梁。针对提取到的表音字符如何匹配已知语系的表音字符这一问题,MIT和谷歌的AI实验室(Luo,Cao,Barzilay)基于罗曼语族单词位置和句子结构的相似性,给出了一套鲁棒的建模方法。
罗曼语系结构相似性(知乎用户@拉队短)
研究组设计了一个基于字符的带Attention机制的Encoder-Decoder模型,其中解编码器都由LSTM模型构成,并且基于编辑距离(edit distance)设计了正则化项和惩罚函数来保证字符的单调重写(monotonic rewriting)。至此得到了一份未知语言和已知语言字符级别对齐后的对应关系(更多关于Attention模型可以阅读底部参考文章)。
研究组借助最小流方法在两种语言之间确定同源词对(变化最小的最可能同源),同时通过样本中同源词的多少衡量语言系统间的同源性。使研究员可以进一步选择同源性高的语言系统作为合理的破解结果,并进行进一步的研究。
对于线性文字B,研究组考虑到该语言系统为表音系统,且一个字符通常和两个希腊字符对应,变更正则化项由 Omega1为 Omega2。(将古文字匹配到第二个音符的惩罚,变为对第三个音符的惩罚。实际增加了匹配到第二个字符的可能性。同时表明实际操作中模型非常灵活)模型在无噪声条件下准确率高达84.7%,在有噪声条件下达到67.3%的准确度。(噪声定义:已知语言词汇样本和未知语言词汇样本并不一一对应)
期待有更多的AI算法能更好地辅助历史和语言学家拨开历史的迷雾,理解人类的祖先和文化起源。
【1】Attention模型
https://blog.csdn.net/malefactor/article/details/50550211
【2】线性文字B的破译之路https://www.bilibili.com/video/BV1mV411i7ye?from=search&seid=2294725687699954090&spm_id_from=333.337.0.0
【3】AI识别古文字论文地址
https://arxiv.org/abs/1906.06718
【4】对大面积缺失的AI图像修复论文
https://arxiv.org/abs/2109.07161
【5】在线体验AI图像修复(需科学上网)
https://cleanup.pictures/