首页
LJL'Blog
取消

Multilingual LAMA, Investigating Knowledge in Multilingual Pretrained Language Models

本文的主要动机来源于,发现多语言的背景下,LMs会表现出语言偏差,例如使用意大利语,会倾向于将意大利预测为原产国。 例如上图,可以看到语言的倾向是很大的,会对预测结果产生较大的影响,本文针对这个问题,利用mBERT做了以下问题探究: mBERT可以作为多语言知识库,大多数先前的工作只考虑了英语,将研究语言扩展到不同语言同样重要 利用英语数据集的翻译,探究mBERT的性能和语...

Improving In-Context Few-Shot Learning via Self-Supervised Training

主要思路 ICL学习很强,但是想将ICL学习直接应用于LLM上不太好,可以通过引入一个intermediate traing stage来提升模型的ICL表现,因此作者设计了四种中间训练阶段来辅助ICL学习。 Methods 定义输入输出实例 对于每一个input-output pair对,使用两个特殊标记附着在原有的文本前,其中两个文本也由<\newline>这样的特殊...

A Survey on In-context Learning

In-context Learning(上下文表征学习) ICL本身 ICL在LLMs时代非常有用,可以用来评判大语言模型。 简单来说,ICL允许在大模型当中应用一些简单的例子来进行上下文学习,即可以从上下文当中的几个示例来学习,其中,在数学推理(主要应用了CoT)等问题上的能力已经得到了验证。 具体来说,ICL的作用就是给出一些示例,直接丢给大模型,让他去根据其中的潜在模式来给出回...

GPT类的大模型的QA问答相关文献整理

写在前面 最近身边有很多人都毕业了,自升学以来,我常常都会有孤独的感觉,除了47,我的大部分,或者说几乎所有的本科的朋友都已经不在同济了,虽然现在的生活也不能说不好,无论是宿舍还是实验室还是课题组的氛围。但是在逛超市的时候总是能想到当初封校的前一天,宿舍一起在小卖铺搬成箱的冰红茶,补办的毕业典礼我也没有去,因为没有什么值得合照的机会,看到大家的合照又会想起宿舍分别的前一天晚上。之前的生活常...

一些有关跨文化差异的文献简单总结

写在前面 找到了一些努力的方向,希望自己能尽快发现科研的乐趣! Probing Pre-Trained Language Models for Cross-Cultural Differences in Values 摘要 提出在多语言下的多文化问题,尝试捕捉跨文化的价值观。将Hofstede文化维度理论和世界价值调查应用到了大规模语言模型的文化差异的评估上。 13种语言,13...

A Survey of CTG

参考文章:A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models 写在前面的前面 新年快乐,这段时间需要加油啦! 可控文本生成是现在产生的一个比较新颖的方向,其主要的建模目标在于,将我们给出的条件或者称之为属性放入我们的输入当中,从而建模$P(Y\mid...

SeqDiffuSeq, Text Diffusion with Encoder-Decoder Transformers

原文链接:SeqDiffuSeq, Text Diffusion with Encoder-Decoder Transformers 时代在进步,社会在发展,美国老师将会在组会上审判我.jpg Abstract 暂且先在这里停一下,先做一些综述性质的工作。

DiffuSeq, Sequence to Sequence Text Generation with Diffusion Models

原文链接:DiffuSeq, Sequence to Sequence Text Generation with Diffusion Models 再不好好看论文就要被chatGPT杀掉了.png Abstract 扩散模型渐渐成为了生成模型当中的一种新的范式,尽管成功目前看来仅仅体现在连续域上,例如音频或者视频方面,但是我们给出了DiffuSeq——来尝试解决Seq2Seq的文本...

年更博主今天上新啦

最近在忙些什么呢,我也说不太清楚。上个周末去了浦东,和47一起去帮支付宝大厦的人验题,说是验题,其实是去实际上做了一遍类似kaggle的竞赛题,但是因为自己的本领实在是太差了x,也没打过类似的算法竞赛,其实实际上感觉学习的时间远远大于做题的时间。对于题目的理解也仅仅停留在了,啊,我要做一个特征,我要把这些提取出来的特征丢进一个模型,我还得看看模型的结果是什么( 因此虽然是去测试题目的,实际...

最近有一些压力

又是好久的一段时间了,这段时间又没怎么去写博客,感觉用起来这个东西都生疏了好多,似乎也好久没写markdown了(bushi 这段时间是常常能够感觉到有一些压力的,其实压力也是一直都存在的,只是这段时间感觉压力被具象化,转移到了具体而明确的事情上来了。虽然xsq说不能因为看到组会就产生其他人都会很多,自己什么都不会的联想,王老师也说我肯定是有自己擅长的事情的,不过还是感觉自己会的事情实在是...