答辩结束后
写在前面 这下是真的很久没有写文章了,甚至找这个博客的仓库都找了很久。 不好说最近有没有在认真生活,但是最近确实有在认真养小猫! 关于毕业 我个人觉得有一点艰难的,还是走到了毕业这一步,在三月初的时候完成了正式答辩、提交了归档的论文,然后和讨厌的大论文暂时告别(并且希望以后永远不要相见)。比较符合预料的是,正式答辩的确是走形式偏多一些的,在预答辩尖锐的评委老师在正式答辩常常保持沉...
写在前面 这下是真的很久没有写文章了,甚至找这个博客的仓库都找了很久。 不好说最近有没有在认真生活,但是最近确实有在认真养小猫! 关于毕业 我个人觉得有一点艰难的,还是走到了毕业这一步,在三月初的时候完成了正式答辩、提交了归档的论文,然后和讨厌的大论文暂时告别(并且希望以后永远不要相见)。比较符合预料的是,正式答辩的确是走形式偏多一些的,在预答辩尖锐的评委老师在正式答辩常常保持沉...
本文的主要动机来源于,发现多语言的背景下,LMs会表现出语言偏差,例如使用意大利语,会倾向于将意大利预测为原产国。 例如上图,可以看到语言的倾向是很大的,会对预测结果产生较大的影响,本文针对这个问题,利用mBERT做了以下问题探究: mBERT可以作为多语言知识库,大多数先前的工作只考虑了英语,将研究语言扩展到不同语言同样重要 利用英语数据集的翻译,探究mBERT的性能和语...
主要思路 ICL学习很强,但是想将ICL学习直接应用于LLM上不太好,可以通过引入一个intermediate traing stage来提升模型的ICL表现,因此作者设计了四种中间训练阶段来辅助ICL学习。 Methods 定义输入输出实例 对于每一个input-output pair对,使用两个特殊标记附着在原有的文本前,其中两个文本也由<\newline>这样的特殊...
In-context Learning(上下文表征学习) ICL本身 ICL在LLMs时代非常有用,可以用来评判大语言模型。 简单来说,ICL允许在大模型当中应用一些简单的例子来进行上下文学习,即可以从上下文当中的几个示例来学习,其中,在数学推理(主要应用了CoT)等问题上的能力已经得到了验证。 具体来说,ICL的作用就是给出一些示例,直接丢给大模型,让他去根据其中的潜在模式来给出回...
写在前面 最近身边有很多人都毕业了,自升学以来,我常常都会有孤独的感觉,除了47,我的大部分,或者说几乎所有的本科的朋友都已经不在同济了,虽然现在的生活也不能说不好,无论是宿舍还是实验室还是课题组的氛围。但是在逛超市的时候总是能想到当初封校的前一天,宿舍一起在小卖铺搬成箱的冰红茶,补办的毕业典礼我也没有去,因为没有什么值得合照的机会,看到大家的合照又会想起宿舍分别的前一天晚上。之前的生活常...
写在前面 找到了一些努力的方向,希望自己能尽快发现科研的乐趣! Probing Pre-Trained Language Models for Cross-Cultural Differences in Values 摘要 提出在多语言下的多文化问题,尝试捕捉跨文化的价值观。将Hofstede文化维度理论和世界价值调查应用到了大规模语言模型的文化差异的评估上。 13种语言,13...
参考文章:A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models 写在前面的前面 新年快乐,这段时间需要加油啦! 可控文本生成是现在产生的一个比较新颖的方向,其主要的建模目标在于,将我们给出的条件或者称之为属性放入我们的输入当中,从而建模$P(Y\mid...
原文链接:SeqDiffuSeq, Text Diffusion with Encoder-Decoder Transformers 时代在进步,社会在发展,美国老师将会在组会上审判我.jpg Abstract 暂且先在这里停一下,先做一些综述性质的工作。
原文链接:DiffuSeq, Sequence to Sequence Text Generation with Diffusion Models 再不好好看论文就要被chatGPT杀掉了.png Abstract 扩散模型渐渐成为了生成模型当中的一种新的范式,尽管成功目前看来仅仅体现在连续域上,例如音频或者视频方面,但是我们给出了DiffuSeq——来尝试解决Seq2Seq的文本...
最近在忙些什么呢,我也说不太清楚。上个周末去了浦东,和47一起去帮支付宝大厦的人验题,说是验题,其实是去实际上做了一遍类似kaggle的竞赛题,但是因为自己的本领实在是太差了x,也没打过类似的算法竞赛,其实实际上感觉学习的时间远远大于做题的时间。对于题目的理解也仅仅停留在了,啊,我要做一个特征,我要把这些提取出来的特征丢进一个模型,我还得看看模型的结果是什么( 因此虽然是去测试题目的,实际...