陈树的博客
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(二):实验报告States 论文阅读报告

前言第一部分的实验还是挺多的,也是一个熟悉微调大模型的好机会,总之先开始吧 正文第一个实验:用无TTT结构的微调模型跑实验具体参数:模型:llama3-8B(微调版本)数据:419个问题(来自ARC和增强数据)设备:A100-pcie-40gb操作步骤 首先用作者给出的微调模型跑一下实验 记录实验结果 实验结果 第一次: 第二次:这里贴一下对于400和419的理解: 关于 419 来源及含义:
2024-12-10
#TTT

Learning to Learn at Test Time --- RNNs with Expressive Hidden States 论文阅读报告

前言这篇文章也是和TTT相关的(虽然是rnn),我看完一遍之后的感觉就是–类似于上次看的CV领域的那一篇TTT结构的方法–本质上就是用一个辅助模型来帮助主模型处理一些训练集里没有的东西,同时,辅助模型的训练方式也都是自监督学习,在cv里用图像翻转,在nlp里就当然使用字符串遮盖预测了,总之 ,文章链接:https://arxiv.org/pdf/2407.04620 正文作者想要解决的局限:RNN
2024-12-10
#TTT

A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models 论文阅读笔记

前言其实和TTT没啥关系,但是还是看,反正我时间很多(链接:https://arxiv.org/pdf/2411.19477) 正文个人初步总结这篇论文实际上就是提出了一套流程,在没有提出新的模型架构的情况下用新的计算流程让整个系统准确率能更高,但是有一定的要求(解决问题的LLM一定要能给出正确的答案,如果给出正确答案的概率是0也白搭),然后作者从数学原理上证明了他这套系统在一定情况下能把错误率减
2024-12-05
#TTT

Test-Time Training with Self-Supervision for Generalization under Distribution Shifts 论文阅读报告

前言因为最近都在看TTT相关的文章,所以继续看,这篇的来源是之前看的论文的(放一下链接:https://proceedings.mlr.press/v119/sun20b/sun20b.pdf ) 正文刚看完开头,没想到是在CV领域的一篇论文,果然这种结构其实都是可以通用的吗,虽然和llm没关系但是还是继续看,反正我时间很多(大概 动机作者是怎么想到这个办法的?为什么会想到这个办法,或许这个问题有
2024-12-04
#TTT

COMBINING INDUCTION AND TRANSDUCTION FOR ABSTRACT REASONING 论文阅读报告

前言这是我最近阅读的第二篇TTT相关的论文(论文链接:https://arxiv.org/abs/2411.02272 ),这篇论文提到的方法在上一篇论文里也用到过,所以读一遍,但是有一点不同,我现在认为从头到尾注解式的讲一遍没有自己的思考,不是真正的阅读,所以我这一篇的行文格式会不太一样。我会先自己把论文认真看一遍,然后把自己的想法按照自己的思路写一遍,这样或许会更有收获?尽管这样的话,行文的顺
2024-12-04
#TTT

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(一):论文通读部分

​一,前言复现一篇论文肯定是要先把这个论文理解到位,先贴一下论文的链接:https://ekinakyurek.github.io/papers/ttt.pdf 然后这是我第一次复现论文,我也不知道报告要怎么写,但是因为我白天实习上班,所以只能看论文写写博客,这样的话就会写的很细,因为我有很多时间写这个( 二,正文摘要部分首先是看论文的摘要部分: 简单来说,就是说语言模型在很多训练集相关的问题上有
2024-12-02

搜索

Hexo Fluid
总访问量 次 总访客数 次