The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics

\ Figure 4: Vanilla Transformers trained on the 2M Question-Formation dataset following the settings in (Murty et al., 2023). The training losses stabilize at a value of approximately 1, which corroborates the result presented in Proposition 4.

:::info Authors:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Bo Bai baibo (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Wei Han (harvey.hanwei@huawei.com).

:::

:::info This paper is available on arxiv under CC BY-NC-ND 4.0 DEED license.

:::

This content originally appeared on HackerNoon and was authored by Reinforcement Technology Advancements

Print Share Comment Cite Upload Translate Updates

APA

Reinforcement Technology Advancements | Sciencx (2025-06-21T17:45:07+00:00) The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics. Retrieved from https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/

MLA

" » The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics." Reinforcement Technology Advancements | Sciencx - Saturday June 21, 2025, https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/

HARVARD

Reinforcement Technology Advancements | Sciencx Saturday June 21, 2025 » The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics., viewed ,<https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/>

VANCOUVER

Reinforcement Technology Advancements | Sciencx - » The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics. [Internet]. [Accessed ]. Available from: https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/

CHICAGO

" » The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics." Reinforcement Technology Advancements | Sciencx - Accessed . https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/

IEEE

" » The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics." Reinforcement Technology Advancements | Sciencx [Online]. Available: https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/. [Accessed: ]

rf:citation

» The Impact of Data Size on Transformer Training: Overfitting & Loss Dynamics | Reinforcement Technology Advancements | Sciencx | https://www.scien.cx/2025/06/21/the-impact-of-data-size-on-transformer-training-overfitting-loss-dynamics/ |

Please log in to upload a file.

There are no updates yet.
Click the Upload button above to add an update.

You must be logged in to translate posts. Please log in or register.

Table of Links

6.2 Training GPT-2

Related Posts