Independent Science + Technology

Category: transformer-efficiency

Multi-Token Prediction: Architecture for Memory-Efficient LLM Training

Post date June 3, 2025
Post author By Large Models (dot tech)
Post categories In ai-performance, inference-optimization, language-model-architecture, llm-training, memory-utilization, multi-token-prediction, self-speculative-decoding, transformer-efficiency

Simplifying Transformer Blocks: Implementation Details

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Simplifying Transformer Blocks: Additional Experiments

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Simplifying Transformer Blocks: Block Layouts

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

A Duality Between Downweighted Residual and Restricting Updates In Linear Layers

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Simplifying Transformer Models for Faster Training and Better Performance

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Improving Training Stability in Deep Transformers: Pre-LN vs. Post-LN Blocks

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Simplifying Transformer Blocks: Related Work

Post date June 19, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In deep-learning, deep-transformers, neural-network-architecture, neural-network-efficiency, signal-propagation-theory, simplified-transformer-blocks, transformer-architecture, transformer-efficiency

Nothing left to load.