Independent Science + Technology

Category: language-model-optimization

Conducting a Qualitative Analysis by Comparing the Outputs of Our Think-and-Execute Framework

Post date March 25, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute, think-and-execute-framework

Generated Pseudocode Prompts During Our Think-And-Execute Experiment

Post date March 22, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-framework

Generated Analyses: Dyck Languages, Geometric Shapes, and More

Post date March 22, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, dyck-languages, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-framework

Examples of Human-Written Pseudocode Prompts

Post date March 22, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-framework

The Prompts We Used in Our Experiments

Post date March 22, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute, think-and-execute-framework

Details of Think-and-Execute That You Don’t Want to Miss

Post date March 21, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-details, think-and-execute-framework

Our Analysis on Think-and-Execute and Pseudocode

Post date March 20, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute, think-and-execute-framework

Think-and-Execute Improves Algorithmic Reasoning: Here’s How

Post date March 20, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute, think-and-execute-framework

How We Curated Seven Algorithmic Reasoning Tasks From Big-Bench Hard

Post date March 20, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, big-bench-hard, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-framework

What Is Think-and-Execute?

Post date March 20, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute, think-and-execute-framework

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning

Post date March 20, 2025
Post author By Transcompiler: Learn How to Translate Code
Post categories In algorithmic-reasoning-in-lm, compiler, language-model-optimization, language-models, pseudocode-reasoning, python-programming, task-level-logic, think-and-execute-framework

Human Study Validates GPT-4 Win Rates for TL;DR Summarization

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Performance of Best of N Baseline for Various N and Sample Responses and GPT-4 Judgments

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

The Unlikelihood Baseline in Sentiment Experiments

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

GPT-4 Prompts for Computing Summarization and Dialogue Win Rates

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Fine-Tuning GPT-2 for IMDb Sentiment Analysis

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

DPO Hyperparameters and Implementation Details

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Analyzing Reward Functions and Equivalence Classes

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Deriving the Gradient of the DPO Objective

Post date August 26, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Deriving the DPO Objective Under the Plackett-Luce Model

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, plackett-luce-model, reinforcement-learning, reward-modeling

Deriving the DPO Objective Under the Bradley-Terry Model

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Deriving the Optimum of the KL-Constrained Reward Maximization Objective

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Behind the Scenes: The Team Behind DPO

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

GPT-4 vs. Humans: Validating AI Judgment in Language Model Training

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Theoretical Analysis of Direct Preference Optimization

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Bypassing the Reward Model: A New RLHF Paradigm

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

How AI Learns from Human Preferences

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Simplifying AI Training: Direct Preference Optimization vs. Traditional RL

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, language-model-optimization, language-models, reinforcement-learning, reward-modeling, rhlf-explained

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Post date August 25, 2024
Post author By Writings, Papers and Blogs on Text Models
Post categories In ai-fine-tuning, bradley-terry-model, direct-preference-optimization, hackernoon-top-story, language-model-optimization, language-models, reinforcement-learning, reward-modeling

Nothing left to load.