논문리뷰 / Reinforcement Learning

[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

2026년 06월 27일

Flash-GRPO 논문 리뷰 (ICML 2026)

Tags: Computer Vision, Diffusion, ICML, Reinforcement Learning, Video Generation

[논문리뷰] Flow-GRPO: Training Flow Matching Models via Online RL

2026년 06월 23일

Flow-GRPO 논문 리뷰 (NeurIPS 2025)

Tags: Computer Vision, Diffusion, Image Generation, NeurIPS, Reinforcement Learning

[논문리뷰] Self-Distillation Enables Continual Learning

2026년 06월 09일

SDFT 논문 리뷰 (ICML 2026)

Tags: Distillation, ICML, LLM, NLP, Reinforcement Learning

[논문리뷰] Learning to Orchestrate Agents in Natural Language with the Conductor

2026년 05월 28일

RL Conductor 논문 리뷰 (ICLR 2026)

Tags: ICLR, LLM, NLP, Reinforcement Learning

[논문리뷰] Flow Q-Learning

2026년 04월 22일

Flow Q-Learning (FQL) 논문 리뷰 (ICML 2025)

Tags: ICML, Reinforcement Learning

[논문리뷰] Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning

2026년 03월 25일

Mesh-RFT 논문 리뷰 (NeurIPS 2025 Spotlight)

Tags: 3D Vision, Mesh Generation, NeurIPS, Reinforcement Learning, RLHF, Transformer

[논문리뷰] Diffusion Actor-Critic with Entropy Regulator

2026년 01월 02일

DACER 논문 리뷰 (NeurIPS 2024)

Tags: Diffusion, NeurIPS, Reinforcement Learning

[논문리뷰] Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

2025년 12월 31일

Dita 논문 리뷰 (ICCV 2025)

Tags: Diffusion, DiT, ICCV, Reinforcement Learning

[논문리뷰] DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

2025년 10월 02일

DeepMesh 논문 리뷰 (ICCV 2025)

Tags: 3D Vision, Autoregressive, ICCV, Mesh Generation, Reinforcement Learning, Transformer

[논문리뷰] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

2025년 09월 20일

Memento 논문 리뷰

Tags: LLM, NLP, Reinforcement Learning

[논문리뷰] LAPA: Latent Action Pretraining from Videos

2025년 08월 31일

LAPA 논문 리뷰 (ICLR 2025)

Tags: LLM, Microsoft, NVIDIA, Reinforcement Learning

[논문리뷰] Genie: Generative Interactive Environments

2025년 08월 19일

Genie 논문 리뷰 (ICML 2024)

Tags: Computer Vision, Google, ICML, Reinforcement Learning, ViT

[논문리뷰] SimPO: Simple Preference Optimization with a Reference-Free Reward

2025년 08월 15일

SimPO 논문 리뷰 (NeurIPS 2024)

Tags: LLM, NeurIPS, NLP, Reinforcement Learning, RLHF

[논문리뷰] rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

2025년 08월 05일

rStar-Math 논문 리뷰 (ICML 2025)

Tags: Microsoft, NLP, Reinforcement Learning

[논문리뷰] Monte Carlo Tree Diffusion for System 2 Planning

2025년 07월 28일

MCTD 논문 리뷰 (ICML 2025 Spotlight)

Tags: Diffusion, ICML, Reinforcement Learning

[논문리뷰] Reinforcement Learning Teachers of Test Time Scaling

2025년 07월 04일

RLT 논문 리뷰

Tags: LLM, NLP, Reinforcement Learning

[논문리뷰] Self-Adapting Language Models

2025년 07월 02일

SEAL 논문 리뷰

Tags: LLM, NLP, Reinforcement Learning

[논문리뷰] TTRL: Test-Time Reinforcement Learning

2025년 06월 20일

TTRL 논문 리뷰 (NeurIPS 2025)

Tags: LLM, NeurIPS, NLP, Reinforcement Learning

[논문리뷰] Vision Language Models are In-Context Value Learners

2025년 04월 23일

GVL 논문 리뷰 (ICLR 2025 Spotlight)

Tags: Computer Vision, Google, ICLR, Reinforcement Learning

[논문리뷰] Diffusion Models Are Real-Time Game Engines

2025년 04월 17일

GameNGen 논문 리뷰 (ICLR 2025)

Tags: Computer Vision, Diffusion, Google, ICLR, Reinforcement Learning

[논문리뷰] Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

2025년 03월 24일

Diffusion Forcing 논문 리뷰 (NeurIPS 2024)

Tags: Autoregressive, Computer Vision, Diffusion, NeurIPS, Reinforcement Learning

[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

2024년 01월 29일

DeepSeek-R1 논문 리뷰

Tags: LLM, NLP, Reinforcement Learning

[논문리뷰] Eureka: Human-Level Reward Design via Coding Large Language Models

2024년 11월 18일

Eureka 논문 리뷰 (ICLR 2024)

Tags: ICLR, LLM, NLP, NVIDIA, Reinforcement Learning

[BLOG 리뷰] AI achieves silver-medal standard solving International Mathematical Olympiad problems

2024년 07월 28일

AlphaProof & AlphaGeometry 2 블로그 리뷰

Tags: Google, Reinforcement Learning

[논문리뷰] Diffusion Model Alignment Using Direct Preference Optimization

2024년 05월 15일

Diffusion-DPO 논문 리뷰

Tags: Computer Vision, Diffusion, Reinforcement Learning, Text-to-Image

[논문리뷰] Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)

2023년 12월 20일

DPO 논문 리뷰 (NeurIPS 2023 Oral)

Tags: LLM, NeurIPS, NLP, Reinforcement Learning, RLHF

[논문리뷰] Optimizing Prompts for Text-to-Image Generation (Promptist)

2023년 09월 03일

Promptist 논문 리뷰 (NeurIPS 2023)

Tags: Computer Vision, Diffusion, Microsoft, NeurIPS, Reinforcement Learning, Text-to-Image

[논문리뷰] Learning to Brachiate via Simplified Model Imitation

2023년 06월 24일

Learning to Brachiate via Simplified Model Imitation 논문 리뷰 (SIGGRAPH 2022)

Tags: Reinforcement Learning, SIGGRAPH

[논문리뷰] RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

2023년 05월 19일

RAFT 논문 리뷰

Tags: Computer Vision, Fine-Tuning, Reinforcement Learning

[논문리뷰] Imitating Human Behaviour with Diffusion Models

2023년 04월 08일

Imitating Human Behaviour with Diffusion Models 논문 리뷰 (ICLR 2023)

Tags: Diffusion, ICLR, Microsoft, Reinforcement Learning

[논문리뷰] Training language models to follow instructions with human feedback (InstructGPT / RLHF)

2023년 04월 06일

InstructGPT (RLHF) 논문 리뷰

Tags: Fine-Tuning, LLM, NLP, OpenAI, Reinforcement Learning, RLHF

[논문리뷰] AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners

2023년 03월 22일

AdaptDiffuser 논문 리뷰 (ICML 2023 Oral)

Tags: Diffusion, ICML, Reinforcement Learning

[논문리뷰] Planning with Diffusion for Flexible Behavior Synthesis (Diffuser)

2023년 02월 26일

Diffuser 논문 리뷰 (ICML 2022)

Tags: Diffusion, ICML, Reinforcement Learning