<aside> 💡
Bài báo chỉ ra phương pháp retraining chỉ sử dụng RLHF có nhược điểm (6 nhược điểm) → phân tích quy trình retrain dựa trên chính data mà gen model (thường là LLM) sinh ra → phân tích động lực của quy trình retrain đệ quy → đề xuất:
$H^p_{K, r}(x) \;=\; \mathbb{E}{Y_1, \dots, Y{K-1} \sim p} \left[ \underbrace{\frac{K \, e^{r(x)}} {e^{r(x)} + \sum_{j=1}^{K-1} e^{r(Y_j)}}}_{\text{xác suất mà ứng viên } x \text{ được chọn trong một nhóm gồm } K \text{ ứng viên (1 là } x\text{, còn lại là } Y_j\text{)}} \right]$
Vai trò của bộ lọc Bradley–Terry weight:
Trong Alignment Game, công thức này là bộ lọc BT
Nó biến phân phối gốc $p(x)$ thành một phân phối mới $\tilde{p}(x) = p(x) \cdot H^p_{K,r}(x)$

The system recursively evolves as follows.
Initialization: Start with initial dataset $D_1$ and distribution $p_0$
Owner Curation: At iteration $t$, the Owner samples a pool $\{x_1,...,x_K\} \sim p_t$ and selects outputs via BT selection with reward $r_O$, yielding the intermediate distribution:
$$ \begin{align} \tilde{p}{t}(x) = p{t}(x) \cdot H^{p_{t}}_{K,r{O}}(x) \end{align} $$
Model Update: Train $\mathcal{M}{t+1}$ on data drawn from $\tilde{p}{t}(x)$ producing the updated model distribution:
$$ \begin{align} p_{t+1}(x) &\approx \tilde{p}_t(x) \end{align} $$
Public Curation: The Public samples a pool $\{x_1,...,x_K\} \sim p_{t+1}$ and applies BT selection with reward $r_P$, yielding:
$$ \begin{align} \hat{p}t(x) = p{t+1}(x) \cdot H^{p_{t+1}}_{M,r_P}(x) \end{align} $$
sở thích của hai “curator” (người lọc dữ liệu) – Owner (chủ sở hữu) và Public (cộng đồng) – tác động đến hành vi dài hạn của mô hình:
Tác giả phân loại quan hệ giữa $A_O$ và $A_P$ thành 3 loại:
Perfect Alignment (Căn chỉnh hoàn hảo)
$$ A_O = A_P $$
Cả Owner và Public đều có cùng một tập đầu ra tối ưu. Hai bên hoàn toàn đồng thuận, không có mâu thuẫn
Partial Alignment (Căn chỉnh một phần)
$$ A_O \cap A_P \neq \varnothing \quad \text{và} \quad A_O \neq A_P
$$
Có một phần giao nhau (một số giá trị cả hai bên đều thích), nhưng cũng có sự khác biệt.)
Disjoint Alignment (Căn chỉnh tách biệt)
$$ A_O \cap A_P = \varnothing \quad $$
Hai bên không có điểm chung.
$$ \begin{equation} B_\eta(A) := \left\{ x \in \mathcal{X} : \inf_{y \in A} d(x, y) < \eta \right\} \end{equation} $$