<aside> 💡

Bài báo chỉ ra phương pháp retraining chỉ sử dụng RLHF có nhược điểm (6 nhược điểm) → phân tích quy trình retrain dựa trên chính data mà gen model (thường là LLM) sinh ra → phân tích động lực của quy trình retrain đệ quy → đề xuất:


Bradley–Terry weight (Definition 1) - mô phỏng quá trình chọn lựa khi có nhiều đầu ra

$H^p_{K, r}(x) \;=\; \mathbb{E}{Y_1, \dots, Y{K-1} \sim p} \left[ \underbrace{\frac{K \, e^{r(x)}} {e^{r(x)} + \sum_{j=1}^{K-1} e^{r(Y_j)}}}_{\text{xác suất mà ứng viên } x \text{ được chọn trong một nhóm gồm } K \text{ ứng viên (1 là } x\text{, còn lại là } Y_j\text{)}} \right]$

Vai trò của bộ lọc Bradley–Terry weight:


Alignment Game Framework

The system recursively evolves as follows.

  1. Initialization: Start with initial dataset $D_1$ and distribution $p_0$

  2. Owner Curation: At iteration $t$, the Owner samples a pool $\{x_1,...,x_K\} \sim p_t$ and selects outputs via BT selection with reward $r_O$, yielding the intermediate distribution:

    $$ \begin{align} \tilde{p}{t}(x) = p{t}(x) \cdot H^{p_{t}}_{K,r{O}}(x) \end{align} $$

  3. Model Update: Train $\mathcal{M}{t+1}$ on data drawn from $\tilde{p}{t}(x)$ producing the updated model distribution:

    $$ \begin{align} p_{t+1}(x) &\approx \tilde{p}_t(x) \end{align} $$

  4. Public Curation: The Public samples a pool $\{x_1,...,x_K\} \sim p_{t+1}$ and applies BT selection with reward $r_P$, yielding:

$$ \begin{align} \hat{p}t(x) = p{t+1}(x) \cdot H^{p_{t+1}}_{M,r_P}(x) \end{align} $$

  1. Dataset Evolution: Update $\mathcal{D}_{t+1} = \mathcal{D}_t \cup \mathcal{O}^{}_t \text{ where } \mathcal{O}^{}_t \sim \hat{p}_t.$

Alignment Regimes (Các chế độ căn chỉnh)

sở thích của hai “curator” (người lọc dữ liệu)Owner (chủ sở hữu) và Public (cộng đồng) – tác động đến hành vi dài hạn của mô hình:

Tác giả phân loại quan hệ giữa $A_O$ và $A_P$ thành 3 loại:

  1. Perfect Alignment (Căn chỉnh hoàn hảo)

    $$ A_O = A_P $$

    Cả Owner và Public đều có cùng một tập đầu ra tối ưu. Hai bên hoàn toàn đồng thuận, không có mâu thuẫn

  2. Partial Alignment (Căn chỉnh một phần)

    $$ A_O \cap A_P \neq \varnothing \quad \text{và} \quad A_O \neq A_P

    $$

    Có một phần giao nhau (một số giá trị cả hai bên đều thích), nhưng cũng có sự khác biệt.)

  3. Disjoint Alignment (Căn chỉnh tách biệt)

    $$ A_O \cap A_P = \varnothing \quad $$

    Hai bên không có điểm chung.

Khái niệm lân cận $B_\eta(A)$

$$ \begin{equation} B_\eta(A) := \left\{ x \in \mathcal{X} : \inf_{y \in A} d(x, y) < \eta \right\} \end{equation} $$