Tag: #alignment

Articles related to alignment

ArXiv paper argues universal formal guarantees for AGI alignment may be impossible

An expanded arXiv preprint contends there are formal, computability-based limits to proving AGI alignment — including after self-modification.

#ai, #alignment, #computability, #arxiv

Preprint Claims Language Models Undergo 'Alignment Transition' Around 3.5 Billion Parameters

An unreviewed arXiv preprint argues language models shift from trading truth for reasoning to improving both past ~3.5B parameters; code and dashboard released.

#ai, #alignment, #language-models, #arxiv