三年的Lem测试,从ChatGPT-3.5发布(尽管当时并没有叫这个名字)到Claude Sonnet 4.5。