A Paisagem do Aprendizado por Reforço Agente para LLMs: Uma Revisão