评测 | Ringi's Log

大模型自动评估 LLM-as-a-Judge 思考 LLM-as-a-Judge 真的管用吗？【2025-8-6】说话人难以识别大模型从工具进化为“裁判”（LLM-as-a-judge），开始大规模地评判由AI自己生成的内容。这种高效的评估范式，其可靠性与人类判断的一致性，却很少被深入验证。 ...