前几天nvidia推出了新模型Llama-3_1-Nemotron-Ultra-253B-v1, 今天我试了一下, 感觉很好. 看测试数据的话, 比deepseek r1还高, 当然数字只能作为参考.
主要它是只有253B的参数, 不用太多的显存. deepseek r1是671B的参数, 本地跑的话要太多的显存了. nvidia的模型和deepseek的模型都是带思考的, 不过 nvidia的模型可以关掉, deepseek的模型不行. deepseek r1是MoE架构的, 这个不是.
要是有条件的话, 可以试一试. |