据媒体报道,2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。 民生证券表示,DeepSeek等头部模型的发展让AI应用、AIAgent等加速落地,使用量快速提升推动AI算力需求进入从训练推动到推理推动的拐点,Deepseek或是算力星辰大海的一朵“小浪花”。从微信等头部APP接入DeepSeek后可以看到,国民级应用模型使用持续放大算力需求,进而带来推理等算力需求的大量增长,算力行业迎来重要发展机遇。 |