上周,Radxa 和 DEEPX 发布了 AICore DX-M1M – 一款小巧的 M.2 模组,号称仅需 3 瓦功耗就能提供 25 TOPS 的 AI 加速能力。
还记得那些号称 AI 加速器、结果只是驱动半成品的 glorified U盘吗?嗯。
但这个东西?它能装进你的 M.2 插槽,就像一块 NVMe 硬盘一样。而且它声称可以运行 YOLO、ResNet、姿态估计 – 应有尽有,而且不会让你的主板过热。

等等,这到底是什么东西?
DeepX 是一家韩国 AI 芯片初创公司,Radxa -也就是 ROCK 系列单板计算机背后的团队 – 正与他们合作,将这款 NPU 封装成 M.2 形态。
最初的 AICore DX-M1 AI 模组 于 2025 年底发布。那是一款更大的 M.2 2280 卡片,配备 PCIe Gen3 ×4、4GB LPDDR5 内存,功耗 3-5W。性能不错,但体积较大。
新的 DX-M1M AI 模组 则不同:更小、更精简。某些方面更强,某些方面则有所妥协。
| 特性 | DeepX DX-M1(原版) | DeepX DX-M1M(新版) |
| AI 性能 | 最高 25 TOPS | 最高 25 TOPS |
| 外形尺寸 | M.2 2280 | M.2 2242(M + B Key) |
| 接口 | PCIe Gen3 ×4 | PCIe Gen3 ×2 |
| 内存 | 4GB LPDDR5 | 1GB LPDDR4X(4266 MT/s) |
| 存储 | ? | 1Gbit QSPI Flash |
| 功耗 | 3-5W | 约 3W(典型值) |
| 目标用途 | 高吞吐量推理 | 边缘视觉、紧凑型系统 |
| 价格 | ? | 85 美元(但已缺货) |
让人眼前一亮的是:3 瓦功耗实现 25 TOPS 确实令人印象深刻。作为对比,瑞芯微 RK3588 在约 4-5W 功耗下提供 6 TOPS。NVIDIA Jetson Orin Nano 在 7-15W 功耗下提供 20 TOPS。DeepX 声称能效比两者都高。这是个大胆的宣言。

3 瓦功耗下实现 25 TOPS – 这是 DeepX 的说法。作为参考:RK3588 在 4-5W 下给你 6 TOPS,NVIDIA 的 Jetson Orin Nano 达到 20 TOPS 但消耗 7-15W。确实是个大胆的宣言。
M.2 的魔力(以及妥协)
DX-M1M 采用 M.2 2242 M + B Key 外形尺寸。这比标准的 2280 SSD 更短 – 42 毫米而不是 80 毫米。它能装进更多地方,包括 Raspberry Pi 5 或 Radxa ROCK 5B 紧凑的内部空间。
但这里有一个权衡:PCIe Gen3 ×2,而不是 ×4。而且只有 1GB 的 LPDDR4X 内存。1GB……这不算多。
作为对比,RK3588 最多可寻址 32GB 的系统内存。而 DX-M1M 必须将整个模型塞进那 1GB 里。也就是说:只能运行小型模型。你不能在这东西上跑 Llama 3。
Radxa 表示它专为图像分类、目标检测、分割和姿态估计而设计。翻译过来就是:YOLOv8 Nano/Tiny、MobileNet、也许一个小型 ResNet。不是 GPT-4。
如果你正在为汽车构建一个车载 AI 盒子用于驾驶员监控或交通摄像头分析,1GB 可能确实够用。这些模型本身就很精简。但如果你希望能在边缘运行多模态大语言模型,那还是继续做梦吧。
主机兼容性 – Pi 5、Radxa 及其他
这里就有意思了。DX-M1M 通过 PCIe 同时支持 ARM 和 x86 主机平台。
Radxa 特别提到了:
- Raspberry Pi 5(是的,通过 PCIe FPC 连接器)
- ROCK 5A / 5B / 5B+ / 5 ITX
- 任何 M.2 2280 插槽(通过转接板)
这意味着你可以把这个 NPU 装到 Pi 5 上,然后突然之间,你 80 美元的单板计算机就有了 25 TOPS 的 AI 算力。Eben Upton 在最近的 AMA 中表示,他们认为 CPU 本身就可以承担 AI 计算,不会在 Pi 6 上添加 NPU。没关系。我们自己加 – 就在 M.2 插槽里。
模组的安装方式就像 NVMe 硬盘一样:以一定角度插入,拧紧螺丝,启动。Radxa 警告说,在持续负载下它会发热,建议使用主动散热或金属外壳。这并不意外 – 3W 功耗封装在 22×42mm 的尺寸里,确实会有点烫。
软件 – 常见的噩梦(但也许好一点?)
DeepX 提供了 DXNN SDK,包含:
- DX-COM 编译器(支持 TensorFlow、ONNX、Keras、PyTorch)
- DX-RT 运行时
- 设备驱动
- GStreamer 插件(用于视频处理流水线)
- DX-All Suite(用于安装)
支持的主机操作系统:Windows 10/11、Ubuntu 20.04/22.04/24.04。也支持 Docker 部署。
这……其实是个相当合理的软件栈。比大多数中国 NPU 供应商好多了 – 那些通常只给你一个百度网盘里的 ZIP 文件,然后祝你好运。
但现实点说:实践是检验真理的唯一标准。我以前也见过所谓的“完整 PyTorch 支持”。通常意思是:如果你只使用这些算子而不使用那些算子,我们的编译器就能转换一个 ResNet-50。
如果你对边缘 AI 很认真,你应该看看 2026 年五大 AI 盒子解决方案,对比一下软件体验。瑞芯微的 RKNN 花了好几年才变得可用。DeepX 是从零开始。
价格问题
AICore DX-M1M 在 Arace Tech 上标价 85 美元 – 这不便宜。
在撰写本文时,它已经 缺货。这意味着要么需求很高,要么供应几乎没有。对于新硬件来说,通常是后者。DX-M1M 严格来说是一个加速器。它需要一个主机。所以你的总系统成本 = 主机板成本 + 85 美元。如果你正在构建一个产品,你需要仔细算一笔账:25 TOPS 是否值得额外的 BOM 成本和软件集成麻烦?对于某些应用,答案是肯定的。对于大多数应用?可能不值得。RK3588 规格与性能指南 显示,6 TOPS 已经足以应对大量的边缘 AI 任务。25 TOPS 对于一个安防摄像头来说算得上性能过剩。但对于一个带 12 个摄像头的仓库机器人来说,它就不算过剩了。
