Eine Sache lässt mich aufhorchen und das ist die FP16-Performance. Einmal zum Vergleich: Eine beliebte Wahl für "kleine" eigene Deep-Learning-Rechner ist derzeit die GTX1080Ti mit 11.3 FP32-TFLOPS. Es wird halt FP32 verwendet, wobei FP16 ausreichen würde - allerdings ist die native FP16-Performance bei den Pascal-Consumerkarten auf 1/64 beschnitten. Bei den im Vergleich extrem teureren nVidia Tesla ist das nicht der Fall: Die P100 bietet laut Datasheet 9.3 TFLOPS bei FP32 und 18.7 TFLOPS bei FP16.
Wenn die RX Vega 64 jetzt 25-27 TFLOPS bei FP16 bietet, wenn ich das richtig verstanden habe, dann wirds auf einmal interessant.
Nachteile wären die etwas knapp bemessenen 8GB Ram, die Tatsache, dass AMD nunmal kein CUDA bietet und man hoffen muss, die Karten überhaupt über OpenCL oder so benutzen zu können.