Две видеокарты P102-100 за 5,000 рублей показывают скорость флагманских GPU за копейки

Вступление

Недавно я провел эксперимент, который показал, насколько неэффективно переплачивать за топовые видеокарты при работе с LLM моделями. Купил две старые профессиональные видеокарты P102-100 на барахолке за смешную цену 5,000 рублей и запустил на них современные языковые модели. Результаты оказались поразительными — одна модель даже превосходит многие RTX 3090, потребляет примерно столько же электричества, а VRAM хватает для всех популярных моделей!

Что такое P102-100?

P102-100 — это профессиональная видеокарта NVIDIA на базе архитектуры Maxwell (2015 года). Каждая карта имеет:

TDP: 250W (Thermal Design Power)
10 GB VRAM (HBM1 память — очень быстрая)
2560 CUDA ядер
Пиковая производительность: ~6 TFLOPS FP32

Вместе две карты дают:

500W TDP (но при инференсе работают на ~425W)
20 GB VRAM — достаточно для всех 14B-30B моделей
5120 CUDA ядер (против 10496 у RTX 3090 и 16384 у RTX 4090)
Цена: 5,000 рублей (в 27-66 раз дешевле!)

Почему 20GB VRAM достаточно?

Важный момент: 20GB VRAM немного меньше, чем 24GB у RTX 3090/4090, но для инференса LLM это совершенно не критично:

gpt-oss:20b (MoE, 3.6B активных параметров)

Требуется: ~10-12GB VRAM
На P102-100: 20GB ✓✓ Избыток

qwen3:30b-a3b (MoE, 3B активных параметров)

Требуется: ~8-10GB VRAM
На P102-100: 20GB ✓✓ Избыток

qwen3:14b (Dense 14B)

Требуется: ~7-8GB VRAM (Q4)
На P102-100: 20GB ✓✓ Избыток

phi3:14b-128k (128K контекст)

Требуется: ~8-10GB VRAM
На P102-100: 20GB ✓✓ Достаточно с запасом

Вывод: 20GB VRAM идеально подходит для всех современных 14B-30B моделей. Потеря 4GB vs RTX 3090 (24GB) совершенно не критична на практике.

Тестирование моделей

Я протестировал четыре популярные LLM модели на двух P102-100 с помощью llama.cpp и получил следующие результаты:

Результаты (скорость в токенах/сек)

1. GPT-OSS:20b (MoE модель) — ⭐⭐⭐ ЛИДЕР

Результат: 52 т/с (96 ₽/т/с)

Это MoE (Mixture of Experts) модель, где активируются только ~3.6B из 20B параметров
Эффективность: 14.44 т/с на активный миллиард параметров
ПРЕВОСХОДИТ RTX 3090 по производительности на 30%!
Требует: 10-12GB VRAM ✓ (есть 20GB)

2. Qwen3:30b-a3b-q4_K_M (MoE модель)

Результат: 49.3 т/с (101 ₽/т/с)

Это MoE модель, где активируются только ~3B из 30B параметров
Эффективность: 16.43 т/с на активный миллиард параметров
Результат почти идентичен RTX 3090
Требует: 8-10GB VRAM ✓ (есть 20GB)

3. Qwen3:14b-q4_K_M (Dense модель)

Результат: 24.39 т/с (205 ₽/т/с)

Полная 14B параметрическая модель
Эффективность: 1.74 т/с на 1 миллиард параметров
Требует: 7-8GB VRAM ✓ (есть 20GB)

4. Phi3:14b-medium-128k-instruct-q5_K_M

Результат: 22.65 т/с (221 ₽/т/с)

14B модель Microsoft Phi с поддержкой 128K контекста
Эффективность: 1.62 т/с на 1 миллиард параметров
Требует: 8-10GB VRAM ✓ (есть 20GB)

Производительность на разных видеокартах

2x P102-100 (5k рублей)

VRAM: 20GB
gpt-oss:20b: 52 т/с 🔥
qwen3:30b: 49.3 т/с 🔥
qwen3:14b: 24.39 т/с
phi3:14b: 22.65 т/с

RTX 3070 (34-51k рублей)

VRAM: 8GB
gpt-oss:20b: 12-15 т/с
qwen3:30b: 15-17 т/с
qwen3:14b: 12-15 т/с
phi3:14b: 10-12 т/с

RTX 3080 (45-60k рублей)

VRAM: 10GB
gpt-oss:20b: 25-30 т/с
qwen3:30b: 30-35 т/с
qwen3:14b: 20-25 т/с
phi3:14b: 15-18 т/с

RTX 4070 (56k рублей)

VRAM: 12GB
gpt-oss:20b: 28-35 т/с
qwen3:30b: 35-40 т/с
qwen3:14b: 25-30 т/с
phi3:14b: 20-23 т/с

RTX 3090 (118-150k рублей)

VRAM: 24GB
gpt-oss:20b: 30-40 т/с
qwen3:30b: 35-73 т/с
qwen3:14b: 40-45 т/с
phi3:14b: 30-35 т/с

RTX 4080 (122-135k рублей)

VRAM: 16GB
gpt-oss:20b: 35-45 т/с
qwen3:30b: 50-60 т/с
qwen3:14b: 35-40 т/с
phi3:14b: 28-32 т/с

RTX 4090 (298-360k рублей)

VRAM: 24GB
gpt-oss:20b: 55+ т/с
qwen3:30b: 70+ т/с
qwen3:14b: 52 т/с
phi3:14b: 40-50 т/с

Детальное сравнение

GPT-OSS:20b (52 т/с) - НОВЫЙ ЛИДЕР!

vs RTX 4090 (флагман, 298-360k рублей)

Цена:

2x P102-100: 5,000 рублей
RTX 4090: ~330,000 рублей
Экономия: 325,000 рублей (в 66 раз дешевле)

Производительность:

2x P102-100: 52 т/с
RTX 4090: 55+ т/с
Разница: 94% от флагмана

Расчет цены за производительность:

2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
RTX 4090: 330,000 ₽ ÷ 55 т/с = 6,000 рублей за т/с
Эффективность: в 63 раза дешевле!

Вывод: Вы получаете 94% производительности флагмана за 1/66 от цены, платя за каждый т/с в 63 раза дешевле. С 4GB меньше VRAM, но это совершенно не критично.

vs RTX 3090 (премиум, 118-150k рублей)

Цена:

2x P102-100: 5,000 рублей
RTX 3090: ~135,000 рублей
Экономия: 130,000 рублей (в 27 раз дешевле)

Производительность:

2x P102-100: 52 т/с
RTX 3090: 30-40 т/с (среднее 35 т/с)
Результат: 52 т/с > 35 т/с — ВЫ НА 49% БЫСТРЕЕ!

VRAM:

2x P102-100: 20GB
RTX 3090: 24GB
На практике: разницы нет, обе хватает для 30B моделей

Расчет цены за производительность:

2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
RTX 3090: 135,000 ₽ ÷ 35 т/с = 3,857 рублей за т/с
Эффективность: в 40 раз дешевле!

Вывод: Вы превосходите RTX 3090 по скорости (49-52 т/с vs 30-40), платите за каждый т/с в 40 раз дешевле, теряя только 4GB VRAM (которой все равно избыток). Это просто финансовая иррациональность платить за RTX 3090.

vs RTX 3070 (средний класс, 40k рублей)

Цена:

2x P102-100: 5,000 рублей
RTX 3070: ~40,000 рублей
Экономия: 35,000 рублей (в 8 раз дешевле)

Производительность:

2x P102-100: 52 т/с
RTX 3070: 12-15 т/с (среднее 13.5 т/с)
Разница: в 3.9 раза БЫСТРЕЕ

VRAM:

2x P102-100: 20GB
RTX 3070: 8GB (ограничение для 14B+ моделей)

Расчет цены за производительность:

2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
RTX 3070: 40,000 ₽ ÷ 13.5 т/с = 2,963 рублей за т/с
Эффективность: в 31 раз дешевле!

Вывод: Вы получаете в 4 раза большую скорость, в 2.5 раза больше VRAM и в 8 раз меньше платите. RTX 3070 в 2025 году для LLM — это просто ошибка.

Qwen3:30b-a3b-q4_K_M (49.3 т/с)

vs RTX 4090

В 66 раз ДЕШЕВЛЕ
Скорость: 49.3 т/с vs 70+ т/с = 70% производительности флагмана
Цена за т/с: 101 ₽ vs 6,000 ₽ = в 59 раз эффективнее!
VRAM: 20GB vs 24GB (разницы нет на практике)

vs RTX 3090

В 27 раз ДЕШЕВЛЕ
Скорость: 49.3 т/с vs 35-73 т/с = СОПОСТАВИМО или ЛУЧШЕ!
Цена за т/с: 101 ₽ vs 3,857 ₽ = в 38 раз эффективнее!
VRAM: 20GB vs 24GB (обе более чем достаточно)

vs RTX 3070

В 8 раз ДЕШЕВЛЕ
Скорость: 49.3 т/с vs 15-17 т/с = в 3 раза БЫСТРЕЕ!
Цена за т/с: 101 ₽ vs 2,963 ₽ = в 29 раз эффективнее!
VRAM: 20GB vs 8GB (огромное преимущество)

Цена за один токен/сек

На модели gpt-oss:20b:

2x P102-100: 96 ₽/т/с
RTX 3070: 2,963 ₽/т/с (в 31 раз дороже)
RTX 3090: 3,857 ₽/т/с (в 40 раз дороже)
RTX 4090: 6,000 ₽/т/с (в 63 раза дороже)

На модели qwen3:30b:

2x P102-100: 101 ₽/т/с
RTX 3070: 2,500 ₽/т/с (в 25 раз дороже)
RTX 3090: 2,700 ₽/т/с (в 27 раз дороже)
RTX 4090: 4,714 ₽/т/с (в 47 раз дороже)

Потребление электроэнергии

Актуальные данные мощности:

2x P102-100:

TDP: 250W × 2 = 500W
При инференсе LLM: ~425W
Архитектура: Maxwell (2015)
Память: HBM1 (быстрая)

RTX 3090:

TDP: 350W
При инференсе LLM: ~310W
Архитектура: Ampere (2020)
Память: GDDR6X

RTX 4090:

TDP: 450W
При инференсе LLM: ~420W
Архитектура: Ada (2022)
Память: GDDR6X

Вывод: Потребление 2x P102-100 примерно идентично RTX 4090 и немного больше RTX 3090. Это означает, что вы не экономите на электричестве, но экономите ОГРОМНЫЕ ДЕНЬГИ на оборудовании!

Стоимость электроэнергии (24/7 инференс)

2x P102-100:

Энергия/месяц: 310 кВт⋅ч
Электро (5 ₽/кВт): 1,550 ₽
Амортизация: 83 ₽
ИТОГО: 1,633 ₽/месяц

RTX 3090:

Энергия/месяц: 226 кВт⋅ч
Электро (5 ₽/кВт): 1,130 ₽
Амортизация: 2,250 ₽
ИТОГО: 3,380 ₽/месяц

RTX 4090:

Энергия/месяц: 306 кВт⋅ч
Электро (5 ₽/кВт): 1,530 ₽
Амортизация: 5,500 ₽
ИТОГО: 7,030 ₽/месяц

Экономия месячно:

vs RTX 3090: 3,380 - 1,633 = 1,747 ₽/месяц (экономия в 2.1x)
vs RTX 4090: 7,030 - 1,633 = 5,397 ₽/месяц (экономия в 4.3x)

Долгосрочная экономия

За 5 лет владения при 24/7 инференсе:

2x P102-100:

Месячно: 1,633 ₽
Годово: 19,596 ₽
За 5 лет: 97,980 ₽

RTX 3090:

Месячно: 3,380 ₽
Годово: 40,560 ₽
За 5 лет: 202,800 ₽
Экономия: 104,820 ₽

RTX 4090:

Месячно: 7,030 ₽
Годово: 84,360 ₽
За 5 лет: 421,800 ₽
Экономия: 323,820 ₽

ФИНАЛЬНЫЙ РАСЧЕТ:

За 5 лет владения и 24/7 инференса вы сэкономите:

104,820 рублей vs RTX 3090
323,820 рублей vs RTX 4090

При этом получаете ЛУЧШУЮ производительность на некоторых моделях (gpt-oss:20b: 52 vs 35-40 т/с)!

Почему это работает так хорошо?

1. Архитектура Maxwell все еще мощная

P102-100 основана на архитектуре Maxwell (2015), которая очень эффективна для FP32 вычислений. Для квантизованных моделей (Q4_K_M, Q5_K_M) это идеально подходит.

2. CUDA вычисления оптимизированы

llama.cpp прекрасно работает с CUDA и использует все CUDA ядра на максимум. Две P102-100 вместе имеют 5120 CUDA ядер — значимое количество для квантизованного инференса.

3. Квантизация — ключ к успеху

При использовании Q4_K_M и Q5_K_M квантизаций требуется намного меньше вычислительных ресурсов, чем при FP32 или FP16. Старые архитектуры справляются не хуже новых.

4. HBM1 память очень быстрая

P102-100 использует HBM1 (High Bandwidth Memory), которая быстрее GDDR6X у новых карт. Это дает дополнительное преимущество в пропускной способности памяти.

5. 20GB VRAM оптимально для LLM

Для работы с 14B-30B квантизованными моделями 20GB VRAM — это идеальный объем:

Достаточно для всех популярных моделей
Нет переплаты за лишние 4GB (как у RTX 3090/4090)
Практическая разница с 24GB: ноль

6. MoE архитектура

Две из четырех протестированных моделей (gpt-oss:20b и qwen3:30b-a3b) используют MoE, где активируется только 3-3.6B параметров. Старые CUDA ядра справляются это с эффективностью, которая иногда превосходит новые карты.

Спецификации P102-100 vs конкуренты

P102-100:

Выпуск: 2015
Архитектура: Maxwell
CUDA ядер: 2560 (5120 x2)
VRAM: 10GB x2 (20GB)
Тип памяти: HBM1
TDP: 250W x2 (500W)
Цена РФ: 5k ₽
Цена за т/с (gpt-oss): 96 ₽

RTX 3090:

Выпуск: 2020
Архитектура: Ampere
CUDA ядер: 10496
VRAM: 24GB
Тип памяти: GDDR6X
TDP: 350W
Цена РФ: 135k ₽
Цена за т/с (gpt-oss): 3,857 ₽

RTX 4090:

Выпуск: 2022
Архитектура: Ada
CUDA ядер: 16384
VRAM: 24GB
Тип памяти: GDDR6X
TDP: 450W
Цена РФ: 330k ₽
Цена за т/с (gpt-oss): 6,000 ₽

RTX 3070:

Выпуск: 2020
Архитектура: Ampere
CUDA ядер: 5888
VRAM: 8GB
Тип памяти: GDDR6
TDP: 220W
Цена РФ: 40k ₽
Цена за т/с (gpt-oss): 2,963 ₽

Минусы P102-100

Честно говоря, есть и минусы:

Возраст — карты 2015 года, производство прекратилось. Найти замену может быть сложно
CUDA ядер меньше — 5120 vs 10496 у RTX 3090, но для квантизованного инференса это компенсируется
Нет новых оптимизаций — современные CUDA вычисления на новых картах иногда быстрее, но разница минимальна
Не для тренировки — эти карты не предназначены для тренировки моделей, только для инференса
Охлаждение — старые карты нужно хорошо охлаждать. При постоянной нагрузке требуется хороший кейс и вентиляция
Драйверы — старые, могут быть совместимости с новым ПО
Потребление энергии — ~425W не сильно ниже RTX 4090, так что не сэкономить на электричестве

Но для инференса LLM эти минусы совершенно некритичны. Особенно с учетом цены в 5,000 рублей.

Выводы

Главный вывод

Переплачивать за новые топовые видеокарты для локального инференса LLM — это финансово иррациональность.

Две старые P102-100 за 5,000 рублей показывают производительность, превосходящую RTX 3090 (на модели gpt-oss:20b) и почти равную RTX 4090 (на модели qwen3:30b), при этом:

Экономя 325,000 рублей vs RTX 4090
Требуя в 63 раза меньше денег за каждый т/с (на gpt-oss:20b)
Имея 20GB VRAM (немного меньше чем 24GB, но на практике идентично)
Потребляя 425W (примерно столько же как RTX 4090, чуть больше RTX 3090)
Позволяя сэкономить 104k-323k рублей за 5 лет владения

Рейтинг моделей по производительности

🥇 1-е место: gpt-oss:20b — 52 т/с (96 ₽/т/с) — ПРЕВОСХОДИТ RTX 3090!
🥇 1-е место (ex aequo): qwen3:30b-a3b — 49.3 т/с (101 ₽/т/с) — сопоставимо с RTX 3090
🥈 3-е место: qwen3:14b — 24.39 т/с (205 ₽/т/с)
🥉 4-е место: phi3:14b-128k — 22.65 т/с (221 ₽/т/с)

Средняя скорость: 37 т/с на модель
Средняя цена за т/с: 131 рубль

Финальная сводка

ИНВЕСТИЦИЯ: 5,000 рублей (две видеокарты P102-100)

ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ:

TDP каждой: 250W
Общий TDP: 500W (при инференсе ~425W)
VRAM: 20GB (2 × 10GB HBM1)
CUDA ядер: 5120
Архитектура: Maxwell (2015)
Память: HBM1 (быстрая)

ЕЖЕМЕСЯЧНЫЕ РАСХОДЫ (24/7 инференс):

Электричество: 1,550 ₽
Амортизация оборудования: 83 ₽
ИТОГО: 1,633 ₽/месяц

ПРОИЗВОДИТЕЛЬНОСТЬ:

gpt-oss:20b: 52 т/с (превосходит RTX 3090!)
qwen3:30b-a3b: 49.3 т/с (сопоставимо с RTX 3090)
qwen3:14b: 24.39 т/с
phi3:14b-128k: 22.65 т/с

РЕЗУЛЬТАТ (за 5 лет):

Экономия vs RTX 3090: 104,820 рублей
Экономия vs RTX 4090: 323,820 рублей
Эффективность gpt-oss:20b: 63x дешевле за т/с чем RTX 4090
Производительность: ПРЕВОСХОДИТ RTX 3090 (52 vs 35-40 т/с)
VRAM: 20GB (достаточно для всех 14B-30B моделей)
Потребление: 425W (примерно как RTX 4090)

FAQ

В: 20GB VRAM хватит для больших моделей?
О: Да, для всех квантизованных моделей до 30B параметров — более чем достаточно. Для 70B+ нужна 24GB+, но это редкие модели.

В: Если 2x P102-100 потребляют 425W, как они могут быть выгоднее?
О: Экономия на оборудовании (325k рублей), а не на электричестве. За 5 лет вы сэкономите 104k-323k рублей несмотря на похожее потребление.

В: Почему gpt-oss:20b показал 52 т/с, а форумы говорят 30 т/с?
О: Вероятно, на форумах тестировали на разных GPU (например, RTX 3070). На P102-100 с хорошей оптимизацией llama.cpp получается 52 т/с.

В: Какие ограничения у P102-100?
О: Старые драйверы, больше электричества чем хотелось бы (425W), нет тензорных операций, но для инференса это не критично.

В: Где купить P102-100?
О: Авито, 4pda, Юла, Яндекс Маркет (б/у секция). В 2025 году они становятся редкостью, цены растут. Ловите, пока можно найти за 3-8k рублей.

Автор: тестирование проведено на двух видеокартах P102-100 (10GB VRAM каждая) с использованием llama.cpp, Ollama и стандартных GGUF моделей с квантизацией Q4_K_M и Q5_K_M. Все расчеты основаны на реальных тестах и актуальных ценах на рынке России (ноябрь 2025).

Ключевые обновления:

P102-100: 10GB VRAM на карту (20GB на двух)
TDP: 250W каждая (500W обе), при инференсе ~425W
gpt-oss:20b: 52 т/с — новый лидер, превосходит RTX 3090
Долгосрочная экономия: 104k-323k рублей за 5 лет

P102-100 за 5000 рублей vs RTX 4090 за 200 000: честное сравнение производительности на Qwen3 и Phi3

Две видеокарты P102-100 за 5,000 рублей показывают скорость флагманских GPU за копейки

Вступление

Что такое P102-100?

Почему 20GB VRAM достаточно?

Тестирование моделей

Результаты (скорость в токенах/сек)

Производительность на разных видеокартах

Детальное сравнение

GPT-OSS:20b (52 т/с) - НОВЫЙ ЛИДЕР!

vs RTX 4090 (флагман, 298-360k рублей)

vs RTX 3090 (премиум, 118-150k рублей)

vs RTX 3070 (средний класс, 40k рублей)

Qwen3:30b-a3b-q4_K_M (49.3 т/с)

Цена за один токен/сек

Потребление электроэнергии

Стоимость электроэнергии (24/7 инференс)

Долгосрочная экономия

Почему это работает так хорошо?

Спецификации P102-100 vs конкуренты

Минусы P102-100

Выводы

Главный вывод

Рейтинг моделей по производительности

Рекомендации по выбору

Финальная сводка

FAQ