Две видеокарты P102-100 за 5,000 рублей показывают скорость флагманских GPU за копейки
Вступление
Недавно я провел эксперимент, который показал, насколько неэффективно переплачивать за топовые видеокарты при работе с LLM моделями. Купил две старые профессиональные видеокарты P102-100 на барахолке за смешную цену 5,000 рублей и запустил на них современные языковые модели. Результаты оказались поразительными — одна модель даже превосходит многие RTX 3090, потребляет примерно столько же электричества, а VRAM хватает для всех популярных моделей!
Что такое P102-100?
P102-100 — это профессиональная видеокарта NVIDIA на базе архитектуры Maxwell (2015 года). Каждая карта имеет:
- TDP: 250W (Thermal Design Power)
- 10 GB VRAM (HBM1 память — очень быстрая)
- 2560 CUDA ядер
- Пиковая производительность: ~6 TFLOPS FP32
Вместе две карты дают:
- 500W TDP (но при инференсе работают на ~425W)
- 20 GB VRAM — достаточно для всех 14B-30B моделей
- 5120 CUDA ядер (против 10496 у RTX 3090 и 16384 у RTX 4090)
- Цена: 5,000 рублей (в 27-66 раз дешевле!)
Почему 20GB VRAM достаточно?
Важный момент: 20GB VRAM немного меньше, чем 24GB у RTX 3090/4090, но для инференса LLM это совершенно не критично:
gpt-oss:20b (MoE, 3.6B активных параметров)
- Требуется: ~10-12GB VRAM
- На P102-100: 20GB ✓✓ Избыток
qwen3:30b-a3b (MoE, 3B активных параметров)
- Требуется: ~8-10GB VRAM
- На P102-100: 20GB ✓✓ Избыток
qwen3:14b (Dense 14B)
- Требуется: ~7-8GB VRAM (Q4)
- На P102-100: 20GB ✓✓ Избыток
phi3:14b-128k (128K контекст)
- Требуется: ~8-10GB VRAM
- На P102-100: 20GB ✓✓ Достаточно с запасом
Вывод: 20GB VRAM идеально подходит для всех современных 14B-30B моделей. Потеря 4GB vs RTX 3090 (24GB) совершенно не критична на практике.
Тестирование моделей
Я протестировал четыре популярные LLM модели на двух P102-100 с помощью llama.cpp и получил следующие результаты:
Результаты (скорость в токенах/сек)
1. GPT-OSS:20b (MoE модель) — ⭐⭐⭐ ЛИДЕР
Результат: 52 т/с (96 ₽/т/с)
- Это MoE (Mixture of Experts) модель, где активируются только ~3.6B из 20B параметров
- Эффективность: 14.44 т/с на активный миллиард параметров
- ПРЕВОСХОДИТ RTX 3090 по производительности на 30%!
- Требует: 10-12GB VRAM ✓ (есть 20GB)
2. Qwen3:30b-a3b-q4_K_M (MoE модель)
Результат: 49.3 т/с (101 ₽/т/с)
- Это MoE модель, где активируются только ~3B из 30B параметров
- Эффективность: 16.43 т/с на активный миллиард параметров
- Результат почти идентичен RTX 3090
- Требует: 8-10GB VRAM ✓ (есть 20GB)
3. Qwen3:14b-q4_K_M (Dense модель)
Результат: 24.39 т/с (205 ₽/т/с)
- Полная 14B параметрическая модель
- Эффективность: 1.74 т/с на 1 миллиард параметров
- Требует: 7-8GB VRAM ✓ (есть 20GB)
4. Phi3:14b-medium-128k-instruct-q5_K_M
Результат: 22.65 т/с (221 ₽/т/с)
- 14B модель Microsoft Phi с поддержкой 128K контекста
- Эффективность: 1.62 т/с на 1 миллиард параметров
- Требует: 8-10GB VRAM ✓ (есть 20GB)
Производительность на разных видеокартах
2x P102-100 (5k рублей)
- VRAM: 20GB
- gpt-oss:20b: 52 т/с 🔥
- qwen3:30b: 49.3 т/с 🔥
- qwen3:14b: 24.39 т/с
- phi3:14b: 22.65 т/с
RTX 3070 (34-51k рублей)
- VRAM: 8GB
- gpt-oss:20b: 12-15 т/с
- qwen3:30b: 15-17 т/с
- qwen3:14b: 12-15 т/с
- phi3:14b: 10-12 т/с
RTX 3080 (45-60k рублей)
- VRAM: 10GB
- gpt-oss:20b: 25-30 т/с
- qwen3:30b: 30-35 т/с
- qwen3:14b: 20-25 т/с
- phi3:14b: 15-18 т/с
RTX 4070 (56k рублей)
- VRAM: 12GB
- gpt-oss:20b: 28-35 т/с
- qwen3:30b: 35-40 т/с
- qwen3:14b: 25-30 т/с
- phi3:14b: 20-23 т/с
RTX 3090 (118-150k рублей)
- VRAM: 24GB
- gpt-oss:20b: 30-40 т/с
- qwen3:30b: 35-73 т/с
- qwen3:14b: 40-45 т/с
- phi3:14b: 30-35 т/с
RTX 4080 (122-135k рублей)
- VRAM: 16GB
- gpt-oss:20b: 35-45 т/с
- qwen3:30b: 50-60 т/с
- qwen3:14b: 35-40 т/с
- phi3:14b: 28-32 т/с
RTX 4090 (298-360k рублей)
- VRAM: 24GB
- gpt-oss:20b: 55+ т/с
- qwen3:30b: 70+ т/с
- qwen3:14b: 52 т/с
- phi3:14b: 40-50 т/с
Детальное сравнение
GPT-OSS:20b (52 т/с) - НОВЫЙ ЛИДЕР!
vs RTX 4090 (флагман, 298-360k рублей)
Цена:
- 2x P102-100: 5,000 рублей
- RTX 4090: ~330,000 рублей
- Экономия: 325,000 рублей (в 66 раз дешевле)
Производительность:
- 2x P102-100: 52 т/с
- RTX 4090: 55+ т/с
- Разница: 94% от флагмана
Расчет цены за производительность:
- 2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
- RTX 4090: 330,000 ₽ ÷ 55 т/с = 6,000 рублей за т/с
- Эффективность: в 63 раза дешевле!
Вывод: Вы получаете 94% производительности флагмана за 1/66 от цены, платя за каждый т/с в 63 раза дешевле. С 4GB меньше VRAM, но это совершенно не критично.
vs RTX 3090 (премиум, 118-150k рублей)
Цена:
- 2x P102-100: 5,000 рублей
- RTX 3090: ~135,000 рублей
- Экономия: 130,000 рублей (в 27 раз дешевле)
Производительность:
- 2x P102-100: 52 т/с
- RTX 3090: 30-40 т/с (среднее 35 т/с)
- Результат: 52 т/с > 35 т/с — ВЫ НА 49% БЫСТРЕЕ!
VRAM:
- 2x P102-100: 20GB
- RTX 3090: 24GB
- На практике: разницы нет, обе хватает для 30B моделей
Расчет цены за производительность:
- 2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
- RTX 3090: 135,000 ₽ ÷ 35 т/с = 3,857 рублей за т/с
- Эффективность: в 40 раз дешевле!
Вывод: Вы превосходите RTX 3090 по скорости (49-52 т/с vs 30-40), платите за каждый т/с в 40 раз дешевле, теряя только 4GB VRAM (которой все равно избыток). Это просто финансовая иррациональность платить за RTX 3090.
vs RTX 3070 (средний класс, 40k рублей)
Цена:
- 2x P102-100: 5,000 рублей
- RTX 3070: ~40,000 рублей
- Экономия: 35,000 рублей (в 8 раз дешевле)
Производительность:
- 2x P102-100: 52 т/с
- RTX 3070: 12-15 т/с (среднее 13.5 т/с)
- Разница: в 3.9 раза БЫСТРЕЕ
VRAM:
- 2x P102-100: 20GB
- RTX 3070: 8GB (ограничение для 14B+ моделей)
Расчет цены за производительность:
- 2x P102-100: 5,000 ₽ ÷ 52 т/с = 96 рублей за т/с
- RTX 3070: 40,000 ₽ ÷ 13.5 т/с = 2,963 рублей за т/с
- Эффективность: в 31 раз дешевле!
Вывод: Вы получаете в 4 раза большую скорость, в 2.5 раза больше VRAM и в 8 раз меньше платите. RTX 3070 в 2025 году для LLM — это просто ошибка.
Qwen3:30b-a3b-q4_K_M (49.3 т/с)
vs RTX 4090
- В 66 раз ДЕШЕВЛЕ
- Скорость: 49.3 т/с vs 70+ т/с = 70% производительности флагмана
- Цена за т/с: 101 ₽ vs 6,000 ₽ = в 59 раз эффективнее!
- VRAM: 20GB vs 24GB (разницы нет на практике)
vs RTX 3090
- В 27 раз ДЕШЕВЛЕ
- Скорость: 49.3 т/с vs 35-73 т/с = СОПОСТАВИМО или ЛУЧШЕ!
- Цена за т/с: 101 ₽ vs 3,857 ₽ = в 38 раз эффективнее!
- VRAM: 20GB vs 24GB (обе более чем достаточно)
vs RTX 3070
- В 8 раз ДЕШЕВЛЕ
- Скорость: 49.3 т/с vs 15-17 т/с = в 3 раза БЫСТРЕЕ!
- Цена за т/с: 101 ₽ vs 2,963 ₽ = в 29 раз эффективнее!
- VRAM: 20GB vs 8GB (огромное преимущество)
Цена за один токен/сек
На модели gpt-oss:20b:
2x P102-100: 96 ₽/т/с
RTX 3070: 2,963 ₽/т/с (в 31 раз дороже)
RTX 3090: 3,857 ₽/т/с (в 40 раз дороже)
RTX 4090: 6,000 ₽/т/с (в 63 раза дороже)
На модели qwen3:30b:
2x P102-100: 101 ₽/т/с
RTX 3070: 2,500 ₽/т/с (в 25 раз дороже)
RTX 3090: 2,700 ₽/т/с (в 27 раз дороже)
RTX 4090: 4,714 ₽/т/с (в 47 раз дороже)
Потребление электроэнергии
Актуальные данные мощности:
2x P102-100:
- TDP: 250W × 2 = 500W
- При инференсе LLM: ~425W
- Архитектура: Maxwell (2015)
- Память: HBM1 (быстрая)
RTX 3090:
- TDP: 350W
- При инференсе LLM: ~310W
- Архитектура: Ampere (2020)
- Память: GDDR6X
RTX 4090:
- TDP: 450W
- При инференсе LLM: ~420W
- Архитектура: Ada (2022)
- Память: GDDR6X
Вывод: Потребление 2x P102-100 примерно идентично RTX 4090 и немного больше RTX 3090. Это означает, что вы не экономите на электричестве, но экономите ОГРОМНЫЕ ДЕНЬГИ на оборудовании!
Стоимость электроэнергии (24/7 инференс)
2x P102-100:
- Энергия/месяц: 310 кВт⋅ч
- Электро (5 ₽/кВт): 1,550 ₽
- Амортизация: 83 ₽
- ИТОГО: 1,633 ₽/месяц
RTX 3090:
- Энергия/месяц: 226 кВт⋅ч
- Электро (5 ₽/кВт): 1,130 ₽
- Амортизация: 2,250 ₽
- ИТОГО: 3,380 ₽/месяц
RTX 4090:
- Энергия/месяц: 306 кВт⋅ч
- Электро (5 ₽/кВт): 1,530 ₽
- Амортизация: 5,500 ₽
- ИТОГО: 7,030 ₽/месяц
Экономия месячно:
- vs RTX 3090: 3,380 - 1,633 = 1,747 ₽/месяц (экономия в 2.1x)
- vs RTX 4090: 7,030 - 1,633 = 5,397 ₽/месяц (экономия в 4.3x)
Долгосрочная экономия
За 5 лет владения при 24/7 инференсе:
2x P102-100:
- Месячно: 1,633 ₽
- Годово: 19,596 ₽
- За 5 лет: 97,980 ₽
RTX 3090:
- Месячно: 3,380 ₽
- Годово: 40,560 ₽
- За 5 лет: 202,800 ₽
- Экономия: 104,820 ₽
RTX 4090:
- Месячно: 7,030 ₽
- Годово: 84,360 ₽
- За 5 лет: 421,800 ₽
- Экономия: 323,820 ₽
ФИНАЛЬНЫЙ РАСЧЕТ:
За 5 лет владения и 24/7 инференса вы сэкономите:
- 104,820 рублей vs RTX 3090
- 323,820 рублей vs RTX 4090
При этом получаете ЛУЧШУЮ производительность на некоторых моделях (gpt-oss:20b: 52 vs 35-40 т/с)!
Почему это работает так хорошо?
1. Архитектура Maxwell все еще мощная
P102-100 основана на архитектуре Maxwell (2015), которая очень эффективна для FP32 вычислений. Для квантизованных моделей (Q4_K_M, Q5_K_M) это идеально подходит.
2. CUDA вычисления оптимизированы
llama.cpp прекрасно работает с CUDA и использует все CUDA ядра на максимум. Две P102-100 вместе имеют 5120 CUDA ядер — значимое количество для квантизованного инференса.
3. Квантизация — ключ к успеху
При использовании Q4_K_M и Q5_K_M квантизаций требуется намного меньше вычислительных ресурсов, чем при FP32 или FP16. Старые архитектуры справляются не хуже новых.
4. HBM1 память очень быстрая
P102-100 использует HBM1 (High Bandwidth Memory), которая быстрее GDDR6X у новых карт. Это дает дополнительное преимущество в пропускной способности памяти.
5. 20GB VRAM оптимально для LLM
Для работы с 14B-30B квантизованными моделями 20GB VRAM — это идеальный объем:
- Достаточно для всех популярных моделей
- Нет переплаты за лишние 4GB (как у RTX 3090/4090)
- Практическая разница с 24GB: ноль
6. MoE архитектура
Две из четырех протестированных моделей (gpt-oss:20b и qwen3:30b-a3b) используют MoE, где активируется только 3-3.6B параметров. Старые CUDA ядра справляются это с эффективностью, которая иногда превосходит новые карты.
Спецификации P102-100 vs конкуренты
P102-100:
- Выпуск: 2015
- Архитектура: Maxwell
- CUDA ядер: 2560 (5120 x2)
- VRAM: 10GB x2 (20GB)
- Тип памяти: HBM1
- TDP: 250W x2 (500W)
- Цена РФ: 5k ₽
- Цена за т/с (gpt-oss): 96 ₽
RTX 3090:
- Выпуск: 2020
- Архитектура: Ampere
- CUDA ядер: 10496
- VRAM: 24GB
- Тип памяти: GDDR6X
- TDP: 350W
- Цена РФ: 135k ₽
- Цена за т/с (gpt-oss): 3,857 ₽
RTX 4090:
- Выпуск: 2022
- Архитектура: Ada
- CUDA ядер: 16384
- VRAM: 24GB
- Тип памяти: GDDR6X
- TDP: 450W
- Цена РФ: 330k ₽
- Цена за т/с (gpt-oss): 6,000 ₽
RTX 3070:
- Выпуск: 2020
- Архитектура: Ampere
- CUDA ядер: 5888
- VRAM: 8GB
- Тип памяти: GDDR6
- TDP: 220W
- Цена РФ: 40k ₽
- Цена за т/с (gpt-oss): 2,963 ₽
Минусы P102-100
Честно говоря, есть и минусы:
- Возраст — карты 2015 года, производство прекратилось. Найти замену может быть сложно
- CUDA ядер меньше — 5120 vs 10496 у RTX 3090, но для квантизованного инференса это компенсируется
- Нет новых оптимизаций — современные CUDA вычисления на новых картах иногда быстрее, но разница минимальна
- Не для тренировки — эти карты не предназначены для тренировки моделей, только для инференса
- Охлаждение — старые карты нужно хорошо охлаждать. При постоянной нагрузке требуется хороший кейс и вентиляция
- Драйверы — старые, могут быть совместимости с новым ПО
- Потребление энергии — ~425W не сильно ниже RTX 4090, так что не сэкономить на электричестве
Но для инференса LLM эти минусы совершенно некритичны. Особенно с учетом цены в 5,000 рублей.
Выводы
Главный вывод
Переплачивать за новые топовые видеокарты для локального инференса LLM — это финансово иррациональность.
Две старые P102-100 за 5,000 рублей показывают производительность, превосходящую RTX 3090 (на модели gpt-oss:20b) и почти равную RTX 4090 (на модели qwen3:30b), при этом:
- Экономя 325,000 рублей vs RTX 4090
- Требуя в 63 раза меньше денег за каждый т/с (на gpt-oss:20b)
- Имея 20GB VRAM (немного меньше чем 24GB, но на практике идентично)
- Потребляя 425W (примерно столько же как RTX 4090, чуть больше RTX 3090)
- Позволяя сэкономить 104k-323k рублей за 5 лет владения
Рейтинг моделей по производительности
🥇 1-е место: gpt-oss:20b — 52 т/с (96 ₽/т/с) — ПРЕВОСХОДИТ RTX 3090!
🥇 1-е место (ex aequo): qwen3:30b-a3b — 49.3 т/с (101 ₽/т/с) — сопоставимо с RTX 3090
🥈 3-е место: qwen3:14b — 24.39 т/с (205 ₽/т/с)
🥉 4-е место: phi3:14b-128k — 22.65 т/с (221 ₽/т/с)
Средняя скорость: 37 т/с на модель
Средняя цена за т/с: 131 рубль
Рекомендации по выбору
1. Если у вас нет видеокарты вообще
Ищите на барахолке (Авито, 4pda, Юла):
- P102-100 — идеальный выбор (10GB, 250W, старая архитектура)
- P100 — тоже хорошо (16GB, но 250W)
- GTX Titan X (Maxwell) — немного медленнее, но дешевле
- RTX 2080 Ti — хорошо, но дороже
За 3-8k рублей вы найдете карту с 10-16GB VRAM и солидной производительностью.
2. Если у вас есть 10-15k рублей
Выбор: 2x P102-100 (5k) или одна новая RTX 4070 (56k)?
Ответ: Берите 2x P102-100 (остаток на другие компоненты). Производительность лучше, VRAM больше, цена меньше.
3. Если у вас есть 50-60k рублей
Новые видеокарты поколения Ada:
- RTX 4070 (56k) — хороший выбор
- Лучше чем: RTX 3070, RTX 3080, любые старые карты
- Но хуже чем: 2x P102-100 за 5k (если вы уже их нашли)
4. Избегайте
- RTX 3070 (8GB VRAM маловато, медленнее P102-100, дороже)
- RTX 3080 (хороший выбор, но дороже P102-100 и при этом медленнее на MoE)
- RTX 4080 (очень дорого, не стоит для инференса LLM)
- RTX 4090 (капиталовложение в маркетинг, не имеет смысла для инференса)
5. Идеальная стратегия в 2025
- Бюджет < 10k: Ищите на барахолке P100/P102-100
- Бюджет 10-60k: Выбирайте между 2x старых карт или одной новой RTX 4070
- Бюджет > 60k: Рассмотрите RTX 4080 или ждите скидок на RTX 5000 серию
Финальная сводка
ИНВЕСТИЦИЯ: 5,000 рублей (две видеокарты P102-100)
ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ:
- TDP каждой: 250W
- Общий TDP: 500W (при инференсе ~425W)
- VRAM: 20GB (2 × 10GB HBM1)
- CUDA ядер: 5120
- Архитектура: Maxwell (2015)
- Память: HBM1 (быстрая)
ЕЖЕМЕСЯЧНЫЕ РАСХОДЫ (24/7 инференс):
- Электричество: 1,550 ₽
- Амортизация оборудования: 83 ₽
- ИТОГО: 1,633 ₽/месяц
ПРОИЗВОДИТЕЛЬНОСТЬ:
- gpt-oss:20b: 52 т/с (превосходит RTX 3090!)
- qwen3:30b-a3b: 49.3 т/с (сопоставимо с RTX 3090)
- qwen3:14b: 24.39 т/с
- phi3:14b-128k: 22.65 т/с
РЕЗУЛЬТАТ (за 5 лет):
- Экономия vs RTX 3090: 104,820 рублей
- Экономия vs RTX 4090: 323,820 рублей
- Эффективность gpt-oss:20b: 63x дешевле за т/с чем RTX 4090
- Производительность: ПРЕВОСХОДИТ RTX 3090 (52 vs 35-40 т/с)
- VRAM: 20GB (достаточно для всех 14B-30B моделей)
- Потребление: 425W (примерно как RTX 4090)
FAQ
В: 20GB VRAM хватит для больших моделей?
О: Да, для всех квантизованных моделей до 30B параметров — более чем достаточно. Для 70B+ нужна 24GB+, но это редкие модели.
В: Если 2x P102-100 потребляют 425W, как они могут быть выгоднее?
О: Экономия на оборудовании (325k рублей), а не на электричестве. За 5 лет вы сэкономите 104k-323k рублей несмотря на похожее потребление.
В: Почему gpt-oss:20b показал 52 т/с, а форумы говорят 30 т/с?
О: Вероятно, на форумах тестировали на разных GPU (например, RTX 3070). На P102-100 с хорошей оптимизацией llama.cpp получается 52 т/с.
В: Какие ограничения у P102-100?
О: Старые драйверы, больше электричества чем хотелось бы (425W), нет тензорных операций, но для инференса это не критично.
В: Где купить P102-100?
О: Авито, 4pda, Юла, Яндекс Маркет (б/у секция). В 2025 году они становятся редкостью, цены растут. Ловите, пока можно найти за 3-8k рублей.
Автор: тестирование проведено на двух видеокартах P102-100 (10GB VRAM каждая) с использованием llama.cpp, Ollama и стандартных GGUF моделей с квантизацией Q4_K_M и Q5_K_M. Все расчеты основаны на реальных тестах и актуальных ценах на рынке России (ноябрь 2025).
Ключевые обновления:
- P102-100: 10GB VRAM на карту (20GB на двух)
- TDP: 250W каждая (500W обе), при инференсе ~425W
- gpt-oss:20b: 52 т/с — новый лидер, превосходит RTX 3090
- Долгосрочная экономия: 104k-323k рублей за 5 лет