P104 vs P102: когда API дешевле, а когда своё железо окупается

👁 132 IVOL-Service

TL;DR: Протестировал 2 setup'а майнинг-карт для локальных LLM. P104-100 (8GB) за 2500₽/пара — хороший старт, но P102-100 (10GB) за 5000₽/пара дает 2x скорость. Claude 4.5 остается королем качества, но локальные модели окупаются за 1-2 месяца при объеме >2M токенов. Создал калькулятор ROI для выбора между API и своим железом.


Что я тестировал: два подхода к локальным LLM

За последний месяц собрал и протестировал 2 конфигурации на майнинг-картах:

Setup 1: Budget Entry

  • 2x P104-100 (8GB) = 2500₽ total
  • Qwen3-30B: 23 т/с
  • GPT-OSS-20B: 42 т/с
  • Потребление: 400W

Setup 2: Performance

  • 2x P102-100 (10GB) = 5000₽ total
  • Qwen3-30B: 49 т/с (2.1x быстрее!)
  • GPT-OSS-20B: 52 т/с
  • Потребление: 430W

Базовая система (уже была):

  • 2x Xeon E5-2699 v4 (88 потоков)
  • 256GB RAM
  • 1TB SSD
  • 850W PSU

Сводная таблица: все модели на двух setup'ах

Модель VRAM P104 (8GB) P102 (10GB) Разница Качество*
Qwen3-30B-Q4 17.3GB 23 т/с 49.3 т/с 2.14x 8/10
GPT-OSS-20B - 42 т/с 52 т/с 1.24x 7.5/10
Qwen3-14B-Q4 9GB 16 т/с 24.4 т/с 1.53x 7/10
Qwen3-Coder - - 52.8 т/с NEW 7/10
DeepSeek-R1-32B 18.5GB 6.97 т/с - 8.5/10
Gemma3-27B 16.2GB 12.94 т/с - 6.5/10
Mixtral-8x7B 24.6GB 12.9 т/с - 7/10
Llama3.3-70B-Q3 31.9GB 2.43 т/с - 5/10

*Качество vs Claude 4.5 (10/10)

Главные выводы:

  1. P102 в 2x быстрее на больших моделях (Qwen3-30B)
  2. P104 не тянет модели >16GB (DeepSeek, Mixtral)
  3. Llama3.3-70B бесполезна даже на P102 (2.4 т/с)

Калькулятор ROI: когда своё железо выгоднее API

Формула окупаемости

def calculate_roi(tokens_per_month, hardware_cost, electricity_cost):
    """
    Расчет окупаемости локального железа vs API
    
    tokens_per_month: миллионы токенов в месяц
    hardware_cost: стоимость GPU (руб)
    electricity_cost: 400-430W * 24ч * 30д * 5₽/kWh ≈ 1500₽/мес
    """
    
    # Стоимость API (руб/мес)
    claude_cost = tokens_per_month * 0.015 * 100  # $0.015/1k токенов
    gpt4_cost = tokens_per_month * 0.01 * 100     # $0.01/1k токенов
    
    # Экономия в месяц
    savings_vs_claude = claude_cost - electricity_cost
    savings_vs_gpt4 = gpt4_cost - electricity_cost
    
    # Окупаемость (месяцы)
    roi_vs_claude = hardware_cost / savings_vs_claude
    roi_vs_gpt4 = hardware_cost / savings_vs_gpt4
    
    return roi_vs_claude, roi_vs_gpt4

# Примеры расчетов:

Таблица окупаемости по объемам

Токенов/мес Claude 4.5 GPT-5 P104 (2500₽) P102 (5000₽) ROI P104 ROI P102
1M 1500₽ 1000₽ 1440₽ 1550₽ ❌ Никогда ❌ Никогда
2M 3000₽ 2000₽ 1440₽ 1550₽ 1.6 мес 3.2 мес
3M 4500₽ 3000₽ 1440₽ 1550₽ 0.8 мес 1.6 мес
5M 7500₽ 5000₽ 1440₽ 1550₽ 0.4 мес 0.8 мес
10M 15000₽ 10000₽ 1440₽ 1550₽ 0.2 мес 0.4 мес

Точка безубыточности:

  • P104: ~1.5M токенов/мес (vs Claude)
  • P102: ~2M токенов/мес (vs Claude)

Качество: честное сравнение с API

Тестовый промпт (одинаковый для всех)

Разработай простой алгоритм на Python для игры "Угадай число" с креативным 
твистом: после 5 попыток генерируется фэнтези-история. Обоснуй выбор 
структуры алгоритма.

Результаты по категориям

Критерий Claude 4.5 GPT-5 Qwen3-30B (P102) GPT-OSS-20B DeepSeek-R1
Качество кода 10/10 9/10 8/10 7.5/10 8.5/10
Креативность 10/10 8/10 7/10 6/10 7/10
Reasoning 10/10 9/10 7/10 7/10 9/10
Скорость 10/10 (80 т/с) 9/10 (60 т/с) 8/10 (49 т/с) 8/10 (52 т/с) 3/10 (7 т/с)
Русский язык 9/10 8/10 9/10 7/10 8/10

Победители по задачам:

  • Универсал: Claude 4.5 (безоговорочный лидер)
  • Скорость локально: GPT-OSS-20B / Qwen3-Coder (52+ т/с)
  • Reasoning: DeepSeek-R1 (медленно, но умно)
  • Русский: Qwen3-30B (наравне с Claude)

Когда выбирать что: практические рекомендации

🎯 Выбирай P104 (2500₽), если:

✅ Первый опыт с локальными LLM
✅ Бюджет жестко ограничен (<3000₽)
✅ Работаешь с моделями до 14B (Qwen3-14B, Phi3)
✅ Объем 2-3M токенов/мес
✅ Не критична скорость (20-40 т/с достаточно)

Идеально для:

  • Эксперименты с промптами
  • Личные автоматизации
  • Обучение/тесты

🚀 Выбирай P102 (5000₽), если:

✅ Нужна скорость 40+ т/с
✅ Работаешь с 30B+ моделями (Qwen3-30B, DeepSeek)
✅ Объем >3M токенов/мес
✅ Планируешь услуги/продукты на AI
✅ Готов подождать карты (редкие на рынке)

Идеально для:

  • Production автоматизации
  • AI-услуги клиентам
  • Real-time обработка

💰 Выбирай API (Claude/GPT), если:

✅ Объем <1M токенов/мес
✅ Нужно топовое качество (клиентские проекты)
✅ Нет времени на настройку
✅ Важна стабильность 99.9%
✅ Нужны последние модели сразу

Идеально для:

  • MVP/прототипы
  • Критичные задачи
  • Разовые проекты

Гибридный подход: мой выбор

Локально (P102 + Qwen3-30B):

  • ✅ Рутинные автоматизации (логи, парсинг)
  • ✅ Черновики контента
  • ✅ Код-ревью внутренних проектов
  • ✅ Эксперименты с промптами
  • Объем: 4-5M токенов/мес → $0 за запросы

API (Claude 4.5):

  • ✅ Финальная проверка для клиентов
  • ✅ Сложные reasoning задачи
  • ✅ Генерация критичного кода
  • Объем: 200-500k токенов/мес → ~$7.5 (750₽)

Экономия: 4500₽/мес (если бы всё через API) - 750₽ (гибрид) - 1550₽ (электричество) = 2200₽/мес чистой экономии


Практические советы из опыта

1. Как выбирать карты на Avito

# Чек-лист перед покупкой:
1. Попроси скриншот nvidia-smi
2. Проверь версию драйверов (нужен 470-535)
3. Уточни про термопасту (когда меняли)
4. Спроси про гарантию возврата (хотя бы 3 дня)

# Красные флаги:
- Цена сильно ниже рынка (скорее всего битая)
- Нет фото самой карты (только стоковые)
- Продавец не может сделать тест

2. Оптимальные настройки мощности

# P104 (8GB)
sudo nvidia-smi -pl 120  # 120W вместо 250W
# Результат: -5% скорость, -33% потребление

# P102 (10GB)  
sudo nvidia-smi -pl 140  # 140W вместо 250W
# Результат: -4% скорость, -22% потребление

3. Выбор моделей под задачи

Задача Рекомендую Скорость на P102 Почему
Код PHP/Python Qwen3-Coder 53 т/с Быстро + специализация
Анализ данных Qwen3-30B 49 т/с Баланс скорости/качества
Reasoning DeepSeek-R1-32B 7 т/с Топ для сложных задач
Русский контент Qwen3-30B 49 т/с Лучший русский
Quick & dirty GPT-OSS-20B 52 т/с Максимальная скорость

Финансовый итог: мои результаты за месяц

Инвестиции:

  • P104 (тест): 2500₽ (продал за 2000₽ после теста)
  • P102 (основные): 5000₽
  • Настройка/тесты: ~20 часов времени
  • Total: ~5500₽ + время

Экономия:

  • Сгенерировано: ~5M токенов
  • Сэкономлено vs Claude: 7500₽ - 1550₽ = 5950₽
  • За вычетом инвестиций: 5950₽ - 5500₽ = 450₽ в плюс с первого месяца
  • Со второго месяца: 5950₽/мес чистой экономии

Дополнительная ценность:

  • ✅ Полная приватность данных
  • ✅ Нет лимитов/rate limits
  • ✅ Возможность fine-tuning
  • ✅ Опыт для будущих проектов

Выводы: кому что подходит

🥉 Начинающим (P104, 2500₽)

  • Отличная точка входа
  • Окупается за 1-2 месяца
  • Достаточно для 90% задач
  • Оценка: 8/10

🥈 Продвинутым (P102, 5000₽)

  • 2x скорость за 2x цену = fair deal
  • Раскрывает 30B+ модели
  • Production ready
  • Оценка: 9/10

🥇 Профессионалам (API)

  • Claude 4.5 остается королем
  • Для критичных задач незаменим
  • Гибридный подход оптимален
  • Оценка: 10/10 (но дорого)

FAQ: частые вопросы

Q: А что если карта сдохнет?
A: При 2500₽/карта это не критично. Окупается за месяц, риск оправдан.

Q: Можно ли майнить параллельно?
A: Нет, inference загружает GPU на 100%. Либо AI, либо майнинг.

Q: Хватит ли для коммерческих проектов?
A: Для MVP и небольших проектов — да. Для энтерпрайза — нужен API или кластер.

Q: Стоит ли ждать новые модели GPT-6/Claude 5?
A: API всегда будут впереди по качеству. Но локальные модели догоняют с лагом 6-12 месяцев.


Что дальше?

  1. Мечта: кластер 8x P102 для Llama-405B (нужно 80GB VRAM)
  2. Реальность: добавлю еще 2x P102 для параллельных запросов
  3. Эксперимент: fine-tuning Qwen3 на своих данных

Мои контакты:


Время чтения: 7 мин
Всего слов: 1247
Обновлено: