P104 vs P102: когда API дешевле, а когда своё железо ок

TL;DR: Протестировал 2 setup'а майнинг-карт для локальных LLM. P104-100 (8GB) за 2500₽/пара — хороший старт, но P102-100 (10GB) за 5000₽/пара дает 2x скорость. Claude 4.5 остается королем качества, но локальные модели окупаются за 1-2 месяца при объеме >2M токенов. Создал калькулятор ROI для выбора между API и своим железом.

Что я тестировал: два подхода к локальным LLM

За последний месяц собрал и протестировал 2 конфигурации на майнинг-картах:

Setup 1: Budget Entry

2x P104-100 (8GB) = 2500₽ total
Qwen3-30B: 23 т/с
GPT-OSS-20B: 42 т/с
Потребление: 400W

Setup 2: Performance

2x P102-100 (10GB) = 5000₽ total
Qwen3-30B: 49 т/с (2.1x быстрее!)
GPT-OSS-20B: 52 т/с
Потребление: 430W

Базовая система (уже была):

2x Xeon E5-2699 v4 (88 потоков)
256GB RAM
1TB SSD
850W PSU

Сводная таблица: все модели на двух setup'ах

Модель	VRAM	P104 (8GB)	P102 (10GB)	Разница	Качество*
Qwen3-30B-Q4	17.3GB	23 т/с	49.3 т/с	2.14x	8/10
GPT-OSS-20B	-	42 т/с	52 т/с	1.24x	7.5/10
Qwen3-14B-Q4	9GB	16 т/с	24.4 т/с	1.53x	7/10
Qwen3-Coder	-	-	52.8 т/с	NEW	7/10
DeepSeek-R1-32B	18.5GB	❌	6.97 т/с	-	8.5/10
Gemma3-27B	16.2GB	❌	12.94 т/с	-	6.5/10
Mixtral-8x7B	24.6GB	❌	12.9 т/с	-	7/10
Llama3.3-70B-Q3	31.9GB	❌	2.43 т/с	-	5/10

*Качество vs Claude 4.5 (10/10)

Главные выводы:

P102 в 2x быстрее на больших моделях (Qwen3-30B)
P104 не тянет модели >16GB (DeepSeek, Mixtral)
Llama3.3-70B бесполезна даже на P102 (2.4 т/с)

Калькулятор ROI: когда своё железо выгоднее API

Формула окупаемости

def calculate_roi(tokens_per_month, hardware_cost, electricity_cost):
    """
    Расчет окупаемости локального железа vs API
    
    tokens_per_month: миллионы токенов в месяц
    hardware_cost: стоимость GPU (руб)
    electricity_cost: 400-430W * 24ч * 30д * 5₽/kWh ≈ 1500₽/мес
    """
    
    # Стоимость API (руб/мес)
    claude_cost = tokens_per_month * 0.015 * 100  # $0.015/1k токенов
    gpt4_cost = tokens_per_month * 0.01 * 100     # $0.01/1k токенов
    
    # Экономия в месяц
    savings_vs_claude = claude_cost - electricity_cost
    savings_vs_gpt4 = gpt4_cost - electricity_cost
    
    # Окупаемость (месяцы)
    roi_vs_claude = hardware_cost / savings_vs_claude
    roi_vs_gpt4 = hardware_cost / savings_vs_gpt4
    
    return roi_vs_claude, roi_vs_gpt4

# Примеры расчетов:

Таблица окупаемости по объемам

Токенов/мес	Claude 4.5	GPT-5	P104 (2500₽)	P102 (5000₽)	ROI P104	ROI P102
1M	1500₽	1000₽	1440₽	1550₽	❌ Никогда	❌ Никогда
2M	3000₽	2000₽	1440₽	1550₽	1.6 мес	3.2 мес
3M	4500₽	3000₽	1440₽	1550₽	0.8 мес	1.6 мес
5M	7500₽	5000₽	1440₽	1550₽	0.4 мес	0.8 мес
10M	15000₽	10000₽	1440₽	1550₽	0.2 мес	0.4 мес

Точка безубыточности:

P104: ~1.5M токенов/мес (vs Claude)
P102: ~2M токенов/мес (vs Claude)

Качество: честное сравнение с API

Тестовый промпт (одинаковый для всех)

Разработай простой алгоритм на Python для игры "Угадай число" с креативным 
твистом: после 5 попыток генерируется фэнтези-история. Обоснуй выбор 
структуры алгоритма.

Результаты по категориям

Критерий	Claude 4.5	GPT-5	Qwen3-30B (P102)	GPT-OSS-20B	DeepSeek-R1
Качество кода	10/10	9/10	8/10	7.5/10	8.5/10
Креативность	10/10	8/10	7/10	6/10	7/10
Reasoning	10/10	9/10	7/10	7/10	9/10
Скорость	10/10 (80 т/с)	9/10 (60 т/с)	8/10 (49 т/с)	8/10 (52 т/с)	3/10 (7 т/с)
Русский язык	9/10	8/10	9/10	7/10	8/10

Победители по задачам:

Универсал: Claude 4.5 (безоговорочный лидер)
Скорость локально: GPT-OSS-20B / Qwen3-Coder (52+ т/с)
Reasoning: DeepSeek-R1 (медленно, но умно)
Русский: Qwen3-30B (наравне с Claude)

Когда выбирать что: практические рекомендации

🎯 Выбирай P104 (2500₽), если:

✅ Первый опыт с локальными LLM
✅ Бюджет жестко ограничен (<3000₽)
✅ Работаешь с моделями до 14B (Qwen3-14B, Phi3)
✅ Объем 2-3M токенов/мес
✅ Не критична скорость (20-40 т/с достаточно)

Идеально для:

Эксперименты с промптами
Личные автоматизации
Обучение/тесты

🚀 Выбирай P102 (5000₽), если:

✅ Нужна скорость 40+ т/с
✅ Работаешь с 30B+ моделями (Qwen3-30B, DeepSeek)
✅ Объем >3M токенов/мес
✅ Планируешь услуги/продукты на AI
✅ Готов подождать карты (редкие на рынке)

Идеально для:

Production автоматизации
AI-услуги клиентам
Real-time обработка

💰 Выбирай API (Claude/GPT), если:

✅ Объем <1M токенов/мес
✅ Нужно топовое качество (клиентские проекты)
✅ Нет времени на настройку
✅ Важна стабильность 99.9%
✅ Нужны последние модели сразу

Идеально для:

MVP/прототипы
Критичные задачи
Разовые проекты

Гибридный подход: мой выбор

Локально (P102 + Qwen3-30B):

✅ Рутинные автоматизации (логи, парсинг)
✅ Черновики контента
✅ Код-ревью внутренних проектов
✅ Эксперименты с промптами
Объем: 4-5M токенов/мес → $0 за запросы

API (Claude 4.5):

✅ Финальная проверка для клиентов
✅ Сложные reasoning задачи
✅ Генерация критичного кода
Объем: 200-500k токенов/мес → ~$7.5 (750₽)

Экономия: 4500₽/мес (если бы всё через API) - 750₽ (гибрид) - 1550₽ (электричество) = 2200₽/мес чистой экономии

Практические советы из опыта

1. Как выбирать карты на Avito

# Чек-лист перед покупкой:
1. Попроси скриншот nvidia-smi
2. Проверь версию драйверов (нужен 470-535)
3. Уточни про термопасту (когда меняли)
4. Спроси про гарантию возврата (хотя бы 3 дня)

# Красные флаги:
- Цена сильно ниже рынка (скорее всего битая)
- Нет фото самой карты (только стоковые)
- Продавец не может сделать тест

2. Оптимальные настройки мощности

# P104 (8GB)
sudo nvidia-smi -pl 120  # 120W вместо 250W
# Результат: -5% скорость, -33% потребление

# P102 (10GB)  
sudo nvidia-smi -pl 140  # 140W вместо 250W
# Результат: -4% скорость, -22% потребление

3. Выбор моделей под задачи

Задача	Рекомендую	Скорость на P102	Почему
Код PHP/Python	Qwen3-Coder	53 т/с	Быстро + специализация
Анализ данных	Qwen3-30B	49 т/с	Баланс скорости/качества
Reasoning	DeepSeek-R1-32B	7 т/с	Топ для сложных задач
Русский контент	Qwen3-30B	49 т/с	Лучший русский
Quick & dirty	GPT-OSS-20B	52 т/с	Максимальная скорость

Финансовый итог: мои результаты за месяц

Инвестиции:

P104 (тест): 2500₽ (продал за 2000₽ после теста)
P102 (основные): 5000₽
Настройка/тесты: ~20 часов времени
Total: ~5500₽ + время

Экономия:

Сгенерировано: ~5M токенов
Сэкономлено vs Claude: 7500₽ - 1550₽ = 5950₽
За вычетом инвестиций: 5950₽ - 5500₽ = 450₽ в плюс с первого месяца
Со второго месяца: 5950₽/мес чистой экономии

Дополнительная ценность:

✅ Полная приватность данных
✅ Нет лимитов/rate limits
✅ Возможность fine-tuning
✅ Опыт для будущих проектов

Выводы: кому что подходит

🥉 Начинающим (P104, 2500₽)

Отличная точка входа
Окупается за 1-2 месяца
Достаточно для 90% задач
Оценка: 8/10

🥈 Продвинутым (P102, 5000₽)

2x скорость за 2x цену = fair deal
Раскрывает 30B+ модели
Production ready
Оценка: 9/10

🥇 Профессионалам (API)

Claude 4.5 остается королем
Для критичных задач незаменим
Гибридный подход оптимален
Оценка: 10/10 (но дорого)

FAQ: частые вопросы

Q: А что если карта сдохнет?
A: При 2500₽/карта это не критично. Окупается за месяц, риск оправдан.

Q: Можно ли майнить параллельно?
A: Нет, inference загружает GPU на 100%. Либо AI, либо майнинг.

Q: Хватит ли для коммерческих проектов?
A: Для MVP и небольших проектов — да. Для энтерпрайза — нужен API или кластер.

Q: Стоит ли ждать новые модели GPT-6/Claude 5?
A: API всегда будут впереди по качеству. Но локальные модели догоняют с лагом 6-12 месяцев.

Что дальше?

Мечта: кластер 8x P102 для Llama-405B (нужно 80GB VRAM)
Реальность: добавлю еще 2x P102 для параллельных запросов
Эксперимент: fine-tuning Qwen3 на своих данных

Мои контакты:

Telegram: @olyanskiy_tech

P104 vs P102: когда API дешевле, а когда своё железо окупается

Что я тестировал: два подхода к локальным LLM

Сводная таблица: все модели на двух setup'ах

Калькулятор ROI: когда своё железо выгоднее API

Формула окупаемости

Таблица окупаемости по объемам

Качество: честное сравнение с API

Тестовый промпт (одинаковый для всех)

Результаты по категориям

Когда выбирать что: практические рекомендации

🎯 Выбирай P104 (2500₽), если:

🚀 Выбирай P102 (5000₽), если:

💰 Выбирай API (Claude/GPT), если:

Гибридный подход: мой выбор

Практические советы из опыта

1. Как выбирать карты на Avito

2. Оптимальные настройки мощности

3. Выбор моделей под задачи

Финансовый итог: мои результаты за месяц

Выводы: кому что подходит

🥉 Начинающим (P104, 2500₽)

🥈 Продвинутым (P102, 5000₽)

🥇 Профессионалам (API)

FAQ: частые вопросы

Что дальше?