TL;DR: Протестировал 2 setup'а майнинг-карт для локальных LLM. P104-100 (8GB) за 2500₽/пара — хороший старт, но P102-100 (10GB) за 5000₽/пара дает 2x скорость. Claude 4.5 остается королем качества, но локальные модели окупаются за 1-2 месяца при объеме >2M токенов. Создал калькулятор ROI для выбора между API и своим железом.
Что я тестировал: два подхода к локальным LLM
За последний месяц собрал и протестировал 2 конфигурации на майнинг-картах:
Setup 1: Budget Entry
- 2x P104-100 (8GB) = 2500₽ total
- Qwen3-30B: 23 т/с
- GPT-OSS-20B: 42 т/с
- Потребление: 400W
Setup 2: Performance
- 2x P102-100 (10GB) = 5000₽ total
- Qwen3-30B: 49 т/с (2.1x быстрее!)
- GPT-OSS-20B: 52 т/с
- Потребление: 430W
Базовая система (уже была):
- 2x Xeon E5-2699 v4 (88 потоков)
- 256GB RAM
- 1TB SSD
- 850W PSU
Сводная таблица: все модели на двух setup'ах
| Модель | VRAM | P104 (8GB) | P102 (10GB) | Разница | Качество* |
|---|---|---|---|---|---|
| Qwen3-30B-Q4 | 17.3GB | 23 т/с | 49.3 т/с | 2.14x | 8/10 |
| GPT-OSS-20B | - | 42 т/с | 52 т/с | 1.24x | 7.5/10 |
| Qwen3-14B-Q4 | 9GB | 16 т/с | 24.4 т/с | 1.53x | 7/10 |
| Qwen3-Coder | - | - | 52.8 т/с | NEW | 7/10 |
| DeepSeek-R1-32B | 18.5GB | ❌ | 6.97 т/с | - | 8.5/10 |
| Gemma3-27B | 16.2GB | ❌ | 12.94 т/с | - | 6.5/10 |
| Mixtral-8x7B | 24.6GB | ❌ | 12.9 т/с | - | 7/10 |
| Llama3.3-70B-Q3 | 31.9GB | ❌ | 2.43 т/с | - | 5/10 |
*Качество vs Claude 4.5 (10/10)
Главные выводы:
- P102 в 2x быстрее на больших моделях (Qwen3-30B)
- P104 не тянет модели >16GB (DeepSeek, Mixtral)
- Llama3.3-70B бесполезна даже на P102 (2.4 т/с)
Калькулятор ROI: когда своё железо выгоднее API
Формула окупаемости
def calculate_roi(tokens_per_month, hardware_cost, electricity_cost):
"""
Расчет окупаемости локального железа vs API
tokens_per_month: миллионы токенов в месяц
hardware_cost: стоимость GPU (руб)
electricity_cost: 400-430W * 24ч * 30д * 5₽/kWh ≈ 1500₽/мес
"""
# Стоимость API (руб/мес)
claude_cost = tokens_per_month * 0.015 * 100 # $0.015/1k токенов
gpt4_cost = tokens_per_month * 0.01 * 100 # $0.01/1k токенов
# Экономия в месяц
savings_vs_claude = claude_cost - electricity_cost
savings_vs_gpt4 = gpt4_cost - electricity_cost
# Окупаемость (месяцы)
roi_vs_claude = hardware_cost / savings_vs_claude
roi_vs_gpt4 = hardware_cost / savings_vs_gpt4
return roi_vs_claude, roi_vs_gpt4
# Примеры расчетов:
Таблица окупаемости по объемам
| Токенов/мес | Claude 4.5 | GPT-5 | P104 (2500₽) | P102 (5000₽) | ROI P104 | ROI P102 |
|---|---|---|---|---|---|---|
| 1M | 1500₽ | 1000₽ | 1440₽ | 1550₽ | ❌ Никогда | ❌ Никогда |
| 2M | 3000₽ | 2000₽ | 1440₽ | 1550₽ | 1.6 мес | 3.2 мес |
| 3M | 4500₽ | 3000₽ | 1440₽ | 1550₽ | 0.8 мес | 1.6 мес |
| 5M | 7500₽ | 5000₽ | 1440₽ | 1550₽ | 0.4 мес | 0.8 мес |
| 10M | 15000₽ | 10000₽ | 1440₽ | 1550₽ | 0.2 мес | 0.4 мес |
Точка безубыточности:
- P104: ~1.5M токенов/мес (vs Claude)
- P102: ~2M токенов/мес (vs Claude)
Качество: честное сравнение с API
Тестовый промпт (одинаковый для всех)
Разработай простой алгоритм на Python для игры "Угадай число" с креативным
твистом: после 5 попыток генерируется фэнтези-история. Обоснуй выбор
структуры алгоритма.
Результаты по категориям
| Критерий | Claude 4.5 | GPT-5 | Qwen3-30B (P102) | GPT-OSS-20B | DeepSeek-R1 |
|---|---|---|---|---|---|
| Качество кода | 10/10 | 9/10 | 8/10 | 7.5/10 | 8.5/10 |
| Креативность | 10/10 | 8/10 | 7/10 | 6/10 | 7/10 |
| Reasoning | 10/10 | 9/10 | 7/10 | 7/10 | 9/10 |
| Скорость | 10/10 (80 т/с) | 9/10 (60 т/с) | 8/10 (49 т/с) | 8/10 (52 т/с) | 3/10 (7 т/с) |
| Русский язык | 9/10 | 8/10 | 9/10 | 7/10 | 8/10 |
Победители по задачам:
- Универсал: Claude 4.5 (безоговорочный лидер)
- Скорость локально: GPT-OSS-20B / Qwen3-Coder (52+ т/с)
- Reasoning: DeepSeek-R1 (медленно, но умно)
- Русский: Qwen3-30B (наравне с Claude)
Когда выбирать что: практические рекомендации
🎯 Выбирай P104 (2500₽), если:
✅ Первый опыт с локальными LLM
✅ Бюджет жестко ограничен (<3000₽)
✅ Работаешь с моделями до 14B (Qwen3-14B, Phi3)
✅ Объем 2-3M токенов/мес
✅ Не критична скорость (20-40 т/с достаточно)
Идеально для:
- Эксперименты с промптами
- Личные автоматизации
- Обучение/тесты
🚀 Выбирай P102 (5000₽), если:
✅ Нужна скорость 40+ т/с
✅ Работаешь с 30B+ моделями (Qwen3-30B, DeepSeek)
✅ Объем >3M токенов/мес
✅ Планируешь услуги/продукты на AI
✅ Готов подождать карты (редкие на рынке)
Идеально для:
- Production автоматизации
- AI-услуги клиентам
- Real-time обработка
💰 Выбирай API (Claude/GPT), если:
✅ Объем <1M токенов/мес
✅ Нужно топовое качество (клиентские проекты)
✅ Нет времени на настройку
✅ Важна стабильность 99.9%
✅ Нужны последние модели сразу
Идеально для:
- MVP/прототипы
- Критичные задачи
- Разовые проекты
Гибридный подход: мой выбор
Локально (P102 + Qwen3-30B):
- ✅ Рутинные автоматизации (логи, парсинг)
- ✅ Черновики контента
- ✅ Код-ревью внутренних проектов
- ✅ Эксперименты с промптами
- Объем: 4-5M токенов/мес → $0 за запросы
API (Claude 4.5):
- ✅ Финальная проверка для клиентов
- ✅ Сложные reasoning задачи
- ✅ Генерация критичного кода
- Объем: 200-500k токенов/мес → ~$7.5 (750₽)
Экономия: 4500₽/мес (если бы всё через API) - 750₽ (гибрид) - 1550₽ (электричество) = 2200₽/мес чистой экономии
Практические советы из опыта
1. Как выбирать карты на Avito
# Чек-лист перед покупкой:
1. Попроси скриншот nvidia-smi
2. Проверь версию драйверов (нужен 470-535)
3. Уточни про термопасту (когда меняли)
4. Спроси про гарантию возврата (хотя бы 3 дня)
# Красные флаги:
- Цена сильно ниже рынка (скорее всего битая)
- Нет фото самой карты (только стоковые)
- Продавец не может сделать тест
2. Оптимальные настройки мощности
# P104 (8GB)
sudo nvidia-smi -pl 120 # 120W вместо 250W
# Результат: -5% скорость, -33% потребление
# P102 (10GB)
sudo nvidia-smi -pl 140 # 140W вместо 250W
# Результат: -4% скорость, -22% потребление
3. Выбор моделей под задачи
| Задача | Рекомендую | Скорость на P102 | Почему |
|---|---|---|---|
| Код PHP/Python | Qwen3-Coder | 53 т/с | Быстро + специализация |
| Анализ данных | Qwen3-30B | 49 т/с | Баланс скорости/качества |
| Reasoning | DeepSeek-R1-32B | 7 т/с | Топ для сложных задач |
| Русский контент | Qwen3-30B | 49 т/с | Лучший русский |
| Quick & dirty | GPT-OSS-20B | 52 т/с | Максимальная скорость |
Финансовый итог: мои результаты за месяц
Инвестиции:
- P104 (тест): 2500₽ (продал за 2000₽ после теста)
- P102 (основные): 5000₽
- Настройка/тесты: ~20 часов времени
- Total: ~5500₽ + время
Экономия:
- Сгенерировано: ~5M токенов
- Сэкономлено vs Claude: 7500₽ - 1550₽ = 5950₽
- За вычетом инвестиций: 5950₽ - 5500₽ = 450₽ в плюс с первого месяца
- Со второго месяца: 5950₽/мес чистой экономии
Дополнительная ценность:
- ✅ Полная приватность данных
- ✅ Нет лимитов/rate limits
- ✅ Возможность fine-tuning
- ✅ Опыт для будущих проектов
Выводы: кому что подходит
🥉 Начинающим (P104, 2500₽)
- Отличная точка входа
- Окупается за 1-2 месяца
- Достаточно для 90% задач
- Оценка: 8/10
🥈 Продвинутым (P102, 5000₽)
- 2x скорость за 2x цену = fair deal
- Раскрывает 30B+ модели
- Production ready
- Оценка: 9/10
🥇 Профессионалам (API)
- Claude 4.5 остается королем
- Для критичных задач незаменим
- Гибридный подход оптимален
- Оценка: 10/10 (но дорого)
FAQ: частые вопросы
Q: А что если карта сдохнет?
A: При 2500₽/карта это не критично. Окупается за месяц, риск оправдан.
Q: Можно ли майнить параллельно?
A: Нет, inference загружает GPU на 100%. Либо AI, либо майнинг.
Q: Хватит ли для коммерческих проектов?
A: Для MVP и небольших проектов — да. Для энтерпрайза — нужен API или кластер.
Q: Стоит ли ждать новые модели GPT-6/Claude 5?
A: API всегда будут впереди по качеству. Но локальные модели догоняют с лагом 6-12 месяцев.
Что дальше?
- Мечта: кластер 8x P102 для Llama-405B (нужно 80GB VRAM)
- Реальность: добавлю еще 2x P102 для параллельных запросов
- Эксперимент: fine-tuning Qwen3 на своих данных
Мои контакты:
- Telegram: @olyanskiy_tech