Локальный инструмент для критики изображений с использованием моделей зрения Ollama для обратной связи

Разработчик выпустил бесплатное настольное приложение, которое предоставляет критический анализ изображений ИИ с использованием локальных моделей компьютерного зрения через Ollama. Инструмент анализирует сгенерированные ИИ изображения и создаёт структурированные отчёты с обратной связью без необходимости использования облачных сервисов.
Ключевые особенности
- Работает на 100% локально с использованием моделей компьютерного зрения Ollama
- По умолчанию использует llama3.2-vision, но можно переключиться на другие модели компьютерного зрения
- Генерирует аккуратные отчёты с определёнными разделами
- Работает как с аниме-стилем Flux/SD3, так и с фотореалистичными изображениями
Структура отчёта
- Что выглядит отлично — положительные аспекты изображения
- Что можно улучшить — области, требующие доработки
- Быстрые оценки — рейтинги для Анатомии, Цветовой гармонии и Настроения
- Общая оценка — с обоснованием оценки
- Предложение по улучшению промпта — конкретные фразы для добавления в промпты для лучших следующих генераций
Требования
Для работы инструмента требуется уже установленный Ollama и загруженная модель компьютерного зрения. Разработчик отмечает, что если у вас не настроен Ollama, этот инструмент вам не подходит.
Текущий статус и запрос обратной связи
Разработчик поделился скриншотами интерфейса приложения и двумя примерами анализов. Он ищет обратную связь от пользователей, которые действительно работают с моделями компьютерного зрения, спрашивая, какие дополнительные функции были бы полезны. Среди возможных улучшений упоминаются больше категорий оценок, возможности пакетной обработки и различные варианты фокусировки.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Локальный конвейер перевода книг использует модели Qwen 32B и Mistral 24B с контекстуальной системой RAG
Разработчик создал полностью автоматизированный конвейер перевода книг из PDF в ePub с использованием восьми скриптов на Python, Marker для извлечения PDF, Qwen 32B для перевода с глобальным глоссарием и Mistral 24B для стилевой правки.

Claude Watch: Инструмент с открытым исходным кодом для визуализации логики кода, созданного ИИ
Claude Watch — это инструмент с открытым исходным кодом, который предоставляет графическую семантическую визуализацию для проектов, созданных с помощью AI-агентов для написания кода, таких как Claude Code. Он анализирует код вложенным образом и включает AI-поиск для ответов на вопросы о логике проекта.

Открытый дизайн: Альтернатива с открытым исходным кодом для Claude Design работает на ваших локальных CLI-агентах
Open Design — это локальный дизайн-движок с поддержкой BYOK, который превращает 11 CLI-агентов для написания кода (Claude Code, Codex, Cursor, Gemini CLI и др.) в дизайн-воркфлоу с 72 брендовыми дизайн-системами и 31 композитным навыком, экспортируя HTML/PDF/PPTX/MP4.

Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.
Разработчик создал Phalanx — инструмент командной строки, который координирует работу ИИ-агентов от разных провайдеров: Codex занимается написанием кода, Claude Opus выполняет код-ревью, а Claude Sonnet управляет циклом. Вспомогательный инструмент Codebones сжимает репозитории в структурные карты для снижения расхода токенов.