Как снизить стоимость Claude с помощью Markdown

Аналитик данных опубликовал простой файл Markdown, который позволяет снизить объём выходных токенов у Claude более чем в два раза без изменений в коде.

Файл с именем Claude.md содержит набор инструкций, которые управляют поведением модели и делают ответы значительно короче. По оценке автора, сокращение достигает примерно 63%.

Ограничение поведения модели

В основе подхода лежит жёсткая настройка правил генерации. В инструкциях задаются ограничения на длину ответа, акцент на экономию токенов и точность, а также запрет на лишние рассуждения и предположения.

Также регулируется стиль текста: убираются избыточные элементы оформления, упрощается генерация кода и вводятся правила приоритета инструкций. Это заставляет модель отвечать более сдержанно и последовательно.

Удаление лишнего текста

Подход направлен на устранение всех элементов, не несущих полезной информации.

Исключаются приветствия вроде "Sure!" или "Great question!", финальные фразы типа "I hope this helps", повторение вопроса пользователя и дополнительные рекомендации, которые не запрашивались.

Дополнительно убираются типографические особенности, такие как длинные тире и нестандартные Unicode-символы, которые могут мешать обработке текста.

Где это даёт эффект

Файл наиболее полезен в сценариях с большим количеством повторяющихся запросов.

Речь идёт об автоматизированных пайплайнах, генерации кода, агентных системах и задачах с фиксированным форматом вывода, где избыточность накапливается при каждом вызове модели.

Также он подходит для командной работы, где требуется единообразный и предсказуемый формат ответов.

Ограничения подхода

Использование такого файла может быть неэффективным в разовых запросах или задачах, требующих развернутых объяснений и итераций.

Кроме того, сам файл добавляет входные токены к каждому запросу, что снижает выгоду в некоторых сценариях.

Экономический эффект

В симуляциях при 100 запросах в день экономия составляет около 9600 токенов, что эквивалентно примерно 0.86 доллара в месяц.

При 1000 запросах в день экономия будет около 96 000 токенов или 8.64 доллара в месяц. При использовании в нескольких проектах суммарная экономия может достигать почти 288 000 токенов, что соответствует примерно 25.92 доллара в месяц.

Аналитики отмечают, что снижение объёма токенов на 63% может заметно уменьшить расходы и задержки при работе с высоконагруженными системами на базе Claude.

Источник: InfoWorld

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Технологии и IT-новости 2 месяца назад

Зонт, который летает сам за вами: руки свободны, дождь не страшен

Необычное изобретение - автономный летающий зонт-дрон, который самостоятельно следует за человеком и защищает его от дождя. Разбираем, как работает устройство, с какими трудностями столкнулся автор и почему этот проект важен для будущего автономных гаджетов.

Google представила TurboQuant: снижение памяти LLM в 6 раз без потери точности

Google представила TurboQuant - алгоритм сжатия, который уменьшает использование памяти LLM в шесть раз без потери точности. Технология также ускоряет вычисления и снижает требования к инфраструктуре.

Технологии и IT-новости 3 месяца назад

1X отправляет своих "домашних" гуманоидов на заводы и склады

Компания 1X объявила о партнёрстве с инвестиционной группой EQT, благодаря которому домашние гуманоиды Neo будут поставлены на производство и склады. Это стратегический шаг, позволяющий расширить применение роботов за пределы бытового использования.