GitHub - empenoso/llm-stock-market-predictor: 🤖 Teaching LLMs to read stock charts: converting OHLCV data to text patterns for price prediction using DistilBERT | Эксперимент по обучению языковой модели предсказывать движение цен через текстовое описание графиков

🧠 LLM Finance Predictor

Может ли языковая модель научиться читать биржевые графики?

🧩 Идея проекта

Эксперимент: можно ли заставить языковую модель (LLM) понимать поведение рынка, если подать график в виде текста, а не чисел?

Каждые 10 дней торгов превращаются в короткие текстовые описания вроде:

price rising strongly, volume increasing, near resistance

Эти фразы читает модель DistilBERT и пытается определить, пойдёт ли цена вверх или вниз на следующий день.

⚙️ Технологический стек

Компонент	Версия / Особенности
Python	3.11
PyTorch	2.7.0 (CUDA 12.8, cuDNN 9)
Transformers	4.35.2
Tokenizers	0.15.0
Docker	полностью изолированная среда
GPU	поддержка RTX Blackwell (sm_120)

📈 Результаты эксперимента на 227 бумаг TQBR Московской биржи

Метрика	Средний AUC по всем бумагам	Лучшие тикеры	Худшие тикеры
AUC	≈ 0.53	`AFLT (0.72)`, `RTSB (0.70)`	`PLZL (0.33)`, `CHMF (0.36)`

Модель предсказывает направление немного лучше случайного угадывания, но при этом понимает контекст рыночных движений через язык.

🧰 Быстрый старт

1️⃣ Клонирование репозитория

git clone https://github.com/empenoso/llm-stock-market-predictor.git

cd llm-stock-market-predictor

2️⃣ Сборка Docker-образа

docker build -t llm_predictor .

3️⃣ Запуск эксперимента

bash run.sh

4️⃣ Очистка образа

bash cleanup.sh

📊 Структура проекта

Файл	Назначение
llm_finance_predictor.py	Основная логика обработки OHLCV → текст → предсказания
multi_ticker_experiment.py	Пакетное тестирование на множестве тикеров
Dockerfile	Контейнер с CUDA и нужными библиотеками
cleanup.sh	Очистка Docker-образа и кэша
requirements.txt	Зависимости (фиксированные версии)
/Data/	Каталог с котировками (`.txt` или `.csv`)
/results/	Сюда сохраняются метрики и графики

🧮 Как работает конвейер

Преобразование OHLCV → троичные признаки (рост, падение, боковик)
Генерация текста → на естественном английском (price rising strongly, near resistance)
Обучение DistilBERT → бинарная классификация (рост / падение)
Walk-forward валидация → имитация реального рынка
Оценка качества → метрики Accuracy, Precision, Recall, F1, AUC

🧩 Пример текстовой разметки

Дата	Описание	Target
2024-06-21	price rising strongly, volume increasing, near resistance	1
2024-06-24	price consolidating, sideways movement, low volatility	0

🚀 Особенности

Полностью воспроизводимо в Docker
Поддержка новых GPU Blackwell (RTX 5060 Ti и выше)
Векторизованная обработка >200 тикеров
Готовый шаблон для собственных LLM-экспериментов на рынке

📦 Результаты и логи

Все метрики (accuracy, f1, auc) сохраняются в /results

🧑‍💻 Автор

Михаил Шардин

Онлайн-визитка: shardin.name

Telegram-канал: "Умный Дом Инвестора"

Проект создан как исследование: не торговый алгоритм, а демонстрация того, как языковые модели могут «читать» рынок как текст.

🧠 Идеи для продолжения

Использовать LLaMA, Mistral или Gemma для более сложных текстовых паттернов
Применить мультимодальные модели (текст + изображение графика)
Добавить дообучение на финансовых статьях и отчетах компаний

🪪 Лицензия

Проект распространяется под лицензией MIT — свободно используйте, улучшайте и развивайте, пришлите весточку когда всё получится.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠 LLM Finance Predictor

🧩 Идея проекта

⚙️ Технологический стек

📈 Результаты эксперимента на 227 бумаг TQBR Московской биржи

🧰 Быстрый старт

1️⃣ Клонирование репозитория

2️⃣ Сборка Docker-образа

3️⃣ Запуск эксперимента

4️⃣ Очистка образа

📊 Структура проекта

🧮 Как работает конвейер

🧩 Пример текстовой разметки

🚀 Особенности

📦 Результаты и логи

🧑‍💻 Автор

🧠 Идеи для продолжения

🪪 Лицензия

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
Data/Tinkoff		Data/Tinkoff
results		results
Dockerfile		Dockerfile
README.md		README.md
cleanup.sh		cleanup.sh
llm_finance_predictor.py		llm_finance_predictor.py
multi_ticker_experiment.py		multi_ticker_experiment.py
requirements.txt		requirements.txt
run.sh		run.sh
test_cuda.py		test_cuda.py

Folders and files

Latest commit

History

Repository files navigation

🧠 LLM Finance Predictor

🧩 Идея проекта

⚙️ Технологический стек

📈 Результаты эксперимента на 227 бумаг TQBR Московской биржи

🧰 Быстрый старт

1️⃣ Клонирование репозитория

2️⃣ Сборка Docker-образа

3️⃣ Запуск эксперимента

4️⃣ Очистка образа

📊 Структура проекта

🧮 Как работает конвейер

🧩 Пример текстовой разметки

🚀 Особенности

📦 Результаты и логи

🧑‍💻 Автор

🧠 Идеи для продолжения

🪪 Лицензия

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages