textpolicy

PyPI page
Home page
Author: None
Summary: Reinforcement learning for text generation on MLX (Apple Silicon): GRPO/GSPO, environments, rollout, rewards, LoRA/QLoRA
Latest version: 0.1.11
Required dependencies: aiohttp | gymnasium | mlx | mlx-lm | numpy | psutil | pytest | wandb
Optional dependencies: aiohttp | black | pydantic | pytest | ruff | scikit-learn | sentence-transformers

Downloads last day: 2
Downloads last week: 53
Downloads last month: 181