Имеется датасет (~30 млн записей) с чат-сообщениями, содержащий поля: message_id, chat_id, user_id, text, date, created_at. Требуется:
1. реализовать классификацию сообщений как "полезные" и "спам" средствами PostgreSQL (или SQL+Python), выявив текстовые признаки и написав соответствующие запросы;
2. реализовать быструю классификацию "спам/не спам" на Python в реальном времени (500 сообщений/сек, без GPU, только по полю text);
3. после удаления спама классифицировать чаты по тематикам на основе текста сообщений средствами Python или SQL.
Более подробное ТЗ: https://docs.google.com/document/d/1K5Md70g0_Gv2zQHJrIrdetHIKzJ5iH0-NbxUq3LA_Hs/edit?usp=sharing