Извлечение постов из HTML-чата и сохранение в Excel
Необходимо обработать файл с экспортированными чатами и извлечь только текст сообщений без тегов, ссылок, названий каналов и других метаданных. Результат оформить в таблицу Excel, где каждый пост должен быть размещен в отдельной строке.
Технические требования:
Исходные данные: HTML-файл с сохраненными чатами.Выходные данные: Excel-файл (.xlsx) с одним столбцом, содержащим только текст постов.Что удалить:Названия каналов и отправителейДаты и время сообщенийВложения (фото, видео, ссылки и т. д.)Системные сообщения (например, «Channel title changed»)Форматирование:Один столбецКаждый пост — в отдельной строкеЕсли сообщение состоит из нескольких частей, они объединяются в один пост (например, если в одном посте есть текст и ссылка, они должны остаться в одной ячейке)Без пустых строк и дубликатовТребования:
Умение работать с HTML и парсингом данныхОпыт работы с Python (BeautifulSoup, Pandas) или другими методами извлечения данныхГарантия корректности извлеченных данных
Рекомендации по выполнениюДля извлечения постов можно использовать Python и библиотеку BeautifulSoup.
Открыть HTML-файл и распарсить его.Найти все элементы , внутри которых находятся текстовые сообщения.Исключить ненужные элементы (from_name, pull_right date details, ссылки).Объединять сообщения, которые относятся к одному посту (например, если пост состоит из нескольких сообщений подряд от одного автора).Записать очищенные посты в Excel, используя Pandas (to_excel).
Десктоп программирование