Парсер на Python
Нужен код на Python, который будет парсить эту ссылку (pdf) и доставать: https://globalcarbontrace.io/summary-report/104/en
Он должен доставать следующие данные, непосредственно касающиеся проекта и его деталей:
1) Project description
2) Location
3) Project participants
4) Estimated amount of GHG reductions /removals (tonCO2e)
5) Methodology
6) Validation/Verification Body
Это пример ссылки. У нас есть более 100 таких ссылок, которые парсер должен обрабатывать. Все ссылки +- одинаковые, но парсер должен учитывать, что какого-то поля может не быть, не должен ломаться в этом случае и возвращать пустую строку.
Выходом парсера должен быть словарь, в котором ключами будут поля без пробелов через нижнее подчеркивание (например, project_description), а значениями либо пустая строка, либо значение из PDF.
Код должен быть чистым, и, что очень важно, открытым к расширению (должно быть легко добавить новые поля для сбора помимо основных 6). Если я захочу собрать какое-либо другое поле из этого PDF/убрать поле из парсинга, я должен легко добавить несколько строк кода (а в идеале просто значение в массив полей для сбора) и все должно работать (пожалуйста, проверьте перед сдачей заказа, добавив рандомные другие поля из pdf/убрав 1-2 из перечисленных выше, чтобы все работало)
Скрипты и боты