Скачать
Иногда бывает полезно иметь под рукой список эпизодов какого-либо сериала. Чтобы не париться с ручным набором названий серий, желательно иметь возможность вытаскивать их откуда-либо автоматически. Очевидным источником такой информации является сайт
IMDb - крупнейшая кинематографическая база данных.
IMDb предлагает интерфейс для решения подобных задач, но это стоит денег. Есть и неофициальные бесплатные варианты, в частности на Python, однако они периодически перестают работать из-за смены начинки на сайте IMDb.
В то же время IMDb позволяет скачать огромные
архивы с текстовыми файлами, в которых содержится основная информация о всех-всех фильмах, сериалах и их эпизодах, представленных на этом сайте. Идея состоит в том, чтобы автоматически составлять списки эпизодов по данным из этих файлов. Питоновский скрипт
get_episode_list.py делает именно это.
Сначала он скачивает и распаковывает указанные архивы - при условии, что их нет в указанной вами папке. Следует отметить, что по состоянию на январь 2024 г. для этих файлов требуется около 1,5 ГБ свободного места (т. к. фильмов в базе IMDb очень-очень много). Если у вас SSD-диск, то лучше его не напрягать такими файлами, а скачать их, например, на флешку.
Затем скрипт анализирует содержимое этих файлов и вытаскивает из него данные по эпизодам указанного вами сериала. Сериал задаётся идентификатором из url-адреса страницы сериала на сайте IMDb. Например, страница сериала "Чародей" имеет адрес
https://www.imdb.com/title/tt0112174/; соответственно, идентификатор этого сериала -
tt0112174. Вообще, идентификатор сериала (фильма, эпизода) на IMDb всегда начинается с букв
tt.
Данные по найденным эпизодам записываются в файлы XLSX и JSON (последний может быть нужен программистам). Вот, например, что получилось для сериала
"Пуаро Агаты Кристи":
(Обратите внимание, что сезоны в таблице для наглядности раскрашены чередующимися цветами.)
Анализ содержимого файлов осуществляется далеко не самым оптимальным образом. Однако для разового использования этого вполне достаточно. На моём домашнем компьютере для сериала из десятка-другого серий скрипт работает порядка 10 с, а анализ "Санта-Барбары", в которой более 2000 серий, занимает несколько минут.
Надо также отметить, что используемые архивы обновляются на сайте IMDb ежедневно: в них вносятся исправления, добавляются совсем новые фильмы и т. д. Соответственно, для сериалов в стадии показа нужно использовать самые свежие архивы.