Создание архива поней с фикбука

+73
в блоге Блог им. uis
Произошедший недавно роскомнадзор с фикбуком натолкнул на мысль, что может стоит устроить проект по типу fimfarchive, только для фикбука. Хотя-бы для всех фанфиков по поням.

У меня когда-то давно была похожая попытка, но я тогда скачивал всё без разбора, в том числе многие мусорные страницы. В этот раз я предлагаю скачивать по минимуму, т.е. текст фанфика и метаданные.

Раньше всё было проще т.к. у всех фанфикам выдавался постоянно возрастающий номер, а теперь что-то непонятное. Если кто готов помочь, прошу откликнутся.

39 комментариев

Я не уверен, в какой блог надо было писать, так что опубликовал в персональном.
uis (ред.)
+2
*хотя бы

А какая-то конкретика/код/серверные мощности на руках есть или только идея «давайте сделаем хорошо»?
Lyinx
+2
Ворд-документами на каком-нибудь тг-канале — не вариант?
DMW
0
>удобство поиска нужного в ТГ-канале с несколькими тысячами постов
>ворд
Lyinx
+6
Один из самых худших вариантов
uis
+1
Есть только серверные мощности: один «мощный» серв с 21 гигами диска свободными и один слабый одноплатник с 14 гигами свободного. Единственная конкретика: можно использовать фикбуковскую загрузку файлом. По крайней мере примерно в 2019 я так пытался. И, если я правильно помню, fb2 — самый компактный формат.

Сейчас жирный сервер используются для поиска по архиву фимфика pinkone.ltgc.cc
uis (ред.)
+1
Ну и естественно есть основной компьютер с 54 гигами свободного. Если на одном завалявшеммя диске ничего важного не будет, то +500 гигов.
uis (ред.)
+1
Уже потихоньку появляется понимание способа решения проблемы. В качестве парсера я думаю использовать сборную солянку из html-xml-utils и модифицированного под html парсера из fimfarc-search. Правда придётся ещё создать утилит для слияния баз, т.к. изначально он был предназначен для разбора одного гигабайтного json'а.

Хотя это можно не делать, если сначала скачать все страницы поиска и конкатенировать их.
uis
+1
По поводу конкретики и кода: загатовка парсера и заметки по исходным данным тут. Заметки могут быть потом вынесены в отдельный файл.
uis
+1
Есть получение списка id фанфиков для загрузки
uis
+1
Сделать парсер нетрудно, но как обойти защиту? После N запроса тебя просто забанят.
MTH_Root
+1
Соблюдать rate limit
Vozdyx
+2
717 страниц списка скачано. Теперь у меня есть id всех текущих фанфиков. Парсер буду писать позже.

Скачивать буду скорее всего fb2 и epub.
uis
+4
Замечательно, что работа идёт. А как быть с неоконченными фанфиками, которые периодически обновляются?
MorningMist
+1
То же самое, что fimfarchive делает — периодически(ежеквартально, например) делать новые архивы.
uis
+2
Мда, они ограничили количество загрузок в 10 фанфиков на аккаунт в день. Для полной архивации понического фикбука надо 1433 аккаунт-дней. Тут либо автоматизировать создание аккаунтов, либо скачивать по одной главе и конвертировать в epub/fb2.
uis
+1
Могу предоставить аккаунт с премиумом, чтобы скачать все фанфики
Salo
+2
Есть способ бесплатно временно получить УА. Мне всё равно одного аккаунта мало будет.
Может стоит создать чат в матриксе/телеге/дискорде на эту тему?
uis
+1
Окей, вообще не знал про лимит в 100 фанфиков, тут одного аккаунта не хватит.
Насчет чата — честно, не знаю.
Salo
+1
матриксе
— …
— Ну наконец, хоть кто-то о нем знает!
MTH_Root
+2

— Как мы можем о нём знать, если ты про него не говоришь? Ох уж эти клони…
LunReaper
+4
Я не юзаю Фикбук, так что не знаю, что там и как. Но просто на всякий случай, вдруг будет полезно.
Там есть плашка
14 дней Улучшенного аккаунта БЕСПЛАТНО за регистрацию!
А в «Функционал Фикбука и… немного больше / 18. Улучшенный аккаунт (УА)» написано о лимите в 100 фанфиков в день против 10. Не знаю, премиум-аккаунт ли это, и насколько эта информация актуальна. Но если всё так, то создавать новые аккаунты может потребоваться в любом случае.
А вот если просто скачивать тексты и конвертировать их в epub/fb2, то это будет то же самое, чем занимается сам Фикбук (сомневаюсь, что авторы заливают свои тексты во всех форматах сразу). Плохо ли это?
Просто, если будет много запросов уже на скачивание текстов без аккаунта, то админам придётся ограничивать доступ здесь, но это уже труднее, потому что в крайнем случае придётся вообще закрыть ко всему доступ без регистрации и делать параноидальные фильтры по IP. Лично я за (за эти сложности для админов). Ибо нефиг (пользователи захотели скачать всё не просто так).
P.S. Я сейчас открывал Фикбук из-под Tor. (Без Tor просто не открылся.)
Farxial (ред.)
+3
А вот если просто скачивать тексты и конвертировать их в epub/fb2, то это будет то же самое, чем занимается сам Фикбук (сомневаюсь, что авторы заливают свои тексты во всех форматах сразу). Плохо ли это?

Фикбуку всё равно, что генерировать html или fb2. Это не плохо, это тяжело.

УА, если получится сделать, поможет сократить трудозатраты до 144 аккаунт-дней.
uis
+2
Если разыскать десяток неравнодушных броней с премиум аккаунтами и обратиться к самим авторам работ, то при должной организации и распределении, можно было бы уложиться примерно за пару недель.
MorningMist
+3
LunReaper
+3
Ну, или так )
MorningMist
+3
Спасибо. Это и есть то самое скачивание по одной главе.
uis
+1
У меня уже пошло дело потихоньку. Если я так и продолжу, то где-то через две недели будет полный архив.
uis
+3
))0)
Вот это, собственно, одна из тех вещей, которые мне не нравятся в Фикбуке. И, к тому же, многие серьёзно хотят возможности запретить скачивание своих работ.

Я не могу сказать, что знаю способ, как это обойти. Впрочем, могу посоветовать обратиться к разработчикам сторонних клиентов, поскольку они могли когда-то найти решение этой проблемы и поделиться им.
TheScriptComp (ред.)
+1
Да, во всем виноваты велоцирапторы))
LunReaper
+1
А архив Ютуба будет?
Necto
+2
Я пока думаю над созданием мини архива аниматиков. И то скорее будет отборка — не знаю.Пока мысль варится.
Tikos
+1
Уже неплохо…
Всё равно надеюсь, что у здешних хомяков сохранились и аниматики, и остальная куча всего
Necto
+1
А разве не делали не так давно какой то аналог только для понек?
MorningMist
0
MTH_Root
+1
Хм. Может это и оно. Не помню точно. )
MorningMist
+2
Это к The Pony Archive
uis
+1
Что-то их сайт не открывается…
Necto
+2
Может с голодухи помер?
MorningMist
+1
Написал админу архива.
uis
+1
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.
Скрыто Показать