Анон с 4чана скачал всю дерпибуру и выложил в Bittorrent Sync. И на Dropbox тоже.
Один из аутистов анонимов с 4чана упоролся по хардкору и выкачал весь архив ДБ (400+ ГБ), после чего выложил его в общий доступ в сервисе bittorrent sync. Анон обещает поддерживать архив в актуальном состоянии возможно долгое время.
Утащить к себе коллекцию можно вот по этой ссылке: https://link.getsync.com/#f=imagedata&sz=44E10&s=EJAPWDUWL7TTDVKSWVADAUNXPT57EVYV&i=CEWTH7NYI2LLHSB4RKRB4ZEP72ANRCJ6W&p=CBVJL37JAVOWMVQCQMTQZWIMSVUDE6JZ
Все что вам понадобится — клиент Sync (можно взять по ссылке выше) и 410+ гигабайт свободного места.
Оригинальный тред на 4чане
P.S. Оно же на УрониКоробке
Утащить к себе коллекцию можно вот по этой ссылке: https://link.getsync.com/#f=imagedata&sz=44E10&s=EJAPWDUWL7TTDVKSWVADAUNXPT57EVYV&i=CEWTH7NYI2LLHSB4RKRB4ZEP72ANRCJ6W&p=CBVJL37JAVOWMVQCQMTQZWIMSVUDE6JZ
Все что вам понадобится — клиент Sync (можно взять по ссылке выше) и 410+ гигабайт свободного места.
Оригинальный тред на 4чане
P.S. Оно же на УрониКоробке
190 комментариев
1. Это явно не вручную скачано
2. Он не переименовывал, судя по цитате
И она не млп!
А еще я вижу понево!
Ааааа!
ВСЕ картинки с ДБ.
Вообще тут MongoDB как раз подойдет, потому как надо работать с документами, у которых полно разных атрибутов. Schema-free.
Тебя точно кто-то из ынтыпрайза ну очень сильно покусал. Сильнее, чем я предполагал раньше.
Мне добавить нечего
Мне добавить нечего
Поясняю для тебя и таких как ты, диванных экспертов-погромистов.
Во-первых, цели. Цель проста — архив. Если архив — то индекс и поиск обязательно, иначе это не архив, а свалка бесполезных данных.
Во-вторых, средства.
Лирическое отступлениеТвоя беда в том, что ты уцепился за один любительский стек технологий и с ярым фанатизмом в глазах «зато просто, понятно, неънтерпрайзно и вотпрямщас на коленке работает!» толкаешь его везде, куда надо и куда не надо.
Для реализации быстрого поиска по денормализованным данным такого рода надобна документ-ориентированная база данных. Выбор конкретного движка будет зависеть от поставленных задач по поиску. Почему не реляционные БД, хоть и embedded? Они медленней при выборке, и не подходят для денормализованных данных.
Если что-то ориентированное на конечного пользователя — то embedded-решение: скрипт с простым GUI и что-то вида unQlite, EJDB, iBoxDB (я бы выбрал первую).
Если на домашний сервер вида «своя дерпибура сбоку» — тогда MongoDB или подобная вещь. И да, она вполне легко настраиваема.
Лирическое отступление #2
говорит только о твоем нулевом опыте работы с монгой и махровом дилетанстве. Будь вместо этого вполне обоснованный упрек о проблемах с репликацией, с десинхронизацией нод, с write-lock при серьёзной нагрузке на одну ноду в кластере — да, окай, нюхал пороху, можно поговорить и по делу. Но увы.
Если на продакшен и в паблик для большой нагрузки — тогда надо и поиск организовать нормальный, а не просто выборку по тегам средствами самой БД: Lucene, Solr и иже с ними тут тебе помогут.
Так что не дилетанствуй, а попробуй всё же поработать, а не ныть в МПП, как тебя такого красивого-умного-кодера обидели.
Это архив — именно то место, где надо. MongoDB тут ну вообще ни к чему.
Именно поэтому и SQLite. Всем известная библиотека со стандартным SQL-синтаксисом, встроенная в каждую кофеварку. Это архив, рассчитанный на массового пользователя, а не на чокнутого программиста, считающего наносекунды на select-ах и заставляющего остальных программистов, желающих как-то поработать с базой, учить всякие «unQlite, EJDB, iBoxDB». Если кому-то надо будет, тот сам перегонит в нужный для себя формат (строго говоря, и из csv тоже, но вместо csv уж проще искать картинки по тегам поиском файлов, поэтому SQLite), а SQLite покрывает 99.9% потребностей и 99.9% невиндовых устройств (а для винды можно рядышком dll кинуть). И эти твои «unQlite, EJDB, iBoxDB» тут не нужны, даже если они и лучше.
Это говорит о том, что ты не понял сути сообщения. Я всего лишь подчеркнул, что это сервер, и что архив — это архив, а не альтернативный сервер дерпибуры, и для него поднимать целый сервер — это глупость.
Прекращай идеализировать всё подряд — это именно то, на что я обижаюсь.
/thread, потому что я не вижу смысла доказывать и объяснять очевидные вещи тебе. Дал ТРИ варианта с документ-ориентированными БД с разными масштабами — «это сложно, для чокнутых программистов, заставляешь учить непонятные вещи». Собственно, мне и не надо было с самого начала что-то тебе доказывать: поработаешь, поймешь сам, и тогда тебе станет очень стыдно, когда будешь вспоминать себя-прошлого.
И да, мне стыдно за andreymal.org, tabun.andreymal.org (кроме самой архитектуры), chat.andreymal.org, а также плагины к боту Talisman и свой клон Juick. Но за img2html и данный тред мне никогда не будет стыдно, потому что это совершенно другие области разработки, которые ты упорно отказываешься понимать.
Что касается сабжа — вы оба повернулись. Один на SQL, второй на тырпрайзе. У вас экспортированные данные и самым лучшим решением будет простой json-файлик на десяток мегабайт c простым задокументированным форматом. Тот, кто захочет эти данные использовать — возьмет и прочитает его, а потом перенесет в ту структуру, которая ему в данный момент удобнее: mongo, oracle, да хоть elasticsearch.
У него, как и любого другого текстового формата, печально с быстрым поиском по тегам и прочим индексам, а у sqlite вполне нормально. Но если забить на поиск из коробки, то да, пойдёт. Но изначально я писал свой коммент в начале ветки именно с расчётом на простенький поиск.
Лично мне уже приходилось сталкиваться с ней, не потому что заказчик мудак (Да, именно заказчик, а не я в его лице), а потому что не уследили, что arduino.cc/en/Main/ArduinoEthernetShield не умеет в состояние Tri-State, из-за чего работа по SPI шине была невозможной. Тоже самое и тут. Орхи возьмет, вдолбит в свою БД очередной dump danbooru или Booruonrails и забудет о ней.
А с SQLite могут возникнуть трудности из-за особенностей того или иного Booru-движка. Спорить об этом можно бесконечно. Вопрос лишь в том, кто на практике будет насиловать свой мозг дольше.
Я до сих пор знаю его лишь поверхностно с минимальным словарным запасом: WHERE, FROM, SELECT, CREATE…
На то есть свои причины, почему я такой мудак. Времени нет на изучение нового, имхо спортивное программирование это пздц, а изучать в моём спектре много чего: ООП, Паттерны, SQL, IIS, WPF, ASP.NET. Но если потребуется, то я буду рад изучить MongoDB.
Никаких особенностей. Я в начале ветки дал вполне конкретные условия — поиск по тегам, рейтингу и избранному. С этим SQLite справляется чуть более чем прекрасно. Если приспичит использовать «особенности», то тогда это уже совсем другой разговор, и в зависимости от задачи подход Орхи может стать вполне обоснованным. А подход Ликсиса обоснован и годен вообще в любом случае)
А при чём тут вообще это? Мы не про клон дерпибуры говорим, это просто архив картинок.
И этого для требуемых целей более чем достаточно. Вот тебе и аргумент.
А поскольку брони очень хорошо собирают внушительные суммы денег, перспектива оплаты для тебя уже не выглядит столь туманно.
Только чтоб от повторяющихся картинок было очищено!
Беда, что индекс в именах файлов можно выбрать лишь один.
Я просто говорю, что если бы я выкачивал картинки, я бы картинки сохранял в формате «рейтинг — теги.jpg». Тогда сортировка по имени файла дала бы нам сортировку по рейтингу. А поиск файлов дал бы нам поиск по тегам. Без всяких sql-ей. Собственно говоря, я так и выкачивал когда-то давно картинки. Ещё с понибуры.
Индекс с первичным ключом не путай. Каждый первичный ключ — индекс (по крайней мере в известных мне СУБД), но не каждый индекс — первичный или хотя бы просто уникальный ключ.
Вот о том и речь. Прикрутить в имена «индекс» по рейтингу — будет сортировка по рейтингу. А я, например, хочу сортировку по числу добавлений в избранное. А кто-то по числу комментариев. Вот тут бида. И про реализацию этого целый срач выше)
Хотя интересно, чем автор архива руководствовался — просто скачал как есть или зачем-то сортировка по айдишнику нужна (а такое тоже может быть).
Что же до срача выше, могу только одно ИМХО высказать. Излишество вредит. И никогда я на дерпибуре не делал сортировку по комментариям или по добавлениям. Ну да дело вкуса конечно =)
О, линуксоиды повылезали. Напомню что в винде траблы с длиной полного пути в районе 252+\-2символа, а размер тегов даже на покойной понибуре легко превышал 260 символов.
Вот Орхи правильно сказал.
Другое дело было бы, если из этого делать сервис общедоступный, но это действо не имеет смысла, т.к. все эти картинки — и так из общедоступного сервиса стянуты.
Б) Слава организатора раздачи мегапака пони
В) Over 400 GB поней у тебя на винте!
исты? Опять засорение бесполезной информацией блога «срочно в номер» и ленты.Постить в комментариях картинки под спойлерами? Хорошо, буду как остальные постить без спойлеров. Ты это хотел услышать?
Ибо «не указывайте что мне делать, и я не скажу куда тебе пойти» (не тебе, а в данном случае Мессершмитту)
Вроде уже у всех харды больше 500гб.
Вот если бы он вручную с дб качал, то тогда да.
Не знаю что тебе не нравится в этом, я ведь при таком свободном месте могу на ровном месте закачать сериальчик весь в 1080р и не страдать поиском лишних файлов на удаление.
Как-то половину диска жалко одними только картинками забивать
СпойлерОбе, папочки конечно...
Это такие как ты полтора года назад развалили ЯРОК криками «уберите своё гавно отсюда!», «полутоновые рисунки гавно!», «наброски гавно», «стри пикселя в ППП!» и так далее.
Давай, продолжай в том же духе!
Вопросов не имею. Иди разжигать картинкосрачи дальше.
> полтора года назад
> Вопросов не имею.
Где логика?
Ох уж эти алтфаги, у которых вечно трава раньше зеленее была xD
испортитьулучшитьисправно (до их появлени)работающую системуАкт слабоумия и отваги — надрочить трехлитровую банку чтобы утопить там фигурку Рейнбоу Дэш. А это просто дамп картинок, чтобы у каждого желающего была своя личная бура, на случай
роскомнадзоранепредвиденной ситуации.Да я бы тоже мимо не прошёл.
исты с форчана придумать могли(моя реакция)
Кто-то все-равно купится.
У меня такоеже писало если вставить неправильную «ссылку» в битторентсинк.
Если уж даже на e621, пахиле и флаффиибуре можно найти годные SFW картинки, то на дерпибуре и подавно
Когда-то занимался подобным,
а потом мне прострелили колено, но стоит признать, что я это дело давно бросил и теперь лишь рандомно тягаю понравившиеся картинки…Если на определение годности каждой тратить 1 минуту и заниматься этим по 8 часов в день, то выполнение задачи займёт 4 года. За которые будет нарисовано ещё такое же количество картинок.
Полагаю, это ответ.
последникрайних сообщений в треде — не ясно, представляет ли это хоть какуюто ценность. Или проект уже автором признан мертворожденнымПравда не ясно как понимать вот это —
Ты лучше на хабре пони поищи.
( tabun.everypony.ru/blog/news/119032.html )
tabun.everypony.ru/blog/torrents/119188.html
BTW, you can use English here as well without fear to be misunderstood.
Hey. I am the person who made the dump of derpibooru. I came across your article here and saw that there was a lot of interest from you guys. Now, I don't know any Russian so I'm using Google translate. The Bittorrent Sync won't work anymore. And seeding the torrents has been a struggle. I'm working to get all the parts out as quickly as possible. If you want to contact me, join me in #anonarchive on IRC.rizon.net I am willing to talk and help anyone who wants a copy of this. Thanks!