Where communities thrive


  • Join over 1.5M+ people
  • Join over 100K+ communities
  • Free without limits
  • Create your own community
People
Repo info
Activity
  • Aug 14 2017 12:49
    @listochkin banned @Rodzimanos
Mikhail Krivushin
@Deepwalker
они все таки немного по разному сделаны и я сильно не удивлюсь если какой-то из серверов sql вполне себе позволить такое делать не выпендриваясь
Alexander Pantyukhin
@alexpantyukhin
Михаил, огромное спасибо за ответ!
Eugene Naydenov
@f0t0n
Кто чем профилировал memory usage в 2.7?
kozyrevRoma
@kozyrevRoma
кто-нибудь может подсказать, есть ли либо, где можна отвалидировать html на предмет что в нем есть незакрытые теги (именно те, что должны закрываться)? просто в lxml bs4 он сам исправляет, если незакрыто. А мне просто провалидировать
Mykhailo Havelia
@Arfey
:)
Igor Kypeschuk
@tetrafishka
Доброго часу! Мені пропонують проек, постійних он-лайн планується 6000+, пікові моменти перед трансляціями планують 3000+rps. Вибір між django/aiohttp, якщо я з Джанго на ти, то аіохттп пара проектів. Що порекомендуєте? Хороші статті на цю тему?
Mykhailo Havelia
@Arfey
Саме так і обирають фреймворк. По rps.
Grygorii Iermolenko
@gyermolenko
@tetrafishka можешь попробовать оценить по характеру нагрузки (много ли ожидания на I/O от какой-либо сети).
django/uwsgi такой rps легко выдержит.
Ну и если хочется изучить какой-то новый пласт ошибок в продакшне - то конечно aiohttp.
Можно подумать, должна ли система поддерживать какой-либо real-time.
4kpt
@4kpt
Если вебсокеты потом придумают, то лучше aiohttp. Если вебсокетов нет, то любой фреймверк.
Mikhail Krivushin
@Deepwalker
3k RPS это немного, если с запросами не косячить. Что угодно подойдёт
Igor Kypeschuk
@tetrafishka
На разі Дякую, ще буду толочити менеджерів на рахунок функціоналу та іншого.
Oleh Kuchuk
@hzlmn
Хтось працював з spacy і nlp?
Якщо так, то є питання як можна пришвидшити препроцесинг великих файлів (> 30k рідків)
Зараз зробив через multiprocessing.Pool але все одно не тей результат який хотілось би, може є якісь best practices.
Yehor Nazarkin
@nimnull
Возможно стоит глянуть на https://github.com/ray-project/ray/
Там несколько моделей распределенного исполнения поддерживается. Можешь поискать подходящую
Из оптимизаций, чуваки используют формат Apache Arrow для обмена данными
Yehor Nazarkin
@nimnull
но вообще 30к строк — это шото очень мало, даже для inmemory на среднестатистическом макбуке с 16 гб памяти
так что если хочешь больше идей — стоит понимать, во что ты упираешься, в память или в cpu и какие SLA у тебя
пушо дальше это смотреть в сторону spark, а писать самостоятельно на multiprocess свой велосипед шедулеров / экзекьюторов, имхо, решать побочную проблему, которую уже решили несколько раз
Igor Kypeschuk
@tetrafishka
Доброго часу! А хтось прикручував ldap до aiohttp? чим користувалися?
Oleh Kuchuk
@hzlmn
Python-ldap і run_in_executor :)
Є ще bonsai але він на той момент був сирим.
Igor Kypeschuk
@tetrafishka
Дякую
Mikhail Krivushin
@Deepwalker
А что там с пиконом?
4kpt
@4kpt
Срака
Mykhailo Havelia
@Arfey
@4kpt Що доповід приготував?)
Mikhail Krivushin
@Deepwalker
Понятнее не стало что с ним)
4kpt
@4kpt
Да думал свою подделку попиарить
Mykhailo Havelia
@Arfey
github
Mikhail Krivushin
@Deepwalker
Пиарь тут
Oleh Kuchuk
@hzlmn
Я знову з питанням), є датасет потенційно більще 1ккк записів, на ньому буде тренуватись класифікатор spacy. До того як цей процес запускається треба зробити препарейшин даних - згенерувати айді (доволі швидка операція) і отримати транслейшини для не англійського тексту(aws translate api доволі довга операція). Питання наступне як можна це розпаралелити і пришвидшити всю цю процедуру. Покищо це запускається в одному воркері і маніпуляція датафреймом побудована з pandas який по факту не залучає всі доступні ресурси. + транслейт сам по собі довгий навіть якщо робити батчами. За будь-який хінт буду вдячний)
Mikhail Krivushin
@Deepwalker

Я тут что-то завоевался с IDNA.

>>> yarl.URL('http://a⒈com')
URL('http://a1.com')

судя вот по этому оно не должно пропускать этот символ https://unicode.org/reports/tr46/#Table_Example_Processing

Разное idna я уже потыркал, ярл был последней надеждой. Всем пофиг, все кодируют что угодно
Andrew Svetlov
@asvetlov
потому что a1.com -- это нормальное имя. https://a1.group даже вполне себе реальный сайт. DNS не может быть полностью цифровым или начинаться-заканчиваться -. Чем a1.com непонравился -- не понимаю.
Mikhail Krivushin
@Deepwalker
Там не то что ты видишь
Там знак 1 с точкой
То есть там нет точки как таковой
И в доке написано что это недопустимо. Я ещё поискал кривые адреса, и этот идна их также жрет спокойно
Вообще началось с того что я пытался написать тест в трафарете который сломает кодек idna и не преуспел
Andrew Svetlov
@asvetlov
теперь понял. Может, стоит открыть баг в idna? Довольно идиотский случай, не мог себе представить что кто-то пожелает использовать такие знаки в DNS :)
Mikhail Krivushin
@Deepwalker
Тут скорее про фишинг и тп
Там есть какие-то ограничения
Igor Kypeschuk
@tetrafishka
А як можна обмежити відео потік по доступу? Закрити доступ з інших додатків та якщо не маєш прав нах його перегляд?
Oleh Kuchuk
@hzlmn
Привіт, якщо хтось працював з aws sqs чи є якісь батарейки для консумерів? Знаю що celery сапортить sqs в якості бекенду але тянути таку залежність не дуже хочеться. Може є якісь лайтові штуки подібні https://github.com/bbc/sqs-consumer щоб не городити свої велосипеди.
Mikhail Krivushin
@Deepwalker
Http callback там вроде можно было
Или это через sns может, хз. Я городил на asyncio вроде ещё
Готового не видел
Oleh Kuchuk
@hzlmn
Понял, спасибо