Рома ❤ Толоку

Channel address:

Categories: Uncategorized

Language: Not set

Subscribers: 739

Description from channel

Всем привет! Меня зовут Куцев Роман, и я уже больше 4 лет занимаюсь разметкой данных с помощью Толоки в компании TrainingData.ru. У меня накопилось много инсайтов, опыта и интересных моментов, о которых я хочу вам рассказать!)

▲ Vote (1)

Ratings & Reviews

1.50

2 reviews

Reviews can be left only by registered users. All reviews are moderated by admins.

5 stars

4 stars

3 stars

2 stars

1 stars

The latest Messages

2023-04-28 17:55:29 Итак, это была предыстория, переходим к кульминации.
К своему удивлению, летом 2020 я выгорел, и у меня появилась цель: найти интересную работу, ведь сам Конфуций говорил «Займись тем, что тебе нравится, и ты не будешь работать ни дня в своей жизни».

А больше всего мне нравилось настраивать крауд и размечать данные, поэтому я захотел попасть в Яндекс Толоку.
И чтобы иметь больше «+»(показать, что я с мозгами)и увеличить шанс оффера, я решил завести этот блог.
Так канал и появился.

Вакансия на Crowd Solutions Architect не заставила себя долго ждать, Толока расширяла зарубежное направление и уже осенью меня пригласили на интервью.
Я прошел 5 секций:
• техническая с написанием кода
• менеджерская на английском
• по построению процессов
• по биздев скилам
• и с финальным боссом - CTO Толоки

После всех секций мне неожиданно пришел отказ

У меня есть 2 гипотезы, почему так произошло:
• Вакансия подразумевала работу с зарубежными заказчиками, а в тот момент английский не был моей сильной стороной
• На звонке с CTO Артемом Григорьевым я сказал, что Толока стала лагать (я сказал из благих побуждений, чтобы починили, но, наверное, так не стоит делать на собесе)

Было обидно, но я не отчаялся. Как говорится "одна дверь закрывается, другая открывается".
Толоку и крауд я любить не перестал, и в этом канале продолжаю вам рассказывать про сбор и разметку данных с помощью краудсорсинга.

P.S хеппи энд случился, Crowd Solutions Architect в итоге я стал, но уже в собственной компании TrainingData.Pro.

410 viewsRoman Kucev, 14:55

Open / Comment

2023-04-28 17:55:25 Всем привет! На канале уже более 580 человек, не все меня знают и читают канал с самого начала, поэтому в этом посте хочу поделиться с вами забавной историей о том, как же появился мой ТГ канал и почему он так называется.

Сбором и разметкой данных я занимаюсь с 2017 года уже больше 6 лет. Все началось, когда меня, новенького RnD ML-щика, поставили руководить командой разметчиков в компании Prisma Labs. Мы тогда только начинали разрабатывать фоторедактор Lensa, и я занимался созданием датасетов по сегментации людей.

Руководить командой разметки было весело и интересно, мне безумно нравилось придумывать способы как эту разметку можно упростить и автоматизировать: я писал скрипты по проверке данных, видеоинструкции для асессоров, контролировал их работу, менеджерил процесс.

Но, как говорится, идеальной работы не бывает, и меня бесил один фактор: я был очень завязан на людях. А если вы работали с разметчиками, то вы знаете на сколько сложно собрать команду, на которую можно положиться. У меня скопился целый том с отмазками, почему разметка не была сделана в срок. Вот тут самая оригинальная

И когда я в 2018 попробовал Толоку - я был в шоке, людьми можно управлять с помощью кода, каждый человек легко заменим, и процесс разметки можно масштабировать по щелчку мыши.

Я стал неофициальным евангелистом Толоки, и начал внедрять ее куда только можно. Самым интересным проектом, который я запустил, был "Впечатлятор" - чат-бот, куда пользователи отсылают свои селфи, а толокеры в течение 3-х минут описывают первое впечатление о человеке (подробнее на RB) . Им воспользовались более 100 000 человек, в том числе Head Of Business Development Толоки(оскорбительное описание толокера на него можете прочитать тут).

Так и прошли мои 1.5 года, я проводил вебинары по сбору, по разметке, писал статьи на хабре (лучшие по мнению ODS)

396 viewsRoman Kucev, 14:55

Open / Comment

2023-04-26 11:00:58 Всем привет!
Как многие знают, в мае пройдет очередной Data Fest Online 2023.

Я уже много лет участвую в датафесте в качестве спикера. Это всегда крутой опыт, новые знакомства и партнёрства! В этом году подумал, что хочу чего-то большего.

Поэтому решил организовать секцию Data Collection & Labelling!
Совершенно новый трек в ODS, тема которого набирает обороты вокруг бизнеса и таких хайповых тем как ChatGPT, автоматизированная разметка и т.д.

Для наполнения программы трека открыл набор спикеров!

Если ты:
- шаришь в сборе и разметке данных
- имеешь интересный опыт/кейс/продукт, о котором хочешь рассказать
- не боишься выступать публично и готов улучшить свой личный бренд

Твой час настал! Оставляй заявку по форме, либо пиши в ЛС!

p.s. Если сомневаешься о чем рассказать, пиши, проконсультирую и помогу выбрать интересный вариант

468 viewsRoman Kucev, 08:00

Open / Comment

2023-04-06 09:55:02 Недавно общался со своим другом Ринатом, который работает в Boston Consulting. Разговор зашел о трендах в разметке и куда движется отрасль. Вместе пришли к выводу, что индустрия разметки данных в 2021 очень похожа на индустрию колл-центров в 2000-х годах.…

865 viewsRoman Kucev, 06:55

Open / Comment

2023-04-03 13:44:21 В последнее время активно занимаюсь сбором лиц через Толоку для разных задач по биометрии: антиспуфинг, liveness, face detection, re-identification.

В таких задачах крайне важно создать чистый и качественный датасет.
При этом, важным условием становится отсутствие дубликатов данных.

Если в датасете будет большое кол-во дублей лиц, то одно и тоже лицо может оказаться как в и обучающей выборке, так и в валидационной. Из-за этого алгоритмы переобучаются, а метрики получаются недостоверными.

К сожалению, в Толоке достаточное кол-во людей имеют по несколько аккаунтов.
Это и понятно: больше аккаунтов - больше заработок у толокеров.
Но для нас становится критично, когда один и тот же человек отсылает нам свое лицо с разных логинов.

Первым делом мы внедрили проверку по md5 по нашей базе и автоматическое отклонение, если такое фото у нас уже есть.

Но md5 ловит полное совпадение фотографий, и бессилен в кейсах, когда человек снимает свое фото в другой локации, с другим освещением. Поэтому md5 не решал на 100% нашу проблему.

Следующей идеей было разделить инхаус валидаторов по странам: Петя проверяет задания из Африки, Вика страны СНГ, Света Латинскую Америку. На начальных этапах такое разделение давало хороший результат.
Но когда кол-во лиц по каждому региону перевалило за несколько тысяч, стало не реально всех запомнить.

Добили нас и фродеры на Толоке. Так как задания у нас сложные, то и оплата за них у нас выше среднего, а следовательно мотивация сжульничать возрастает.

Один толокер был на столько усердным, что его лицо, присланное с разных аккаунтов мы отклоняли раз 10.
11-й его раз поразил всю нашу команду.
Парень прислал свое фото в парике, с бусами, в женской кофте и неплохо сделанным макияжем

Такой уровень наглости заставил нас серьезно задуматься над проблемой.
И мы решили внедрять нейронку на проект, и уже проверять не по md5 хешу, а по дескрипторам лиц, которые хранятся у нас в базе. В качестве нейронки мы рассмотрели несколько вариантов:
- deepface - open source, но качество не ок
- нейронки на rapidapi - не стабильно работают, ограниченная база для лиц
- нейронки от вендоров из РФ - дорого, продают лицензии на год
Поэтому пока остановились на варианте rapidapi.

А как вы отлавливаете дубли, какие нейронки используете, что порекомендуете?

762 viewsRoman Kucev, 10:44

Open / Comment

2023-03-28 11:58:30

Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:
1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.
2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.
3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.
4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.

677 viewsRoman Kucev, 08:58

Open / Comment

2023-03-28 11:58:30 ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Многие задачи в NLP требуют ручной разметки данных для тех или иных целей, в частности, для обучения или оценки моделей. В зависимости от размера и степени сложности задачи могут выполняться "крауд-воркерами" (живыми людьми, специализирующемся на разметке) на таких платформах, как MTurk или Толока (от Яндекса), а также отдельно обученными аннотаторами, например научными сотрудниками.

В Алиэкспрессе, к слову, для решения задачи сопоставления товаров мы прибегали к обоим группам. Краудсорсеры дешевле, но их разметка более шумная (люди могут просто кликать ответы, не вникая, чтобы денежку заработать) и быстрее. Обученный аннотатор же часто погружается в детали, и ещё и откладывает интересные примеры, по которым у него возникают вопросы.

Исследователи из университета Цюриха задались вопросом: а можно ли заменить крауд-сорсинг для разметки данных с помощью ChatGPT (здесь и далее - февральская модель GPT-3.5, не четвёрка). У них уже был набор данных для фильтрации твитов из их прошлой статьи (так что для них задача максимально прикладная). Всего было размечено 2'382 твитов, каждый оценивался двумя обученными аннотаторами (люди с высшим образованием, специализирующиеся на политике - студенты соседних курсов).

Что интересно - в выборку попали те твиты, по которым оба разметчика независимо дали один и тот же ответ. Это вносит некоторое смещение, так как неонозначные ситуации, где даже два специалиста не сошлись во мнении, по сути выкидывались. Частично я могу понять авторов статьи - надо же как-то сформировать "голден сет", набор данных, в котором они уверены и чьи метки используются как мерило для всех остальных исполнителей.

Всего было 5 разных задач, все - на классификацию твитов:
— обсуждение политики модерации Твиттера (2 класса)
— указывает ли твит на модерацию как на проблему (ограничение свободы слова) или на решение (запрет разжигания ненависти) (3 класса, включая "нейтральный")
— нарушающий закон США о контенте соц. сетей (3 класса)
— классификация по проблемам (6 классов, включая топик "бан Трампа", лол)
— классификация по темам (14 классов вроде "здравоохранение" или "право" или "экономика")

550 viewsRoman Kucev, 08:58

Open / Comment

2023-02-20 11:33:33 Как вы могли заметить, мой канал называется "Рома Толоку"
И сегодня хочу рассказать об одном мероприятии, к которому причастны и Толока и Рома)

6-7 марта в Ереване пройдет ведущая открытая конференция по искусственному интеллекту opentalks.ai.

Все прекрасно знают, что данные - основа качественно обученной ML модели.
Поэтому Федор Жданов из Толоки организовал секцию "Данные, разметка и тестирование"
А я на ней выступлю с докладом "Как получать высокое качество размечаемых данных"

Если вы тоже планируете посетить OpentTalks, напишите об этом в комментариях, обязательно пересечемся!

P.S Перед конференцией я решил заехать в Грузию на недельку (Батуми и Тбилиси). Буду рад увидеться с подписчиками. С меня завтрак/обед/ужин, с вас рассказ о ваших болях в разметке данных.

1.1K viewsRoman Kucev, edited 08:33

Open / Comment

2023-02-14 12:20:21 Как-то проверял новый проект у стажера и наткнулся на блок контроля качества с таким интересным комментарием "не обучился"

И вроде бы ничего необычного, но в голове сразу создалась ассоциация с обучением нейронок)

Ведь получается, что людей мы обучаем по похожему принципу, что и ML алгоритмы.
1. Даем обучающие задания (train dataset) - на нем у толокеров формируются в голове нейронные связи и понимание задачи
2. Даем экзаменационные задания (validation dataset) - отбираем людей только с нужными гиперпараметрами мозга, которые после обучения показали хороший скор на валидационном наборе
3. Даем боевые задания с ханипотами (production data + test dataset) - уже в боевом контуре оцениваем качество нейронных связей толокеров
4. Даем реабилитацию (fine-tuning) - если нейронные связи толокера стали слабеть, либо случился data shift, то дообучаем толокера

Таким образом, если толокер показывает плохое качество на validation dataset - значит он не дообучился.

А если толокер показывает хорошее качество на validation, при этом плохое на test, то случился overfitting, и скорее всего ответы на ваш экзамен с тестом толокеры слили в интернет

На сколько гениальную теорию я придумал?

1.2K viewsRoman Kucev, 09:20

Open / Comment

2023-02-14 12:20:01

949 viewsRoman Kucev, 09:20

Open / Comment

Рома ❤ Толоку

Ratings & Reviews

The latest Messages

Popular Channels

Related Chats

Popular Channels

Login