Ученые создали новый эффективный способ подсчета уникальных объектов

Быстрая покупка VPN для России через удобный Телеграмм-бот:

Новый алгоритм предлагает простое решение сложной задачи.

Использование случайности помогло группе ученых разработать простой алгоритм для оценки большого количества уникальных объектов в потоке данных.

Представьте, что вас отправили в тропический лес для проведения учета дикой природы. Каждый раз, когда вы видите животное, делаете фото. Ваша камера отслеживает общее количество снимков, но вас интересует только количество уникальных животных, которых еще не было в кадре. Как лучше всего получить это число? Очевидное решение требует запоминания каждого животного и сравнения каждого нового с уже имеющимися в списке, отметил Ланс Фортнау, компьютерный ученый из Технологического института Иллинойса. Однако при тысячах записей такой подход становится сложным.

Ситуация усложняется, если, например, Facebook захочет подсчитать количество уникальных пользователей, заходящих на сайт каждый день, даже если они заходят с нескольких устройств и в разное время. Здесь уже речь идет о списке, который может достигать миллиардов записей.

Недавно ученые описали новый метод приближенного подсчета уникальных записей в длинном списке, который требует запоминания только небольшого числа записей. алгоритм подходит для любого списка, где элементы поступают по одному за раз, будь то слова в речи, товары на конвейере или машины на шоссе.

Алгоритм CVM, названный в честь его создателей – Сурава Чакраборти из Индийского статистического института, Винодчандрана Вариама из Университета Небраски в Линкольне и Кулдипа Мила из Университета Торонто, представляет значительный шаг к решению проблемы уникальных элементов, с которой ученые бьются более 40 лет. Эта проблема заключается в поиске способа эффективно отслеживать поток элементов и оценивать количество уникальных из них.

“Новый алгоритм удивительно прост и легок в реализации,” сказал Эндрю МакГрегор из Университета Массачусетса в Амхерсте. “Не удивлюсь, если это станет стандартным подходом к решению проблемы уникальных элементов на практике.”

Космические амбиции Китая: курс на обратную сторону Луны

Для иллюстрации проблемы и решения алгоритма CVM представьте, что вы слушаете аудиокнигу “Гамлет”. В пьесе 30,557 слов. Сколько из них уникальны? Чтобы узнать, можно прослушать пьесу, записывая каждое слово в алфавитном порядке в блокнот и пропуская уже записанные. Этот подход требует объема памяти, примерно равного количеству уникальных слов.

Получи VPN-прокси для России через наш удобный Телеграмм-бот:

В типичных ситуациях потоковой обработки данных может быть миллионы элементов. “Вам может не захотеться хранить все,” сказал Вариам. Здесь и приходит на помощь алгоритм CVM. Основной трюк заключается в использовании случайности.

Вернемся к “Гамлету”, но теперь ваша рабочая память — доска для записей — вмещает всего 100 слов. Начав прослушивание, записываете первые 100 услышанных слов, пропуская повторяющиеся. Когда память заполнена, делаете паузу и подбрасываете монету для каждого слова. Орел – слово остается, решка – удаляется. После этого у вас останется около 50 уникальных слов.

Далее следует первый раунд. Продолжаете слушать “Гамлет”, добавляя новые слова по мере их появления. Если слово уже в списке, снова подбрасываете монету. Решка – слово удаляется, орел – остается. Продолжаете до тех пор, пока на доске не окажется 100 слов, затем случайно удаляете половину.

Следующий этап – второй раунд. Продолжаете как в первом раунде, но теперь сложнее сохранить слово: при повторении слова подбрасываете монету дважды и сохраняете его только если оба раза выпал орел. Раунд заканчивается аналогичным удалением половины слов.

В третьем раунде для сохранения слова нужно три орла подряд, в четвертом – четыре и так далее.

В конце последнего раунда, по завершении “Гамлета”, каждый отобранный случайным образом элемент имеет одинаковую вероятность быть в списке: 1/2^k. Если, например, в конце у вас 61 слово после шести раундов, можно разделить 61 на вероятность 1/2^6, чтобы оценить количество уникальных слов — получится 3,904.

CISA: критический недостаток в GitLab активно эксплуатируется хакерами

Чакраборти, Вариам и Мил математически доказали, что точность этой методики масштабируется с размером памяти. В “Гамлете” точно 3,967 уникальных слов. В экспериментах с памятью в 100 слов средняя оценка после пяти попыток составила 3,955 слов. С памятью в 1,000 слов средняя оценка улучшилась до 3,964. “Конечно,” сказал Вариам, “если память настолько велика, что вмещает все слова, мы получаем 100%-ную точность.”

“Это отличный пример того, как даже для очень базовых и хорошо изученных проблем иногда могут быть найдены очень простые, но не очевидные решения,” сказал Уильям Кузмаул из Гарвардского университета.

Ты не вирус, но мы видим, что ты активен!

Подпишись, чтобы защититься

Купить безопасный VPN означает приобретение виртуальной частной сети (VPN), которая обеспечивает высокий уровень безопасности и защиты ваших данных при использовании интернета. Безопасный VPN предлагает множество функций, направленных на защиту вашей конфиденциальности, анонимности и предотвращение утечек данных.

Почему стоит купить безопасный VPN?

Защита личных данных: Безопасный VPN защищает ваши данные от кражи и слежки, особенно при использовании общественных Wi-Fi сетей.
Обход цензуры: Безопасные VPN позволяют обойти географические ограничения и получить доступ к заблокированным ресурсам и сайтам.
Спокойствие: Зная, что ваши данные защищены, вы можете более уверенно использовать интернет и меньше беспокоиться о безопасности.
Гибкость и настройки: Безопасные VPN часто предлагают различные настройки и функции, которые могут быть адаптированы под ваши нужды.

Быстрая покупка VPN для России через удобный Телеграмм-бот:

Получи VPN-прокси для России через наш удобный Телеграмм-бот:

Ты не вирус, но мы видим, что ты активен!

Почему стоит купить безопасный VPN?

Оставить ответ Отменить ответ