How to pronounce dataset?
How to say dataset in sign language?
Words popularity by usage frequency
| ranking | word | |
|---|---|---|
| #13670 | dataset |
How to use dataset in a sentence?
-
Gideon Nave:
Having this dataset is like having a microscope or a telescope with a more powerful lens, you get a better resolution and start seeing patterns and associations you couldn’t before.
-
Justin Zhen:
The inbound inquiries from people asking about the dataset has been insane, i’ve never seen anything like it.
-
Ichiro Kobayashi:
We aim to understand how the brain represents information about the real world, toward such a goal, we demonstrated that our algorithm can model and read out perceptual contents in the form of sentences from human brain activity. To do this, we modified an existing network model that could generate sentences from images using a deep neural network, a model of visual system, followed by an RNN (recurrent neural network), a model that can generate sentences. Specifically, using our dataset of movies and movie-evoked brain activity, we trained a new model that could infer activation patterns of DNN from brain activity.
-
Judith Curry:
The new NOAA dataset disagrees with a UK dataset, which is generally regarded as the gold standard for global sea surface temperature datasets, the new dataset also disagrees with ARGO buoys and satellite analyses.
-
Braddock Linsley:
It is years of lab work and a lot of frustration but once you get to that point, the final product is just so exciting because you’ve got this long dataset.
Translation
Find a translation for the dataset synonym in other languages:
Select another language:
- — Select —
- 简体中文 (Chinese — Simplified)
- 繁體中文 (Chinese — Traditional)
- Español (Spanish)
- Esperanto (Esperanto)
- 日本語 (Japanese)
- Português (Portuguese)
- Deutsch (German)
- العربية (Arabic)
- Français (French)
- Русский (Russian)
- ಕನ್ನಡ (Kannada)
- 한국어 (Korean)
- עברית (Hebrew)
- Gaeilge (Irish)
- Українська (Ukrainian)
- اردو (Urdu)
- Magyar (Hungarian)
- मानक हिन्दी (Hindi)
- Indonesia (Indonesian)
- Italiano (Italian)
- தமிழ் (Tamil)
- Türkçe (Turkish)
- తెలుగు (Telugu)
- ภาษาไทย (Thai)
- Tiếng Việt (Vietnamese)
- Čeština (Czech)
- Polski (Polish)
- Bahasa Indonesia (Indonesian)
- Românește (Romanian)
- Nederlands (Dutch)
- Ελληνικά (Greek)
- Latinum (Latin)
- Svenska (Swedish)
- Dansk (Danish)
- Suomi (Finnish)
- فارسی (Persian)
- ייִדיש (Yiddish)
- հայերեն (Armenian)
- Norsk (Norwegian)
- English (English)
Citation
Use the citation below to add these synonyms to your bibliography:
Are we missing a good synonym for dataset?
Содержание
- 1 Русский
- 1.1 Морфологические и синтаксические свойства
- 1.2 Произношение
- 1.3 Семантические свойства
- 1.3.1 Значение
- 1.3.2 Синонимы
- 1.3.3 Антонимы
- 1.3.4 Гиперонимы
- 1.3.5 Гипонимы
- 1.4 Родственные слова
- 1.5 Этимология
- 1.6 Фразеологизмы и устойчивые сочетания
- 1.7 Перевод
- 1.8 Библиография
Русский[править]
| В Викиданных есть лексема датасет (L103480). |
Морфологические и синтаксические свойства[править]
| падеж | ед. ч. | мн. ч. |
|---|---|---|
| Им. | датасе́т | датасе́ты |
| Р. | датасе́та | датасе́тов |
| Д. | датасе́ту | датасе́там |
| В. | датасе́т | датасе́ты |
| Тв. | датасе́том | датасе́тами |
| Пр. | датасе́те | датасе́тах |
да—та—се́т
Существительное, неодушевлённое, мужской род, 2-е склонение (тип склонения 1a по классификации А. А. Зализняка).
Корень: -датасет-.
Произношение[править]
- МФА: [dətɐˈsɛt]
Семантические свойства[править]
Значение[править]
- информ. в файловой системе мейнфреймов от ‘IBM — коллекция из логических записей, хранящихся в виде кортежа ◆ Отсутствует пример употребления (см. рекомендации).
- прогр. логически неделимый набор данных ◆ Отсутствует пример употребления (см. рекомендации).
Синонимы[править]
Антонимы[править]
Гиперонимы[править]
Гипонимы[править]
Родственные слова[править]
| Ближайшее родство | |
Этимология[править]
От англ. dataset.
Фразеологизмы и устойчивые сочетания[править]
Перевод[править]
| Список переводов | |
Библиография[править]
|
|
Для улучшения этой статьи желательно:
|
Анализ данных • 15 августа 2022 • 5 мин чтения
Для чего аналитику данных датасет и где его взять
Работа аналитика — находить закономерности в данных. С неопределёнными и неструктурированными данными делать это невозможно — они не подчиняются инструментам анализа и не позволяют обучать нейросети. Поэтому для работы аналитикам нужны уже подготовленные однозначные данные — датасеты.
- Что такое датасет для анализа данных
- Из чего состоит датасет
- Виды датасетов
- Где искать датасеты
- Совет от эксперта
Что такое датасет для анализа данных
Датасет (англ. dataset) — это обработанный и структурированный массив данных. В нём у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных. Его используют, чтобы строить на основе данных гипотезы, делать выводы или обучать нейросети.
Для примера возьмём набор фотографий разных животных. Сам по себе этот набор — просто массив данных, его невозможно использовать для аналитики или обучения нейросети. Чтобы он стал датасетом, в нём должно быть однозначно прописано, какое конкретно животное изображено на фотографии и по каким признакам оно отличается от других животных.
Примитивно датасет можно представить в виде группировки по признакам
Данные в датасете могут быть разные, например:
● статистика покупок в магазине;
● географическое расположение офисов;
● демографические признаки населения;
● соответствие звуков аудиотексту;
● заболевания с конкретными симптомами.
Данных в датасете должно быть достаточно много, особенно если для анализа используется несколько признаков. Если нейросети нужно отличать кошек от собак, попугаев, лошадей и рыб, то сотни объектов для датасета не хватит. Понадобятся десятки и сотни тысяч фотографий. Если нужно спрогнозировать, что именно купит конкретный клиент, то понадобятся данные о демографии и покупках десятков тысяч других клиентов. Только так прогноз будет точным.
Два способа сбора датасета
● Вручную. Люди лично, без всякой автоматизации отсматривают объекты и описывают их признаки. Так создают обучающие датасеты из данных, которые изначально не структурированы. Например, именно так создают датасеты для распознавания изображений — люди смотрят фото и пишут, что конкретно на них изображено.
● Автоматически. Системы сбора информации сразу заполняют заранее подготовленную таблицу структурированными данными. Например, так можно собрать датасет о демографии клиентов магазина на основе анкеты, которую они заполняют на сайте.
На курсе Практикума «Аналитик данных» студенты учатся работать с датасетами: проверять их, анализировать и использовать в моделях машинного обучения.
Повышайте прибыль компании с помощью данных
Научитесь анализировать большие данные, строить гипотезы и соберите 13 проектов в портфолио за 6 месяцев, а не 1,5 года. Сделайте первый шаг к новой профессии в бесплатной вводной части курса «Аналитик данных».
Из чего состоит датасет
Датасет состоит из двух основных компонентов:
● Объект: фото, фрагмент аудио, покупатель, заболевание, название офиса.
● Характеристики объекта: конкретные признаки, связи с другими объектами, его местоположение.
Характеристики объекта обычно задают не словами, а цифрами. Например, нужно отметить пол покупателя. Это делают не буквами «М» и «Ж», а создают два признака «Мужской» и «Женский», и один могут обозначить как 0, а другой как 1.
Именно поэтому признаки часто могут иметь нулевые значения, и иногда их даже больше, чем единичных. Например, у нас есть человек и 100 вариантов городов, где он родился. Только в одном городе может стоять единица — а во всех остальных будут нули. Получается, что большая часть датасета часто пустая, и это нормально.
Чем больше в датасете для обучения объектов, тем лучше он отражает реальность, и тем более достоверной получается аналитика и обученные с её помощью нейросети.
Чем больше в датасете характеристик, тем он сложнее для анализа. Это даже называют «проклятием размерности». С ростом количества признаков сложность обработки датасета растёт не линейно, а по экспоненте, то есть очень быстро.
Для чего строят и обучают нейросети в IT
Виды датасетов
1. Простая запись
Это таблица, в строках которой расположены объекты, а в колонках — признаки. Явных связей между строками и столбцами нет, признаки просто соответствуют конкретным объектам. Чаще всего датасеты выглядят именно так.
Так может выглядеть фрагмент датасета в формате простой записи
2. Граф
Данные о связях между объектами, которые могут быть представлены визуально в виде схемы из объектов, соединённых стрелками. А могут быть в виде таблицы, где в строках и колонках указаны объекты, а в пересечениях — связи между ними.
Графы бывают структурированные и неструктурированные. У первых присутствуют либо отсутствуют соотношения между объектами. У вторых они могут быть направленные — например, первый объект соотносится со вторым, а второй с первым уже нет. Кроме того, у соотношений может быть разный вес. Например, первый объект отправил второму 10 сообщений — тогда вес этого соотношения равен 10.
Структурированный граф пользователей социальной сети в виде визуальной схемы
3. Упорядоченные записи
Здесь роль играет не соотношение объектов или их признаки, а конкретное расположение в таблице с данными, пространстве или времени.
Например, такой датасет для анализа данных может быть в виде таблицы, в которой главная информация — это расположение объекта.
Пример такого датасета — геном, где важно расположение каждого конкретного гена
Где искать датасеты
Датасет можно собрать самостоятельно, но это дорого, сложно, а часто и невозможно, если нет доступа к нужным данным. Поэтому лучше искать их в источниках. Главное место для поиска — Google Dataset Search. Он позволяет по ключевому слову искать датасеты по всему миру. Много датасетов хранится на Kaggle — площадке для соревнований по машинному обучению. Придётся перебирать много нишевых наборов данных, но среди них можно найти полезные для бизнеса.
Примеры датасетов, открытых для использования
● World Bank Open Data. Наборы данных о демографии и экономических показателях.
● IMF Data. Датасеты о финансах и ценах на товары.
● Google Trends. Данные о поисковой статистике и трендовых запросах.
● xView. Большой набор воздушных снимков Земли с аннотациями.
● Labelme. Большой датасет с уже размеченными изображениями.
● Labelled Faces in the Wild. 13 тысяч размеченных изображений лиц.
● HotspotQA Dataset
. Датасет с вопросами-ответами для генерации ответов на часто задаваемые простые вопросы.
● Berkeley DeepDrive BDD100k. Тысячи часов вождения для обучения автопилотов.
● MIMIC-III. Обезличенные медицинские данные пациентов.
● CREMA-D — датасет для распознавания эмоций по записи голоса.
Часто бывает так, что датасета по конкретному запросу не существует. Например, если речь про список клиентов конкретного магазина. В таком случае датасет может предоставить компания, либо его придется формировать самостоятельно: собирать данные и очищать их вручную или автоматически. Часто такие задачи отдают на аутсорс — есть компании, которая занимается подготовкой датасетов из сырых данных.
Совет от эксперта
Мария Ефимова
«Чтобы понять, как датасеты выглядят и что с ними делать, лучше всего взять и поработать с ними на практике. Например, зайти на Kaggle, выбрать интересный датасет и попробовать его проанализировать. Лучшее обучение — это практика».
Ревьюер направления Data Analysis Латинской Америки
Что такое машинное обучение
Как ETL-процессы помогают анализировать большие данные
Учитесь на майских и получайте скидку 7%. Пройдите первый бесплатный урок с 1 по 14 мая и получите промокод на скидку.
Решаем интересную задачу. Пользователи часто делают опечатки в email адресах, например
qmail
gmil
gmal
Совершенно очевидно, что пользователь имел ввиду gmail, и нужно если не исправлять, то хотя бы обращать внимание пользователя на такие вещи, но почему-то ни у кого таких решений не нашёл.
Собственно, вопрос состоит из 2х частей:
1. Видел ли кто-нибудь успешную реализацию таких подсказок?
2. Был ли у кого-нибудь в поле зрения готовый датасет со списком синонимов и сервисов? (платный или бесплатный не важно)
В статье рассказывается:
- Понятие и задачи датасета
- Виды датасетов
- Характеристики датасета
- Выборка для датасета
- Лучшие датасеты для анализа и машинного обучения
-
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.Бесплатно от Geekbrains
Датасет представляет собой набор данных, которые используются в различных видах анализа и машинного обучения. Причем успешность последнего напрямую зависит от объема исходной информации: чем ее больше, тем качественней будет развиваться ИИ.
Очевидно, что собирать большой объем данных вручную сложно и не всегда целесообразно. В нашей статье мы расскажем, какие бывают датасеты, как они формируются, и предложим набор из лучших вариантов в различных областях.
Понятие и задачи датасета
Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения.
Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.
Под любые задачи имеется определенный вид разметки данных:
- выделение 2D и 3D объектов;
- сегментация объектов;
- сортировка изображений по категориям;
- классификация текстов;
- транскрипция рукописного текста;
- анализ тональности текстов;
- распознавание сущностей в тексте;
- транскрибация речи.
Скачать файл
Разметка данных является довольно утомительным и рутинным процессом. Например, нужно сделать так, чтобы приложение могло по фотографии распознать домашних животных. Для решения этой задачи следует произвести выделение кошек на нескольких тысячах изображений. В результате этих действий сеть определяет, присутствует ли на фотографии изображение кошки или нет.
Но в случае, если на картинке запечатлены собаки, обезьянки, хомячки или любые другие животные, то искусственный интеллект никак на них не отреагирует. Это указывает на необходимость проделать еще очень большой объем работы, результатом которого станет размещение всех животных, интересующих нас.
Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.
Виды датасетов
С научной точки зрения существует три категории датасетов:
Простая запись
Это самая простая категория, при которой не прослеживается явная связь между строками-Наблюдениями или столбцами-Признаками, при этом для каждой строки характерен одинаковый набор характеристик. Как правило, такие записи сохраняются или в файлах формата .csv, .parquet, или в реляционных базах данных.
Простые записи имеют несколько подвидов:
- Транзакционные данные
Примером могут служить покупки в магазине. Наиболее часто встречаются двоичные признаки, по которым можно узнать была ли совершена покупка какого-либо предмета или нет.
- Матрица данных
В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.
Исходя из этого напрашивается вывод, что преобразование данных и осуществление управления ими, допустимо производить с помощью стандартных матричных операций. Для большего количества статистических данных матрица является стандартным форматом.
- Матрица разреженных данных (встречается матрица данных документа)
Характеризуется тем, что в отличие от матрицы данных, имеет ассиметричные признаки, то есть важное значение придают только ненулевым значениям.
Графы
Представляют собой данные, имеющие связь между объектами. Графы структурируются, узловые компоненты имеют определенную взаимосвязь между собой.
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ ресурсов об IT-сфере
Только лучшие телеграм-каналы, каналы Youtube, подкасты, форумы и многое другое для того, чтобы узнавать новое про IT
ТОП 50+ сервисов и приложений от Geekbrains
Безопасные и надежные программы для работы в наши дни
Уже скачали 20656
Упорядоченные записи
Часть данных упорядочена в пространстве или во времени. Они бывают следующими:
- Последовательными. Эти данные образованы наборами отдельных объектов – словами или буквами, не имеют временных меток, но обладают позициями в упорядоченной последовательности.
- Временной ряд. Разновидность данных последовательного типа, где любая запись представлена в виде временного ряда, т.е. серии изменений.
- Пространственными. Эти данные характеризуются наличием координат.
Характеристики датасета
Основные параметры датасетов:
- Размерность – показывает, сколько признаков имеет набор данных. Если размерность высокая, то осуществить анализ такого набора данных будет затруднительно.
- Разреженность – показатель, характеризующийся заполненностью датасета, т.е. те ячейки, которые заполнены ненулевыми значениями. Для некоторого количества наборов данных, имеющих асимметричные функции, большое число признаков показывают нулевое значение, и только не более 1 % записей встречается с ненулевым значением.
- Разрешение. Характеризуется возможностью обнаруживать какое-либо явление, при условии, что данные подробны ровно настолько, насколько это соответствует решению задачи. Пример, перемещение циклона можно отразить по часовому изменению давления, но в масштабе нескольких месяцев это явление незначительно.
Выборка для датасета
Генеральная совокупность – это первоначальный комплект исходных данных. Процесс образования выборок из генеральной совокупности является порождением данных. Конечное подмножество элементов генеральной совокупности называется выборкой.
Внимательно изучив конечное подмножество, становится понятно поведение исходного множества. В качестве примера можно привести пример, в котором генеральная совокупность сформирована из 200 тысяч посетителей сайта, но в выборке из них оказались всего 300.
Ожидаемая модель порождения данных предполагает, что выборка из генеральной совокупности генерируется случайным образом. В случае, когда все множество ее элементов одинаково случайно и независимо друг от друга распределяются по исходному множеству, то такую выборку называют простой.
Данный тип выборки представлен математической моделью серии независимых опытов, и по статистике, чаще всего применяется для обучения машинного вида. Следует иметь в виду, что на каждый этап такого образовательного процесса требуется определенный набор данных:
- Обучающая выборка необходима для непосредственного обучения модели. По ней производят настройку и оптимизацию параметров модели.
- Контрольная или тестовая выборка применяется в случае, когда требуется оценить качество модели. В идеале эта выборка должна быть независимой от обучающей.
- Валидационная или проверочная выборка используется при выборе лучшей модели для машинного обучения. Также как и предыдущая выработка, эта не должна перекликаться с обучающей.
- Интеллектуальный анализ информации, выборка, датасет, Data Peperation.
Методы, по которым формируются обучающие и оценочные выборки, зависят от класса задачи, чье решение происходит при помощи машинного обучения:
- Для определения задач классификации, весь объем данных необходимо разделить таким образом, чтобы в образованных наборах соотношение численности объектов различных классов было аналогично исходной генеральной совокупности.
- Для решения задачи при регрессивном анализе следует одинаково распределить целевую переменную в полученных наборах, которые в будущем применяются для обучения и контроля качества.
После формирования выборки приходит последовательность следующих процессов CRISP-DM: очистка данных и действия с признаками:
- генерация;
- трансформация;
- нормализация и отбрасывание лишней переменной.

Читайте также
Все эти действия направлены на исключение мультиколлинеарности факторов и понижения размерности модели машинного обучения.
Лучшие датасеты для анализа и машинного обучения
Датасеты общего назначения
Государственные датасеты:
- Data.gov. Тут находится информация от различных организаций США. Данные могут быть абсолютно разными, от государственного бюджета до отметок в школьном табеле.
- Food Environment Atlas. Включает в себя сведения влиянии многообразия факторов на критерии выбора питания в США и его качества. Из показателей следует отметить расстояние до магазина или ресторана, стоимость продуктов, производителя и другие.
- School system finances. Информация о финансовом состоянии школьной системы в США.
- Chronic disease data. Этот датасет содержит сведения о хронических заболеваниях в США.
- The US National Center for Education Statistics. Содержит данные об образовательных заведениях и демографии не только в США, но и по всей планете.
- The UK Data Service. Наиболее крупное хранилище информации социальной, экономической и демографической направленности в Великобритании.
- Data USA. Подробная визуализация данных общего доступа в США.
Только до 8.05
Скачай подборку тестов, чтобы определить свои самые конкурентные скиллы
Список документов:



Чтобы получить файл, укажите e-mail:
Подтвердите, что вы не робот,
указав номер телефона:
Уже скачали 7503
Данные о жилье:
- Boston Housing Dataset. Здесь можно увидеть сведения о жилом фонде в Бостоне, которые собрало бюро, осуществляющее перепись населения США.
Экономика и финансы:
- Quandi. Является неплохим источником информации экономической и финансовой направленности. Используется для строительства прогнозных моделей различных данных экономики или котировок акций.
- Word Bank Open Data. Включает определенные информационные комплексы, в которых отражается демографическая ситуация, разнообразные экономические показатели и индикаторы развития по всему миру.
- IMF Data. Содержит сведения международного валютного фонда о мировых финансах, долговых критериях, резервах валют, инвестиционные рекомендации и стоимость основных сырьевых товарах.
- Financial Times Market Data. Наиболее точная информация о финансовом рынке по всему миру, в том числе индексы стоимости акций, товаров и валют.
- Google Trends. Здесь можно узнать и проанализировать сведения по активности поисковых систем в сети.
- American Economic Association. Неплохое место для поиска информации о макроэкономических показателях США.
Датасеты для машинного обучения
Компьютерное зрение:
- xView. Является самым крупным из всех наборов воздушных снимков земли общего доступа. Здесь содержатся картинки разных сцен со всех уголков нашей планеты, которые аннотированы при помощи различных ограничений.
- Labelme. Включает большое количество аннотированных картинок.
- ImageNet. Датасет, где можно найти изображения для вновь созданных алгоритмов.
- LSUN. Массив картинок, отсортированных по различным критериям.
- MS COCO. Здесь можно найти все, что потребуется для обнаружения и сегментации объектов.
- Visual Genome. Размеры датасета с подробно аннотированными изображениями являются самыми крупными.
- Google’s Open Images. Включает коллекцию из более чем 9 миллионов URL-адресов, имеющих метки и охватывающих большое количество категорий под лицензией Creative Commons.
- Labelled Faces in the Wild. Включает изображения более 10000 человеческих лиц для применения приложений, в основе которых лежит распознавание лиц.
- Stanford Dogs Dataset. Анализ датасета позволит распознать изображения из определенных пород собак.
- Indoor Scene Recognition. Один из наиболее больших датасетов в плане узнавания интерьеров. В нем содержится 67 категорий включающих 15 620 картинок.
Анализ тональности текста:
- Multidomain sentiment analysis dataset. Достаточно возрастной проект, в котором содержится информация о товарах, купленных на Amazon.
- IMDB reviews. Маленький ресурс с тематикой «отзовик к фильмам».
- Stanford Sentiment Treebank. Проект Стенфортского университета, где анализируют тональность.
- Sentiment140. Модный портал, в котором можно найти множество твитов с удалёнными смайликами.
- Twitter US Airline Sentiment. Здесь находятся данные из Twitter обо всех компаниях авиаперевозчиках США.
Обработка естественного языка:
- HotspotQA Dataset. Ресурс, в котором содержатся вопросы и ответы. С его помощью можно создать систему стандартных ответов.
- Amazon Reviews. Здесь накопилось огромное количество отзывов с одноименного ресурса за восемнадцатилетний период. В них можно найти различные сведения и статистические данные о товаре.
- Google Books Ngrams. Включает коллекцию слов из книги Google.
- Wikipedia Links data. Этот проект построен из веб-страниц, причем на каждой имеется одна ссылка на Википедию и ее якорный текст аналогичен заголовку страницы.
- Gutenberg eBooks List. Датасет с аннотированным списком электронных книг проекта «Гутенберг».
- Jeopardy. Содержит архивные данные одноименной телевизионной викторины.
- Rotten Tomatoes Reviews. Здесь находятся рецензии в количестве 480 тысяч штук с Rotten Tomatoes.
- Yelp Reviews. Сведения, содержащие около 5 млн отзывов от Yelp.
- UCI’s Spambase. Крупный датасет, в котором находятся спам-письма.
Автопилоты:
- Berkeley DeepDrive BDD100k. В настоящий момент является самым большим датасетом для автопилотов. В нем содержится множество видеозаписей вождения, при разнообразных ситуациях.
- Baidu Apolloscapes. Ресурс с функцией распознавания 26 семантически разных объектов. Это могут быть машины, велосипеды, пешеходы, здания, уличные фонари и т. д.
- Comma.ai. Здесь содержится информация об основных параметрах машины, находящейся в движении.
- Oxford’s Robotic Car. Проект включает около 100 повторения одного и того же маршрута, которые были запечатлены за один год в Оксфорде. На маршруте явно прослеживаются разные условия: трафик, погода, пешеходы, ремонт дороги и т.д.
- Cityscape Dataset. Скачав этот датасет, можно найти сто записей с уличных камер из 50 городов.
- KUL Belgium Traffic Sign Dataset. Информация, содержащая аннотации к тысячам бельгийских светофоров.
Медицинские данные:
- MIMIC-III. Датасет содержащий обезличенную информацию о состоянии здоровья около 40 тысяч больных, которые подвергаются интенсивной терапии. Он включает карту пациента, показатели жизненной активности, принимаемые лекарства, прогноз лечения и т.д.

Читайте также
В настоящее время заинтересованные участники рынка принимают участие в работе различных структур по разработке и внедрению новых регуляторных норм для создания датасетов. Планируется, что это приведет к облегчению доступа к данным, которые необходимы для обучения искусственного интеллекта, а также разработке ML-сервисов на объединенных наборах данных из разнообразных источников в режиме «песочниц».









