Помеченные вопросы [data-science]

2 голосов
1 ответы
Как использовать метод поиска для извлечения значений, используя начало и конец
У меня есть фрейм данных (sample_emails), который предоставляет список электронных писем, и я хотел бы извлечь из него только рабочее место. Нап...
спросил 2 месяца назад
0 голосов
0 ответы
Вопрос о новом типе доверительного интервала
Я получил следующий результат, проверенный на многих наборах данных, но у меня пока нет формальных доказательств: Теорема . Ширина L любог...
спросил 2 месяца назад
0 голосов
2 ответы
Разбор текстового файла в Python и печать строки, соответствующей строке
У меня есть файл с именем file.txt, который содержит текст. Существует еще один файл details.txt, содержащий строки, которые нужно извлечь из фа...
спросил 2 месяца назад
0 голосов
0 ответы
Spark RandomForest не получает правильные значения maxbin
Я работаю над алгоритмом Random Forest с использованием spark-ml. У меня есть 1000 уникальных категорий, поэтому я должен установить значения Ma...
спросил 2 месяца назад
0 голосов
2 ответы
Как предотвратить использование NaN в решениях для определения углового выброса в PyOd
Я получаю значения nan в качестве оценок при использовании Углового детектора выбросов, из-за которого выбросы не обнаруживаются. from pyod.mo...
спросил 2 месяца назад
1 голосов
1 ответы
Как вернуть результаты при отправке запроса на сайт, а затем выбрать один из них?
Я пытаюсь создать скрипт, который вводит текст в www.citethisforme.com в качестве запроса на публикацию, а затем выбирает первый результат. Я...
спросил 2 месяца назад
1 голосов
2 ответы
В следующем примере, какую эпоху лучше всего использовать, чтобы избежать переобучения?
У меня есть 8-слойная полностью подключенная нейронная сеть, обучение которой обеспечивает следующую точность и прогрессирование потерь: Ч...
спросил 2 месяца назад
2 голосов
1 ответы
Как One-Hot кодировать несколько столбцов одновременно в dataFrame, используя Keras.to_Categorical?
Я хочу в один фрейм кодировать сразу несколько столбцов в моем фрейме данных, используя Keras to_categorical. Как это сделать? need_to_encode...
спросил 2 месяца назад
1 голосов
1 ответы
Как мне обрабатывать категориальные данные, когда существует разное количество категорий для точки данных в процессе обучения и тестирования?
Я работаю над следующим проектом Kaggle: https: //www.kaggle.com/c/house-prices-advanced-regression-techniques . Мой вопрос заключается в то...
спросил 2 месяца назад
-1 голосов
1 ответы
Какую модель кластеризации я могу использовать для прогнозирования следующего результата?
В моем наборе данных есть три столбца. Это список ресторанов, относящихся к категории «пицца». Эти данные получены из набора данных yelp. Для ка...
спросил 2 месяца назад
1 голосов
2 ответы
Разница в датах на основе сопоставления значений в двух столбцах - панды
У меня есть фрейм данных, я изо всех сил пытаюсь создать столбец на основе других столбцов, я поделюсь этой проблемой для примера данных....
спросил 2 месяца назад
2 голосов
0 ответы
почему нормализация данных важна для моделей, когда параметры могут управлять весом / важностью функции
Когда мы изучаем нормализацию, приводятся различные факты, объясняющие необходимость. Наиболее важным из них является то, что:    Нормали...
спросил 2 месяца назад
1 голосов
1 ответы
Кто-нибудь знает об «ошибке SQL» при загрузке CSV-файла с помощью панд
Я загружаю файл CSV, используя библиотеку панды из локального пути для машинного обучения. Я получаю эту ошибку:    ProgrammingError: 1064 (4...
спросил 2 месяца назад
1 голосов
0 ответы
Как классифицировать текстовые данные с сотнями классов и меньшим количеством образцов в каждом классе
У меня есть набор данных, который содержит около 10000 небольших абзацев, и абзацы принадлежат классам. Есть около 80 - 100 классов. Абзацы могу...
спросил 2 месяца назад
1 голосов
0 ответы
Не существует пункт -Query
Я использую предложение NOT EXSITS в своем запросе и хотел убедиться, что он работает правильно, поскольку я получаю меньше строк, чем ожидалось...
спросил 2 месяца назад
4 голосов
2 ответы
SelectKBest дает оценки в виде значений нан
У меня есть набор данных, и я пытаюсь получить значения функций, используя SelectKBest и Chi2, но SelectKBest дает оценки функций как nan. Фа...
спросил 2 месяца назад
2 голосов
0 ответы
Чрезвычайно большой градиент в последнем слое и маленький в остальном
Я очень плохо знаком с обучением нейронным сетям, но глупо пытался реализовать свою собственную новую архитектуру. Он очень похож на трансформат...
спросил 2 месяца назад
1 голосов
0 ответы
Применение функции geohash_decode к столбцу в кадре данных
Ну, я geohash_encoded географические координаты в геохэш. Моя цель - рассчитать расстояние с некоторым уровнем точности. Я пытаюсь geohash_decod...
спросил 2 месяца назад
1 голосов
1 ответы
Как можно в одно касание кодировать данные, имеющие несколько одинаковых значений для разных свойств?
У меня есть данные, содержащие кандидатов, которые ищут работу. Исходные данные, которые я получил, были полным беспорядком, но мне удалось их у...
спросил 2 месяца назад
1 голосов
1 ответы
Проверка странного элемента в наборе данных
Я хочу проверить странные категориальные элементы в кадре данных с меньшим количеством строк в Python Я пытался использовать следующие коды д...
спросил 2 месяца назад
1 голосов
0 ответы
Как найти z-показатель / доверительные интервалы для панд, кратных по группам по дате
У меня есть несколько столбцов, сгруппированных по рядам панд; который для каждого столбца группировки показывает дату заказа. У каждой группы е...
спросил 2 месяца назад
1 голосов
1 ответы
Как создать график временных рядов в формате отметки времени: ММ / ДД / ГГГГ ЧЧ: ММ
У меня есть таблица приличного размера, которую я читаю из файла .csv. Я хотел бы создать временную диаграмму значений. file = 'test.csv' name...
спросил 2 месяца назад
1 голосов
0 ответы
Как получить минимальное и максимальное время столбца отметки времени на основе временного интервала 30 минут?
Я пытаюсь получить желаемый вывод, который выглядит следующим образом Driver_ID| Interval_Start_Time | Interval_End_Time | C...
спросил 2 месяца назад
-1 голосов
0 ответы
Распознавание образов и прогнозы на основе истории
У меня минимальный опыт работы с машинным обучением /наукой о данных /статистикой, поэтому я даже не знаю, как задать этот вопрос. Как таково...
спросил 2 месяца назад
0 голосов
0 ответы
Последний слой имеет 2 нейрона, когда целью является одно значение индекса S & P500. Как два входа интерпретируются, чтобы дать окончательный индекс?
Я внедряю эту статью о прогнозировании акций 'ModAugNet: A новая структура прогнозирования значения индекса фондового рынка с модулем LSTM для...
спросил 2 месяца назад