Страницы

Поиск по вопросам

среда, 11 декабря 2019 г.

База данных для статистических данных

#база_данных #nosql #highload #статистика #big_data


Есть набор быстро пополняющихся данных из большого количества источников, которые
тоже пополняются. Структура предельно простая:


id источника
значение
дата/время


Нужна выборка значений по произвольному промежутку даты и времени, как для одного
источника, так и сумма значений со всех источников сразу. 
Это нужно для возможности динамического построения графиков за определенный промежуток
времени для одного источника; либо для графика, на котором отображается сумма значений
от всех источников. 
Так же, такая выборка потребуется для анализа этих данных, чтобы прогнозировать будущие
значения на определенный период.


Какая база данных лучше всего вписывается в эту задачу и почему?
Подойдут ли облачные NOSQL хранилища (Google, Amazon, Azure), или дешевле поднять
свой сервер с БД из ответа №1?

    


Ответы

Ответ 1



ИМХО. NoSQL - не подойдут от слова "вааще". Они заточены по совсем другой, более "вариабельный" тип данных. При вашей простой структуре вам нужна именно реляционная база данных, так как данные из большого количества источников - то что то серверное: MSSQL, MySQL, Oracl - скорее всего любая из них справится.

Ответ 2



Если у вас данных ОЧЕНЬ много (сотни гигабайт-терабайты/день), то посмотрите на Hadoop, там можно хранить много и считать быстро. Если же данных меньше - то стоит использовать PostgreSQL, Oracle, MS SQL. NoSQL - это не о том, он скорее о слабо структурированных данных, так что в вашем случае это просто не нужно.

Комментариев нет:

Отправить комментарий