Страницы

Поиск по вопросам

вторник, 7 января 2020 г.

Хранение и удобный доступ к большому объему данных на питоне

#python


Всем привет. Возникла следующая проблема: где хранить и как обеспечить быстрый доступ
к достаточно большой таблице данных на Python?
Исходные данные - тхтшник с 4млн. строк и 10 столбцами.
Изначально планировать все это дело запихнуть в .pkl вот таким образом:
import pickle
infile=open('big.txt','r')
flag=1
count=0
data=[]
while flag==1:
    row=infile.readline()
    if row=='':
        flag=0
        print('export done')
        break
    data.append(row.split('\t'))
outfile=open('big_dump.pkl','wb')
pickle.dump(data,outfile)
print('dump done')

Однако, такой код перегружает оперативку, вероятно потому что хранит список data
в памяти. В какую сторону смотреть, какую библиотеку для хранения выбрать? 
Я думал насчет pytables, но там маловато русской документации. Проблема еще и в том,
что после сохранения данных нужна возможность вызывать их из файла по ключу.    


Ответы

Ответ 1



какую библиотеку для хранения выбрать? PostgreSQL, MySQL, Oracle, MS SQL Server, MariaDB, в крайнем случае SQLite, еще может быть такое, что там лучше подойдет NoSQL что-нибудь типа MongoDB, Cassandra.

Комментариев нет:

Отправить комментарий