#python
Всем привет. Возникла следующая проблема: где хранить и как обеспечить быстрый доступ к достаточно большой таблице данных на Python? Исходные данные - тхтшник с 4млн. строк и 10 столбцами. Изначально планировать все это дело запихнуть в .pkl вот таким образом: import pickle infile=open('big.txt','r') flag=1 count=0 data=[] while flag==1: row=infile.readline() if row=='': flag=0 print('export done') break data.append(row.split('\t')) outfile=open('big_dump.pkl','wb') pickle.dump(data,outfile) print('dump done') Однако, такой код перегружает оперативку, вероятно потому что хранит список data в памяти. В какую сторону смотреть, какую библиотеку для хранения выбрать? Я думал насчет pytables, но там маловато русской документации. Проблема еще и в том, что после сохранения данных нужна возможность вызывать их из файла по ключу.
Ответы
Ответ 1
какую библиотеку для хранения выбрать? PostgreSQL, MySQL, Oracle, MS SQL Server, MariaDB, в крайнем случае SQLite, еще может быть такое, что там лучше подойдет NoSQL что-нибудь типа MongoDB, Cassandra.
Комментариев нет:
Отправить комментарий