coding: Нахождение max() и min() в столбце CSV файла

понедельник, 30 декабря 2019 г.

Нахождение max() и min() в столбце CSV файла

#python #python_3x #список #матрицы #csv


Дан файловый объект .txt, в котором данные приведены как числа:


  Rosneft,07/19/06,00:00,220.32,220.32,203.03,203.95,51774,0


Таких данных около 2 тыс. и все они записаны в файле с новой строки.
Нужно найти максимальную и минимальную цену и ее дату в файле.  

file = open('file.txt') # Открыть файл
for line in file: # Пройти циклом 
    new_line1 = line.split(',') #разделить строки по запятым в new_line1
    new_file1 = new_line1[4:6] # срезать нужные строки  


И на этом логика выполнения задачи зашла в тупик. Хотелось бы понять эту логику в
примерах как с ф-цией min() и max(), так и без неё.

Ответы

Ответ 1


Решение без использования доп. модулей:

Файл с данными (C:\Temp\data.csv):

Rosneft,07/19/06,00:00,220.32,220.32,203.03,203.95,51774,0
Rosneft,07/20/06,00:00,230.33,230.34,230.35,230.36,56544,0
Rosneft,07/21/06,00:00,210.33,210.34,210.35,210.36,50344,0


Решение:

filename = r'C:\Temp\data.csv'

data = []
with open(filename) as f:
    for line in f:
        tmp = line.split(',')
        tmp[3:] = list(map(float, tmp[3:]))
        data.append(tmp)

def transpose(matrix):
    return list(zip(*matrix))

def get_min_idx(data, col_idx=0):
    return min(range(len(data)), key=transpose(data)[col_idx].__getitem__)

def get_max_idx(data, col_idx=0):
    return max(range(len(data)), key=transpose(data)[col_idx].__getitem__)

print('Min:\t', data[get_min_idx(data, col_idx=3)])
print('Max:\t', data[get_max_idx(data, col_idx=3)])


Результат:

Min:     ['Rosneft', '07/21/06', '00:00', 210.33, 210.34, 210.35, 210.36, 50344.0, 0.0]
Max:     ['Rosneft', '07/20/06', '00:00', 230.33, 230.34, 230.35, 230.36, 56544.0, 0.0]


Ответ 2


Для обработки табличных (2D) данных идеально подходит модуль Pandas.

Пример:

создадим тестовый файл похожей структуры, в качестве данных возьмем котирови Apple
начиная с 2001-го года (4490 строк)

import pandas as pd                             # pip install pandas
from pandas_datareader.data import DataReader   # pip install pandas-datareader

df = DataReader('AAPL', 'yahoo', '2001-01-01', '2018-11-06').reset_index()

df.to_csv('c:/temp/data.csv', index=False)


Несколько строк из файла:

Date,High,Low,Open,Close,Volume,Adj Close
2001-01-02,1.0892857313156128,1.0401785373687744,1.0625,1.0625,113078000.0,0.713999330997467
2001-01-03,1.1919642686843872,1.03125,1.0357142686843872,1.1696428060531616,204268400.0,0.7859991192817688
2001-01-04,1.3214285373687744,1.2008928060531616,1.2957571744918823,1.21875,184849000.0,0.818999171257019
2001-01-05,1.2410714626312256,1.1473214626312256,1.2098214626312256,1.1696428060531616,103089000.0,0.7859991192817688
2001-01-08,1.2131643295288086,1.1383928060531616,1.2098214626312256,1.1830357313156128,93424800.0,0.7949992418289185


Решение:

import pandas as pd

df = pd.read_csv(r'c:/temp/data.csv')


поиск строк с наименьшим и наибольшим значением в поле Adj Close:

In [27]: print(df.nsmallest(1, ['Adj Close']))
          Date      High       Low      Open     Close       Volume  Adj Close
573 2003-04-17  0.946429  0.908571  0.942857  0.937143  154064400.0   0.629759

In [28]: print(df.nlargest(1, ['Adj Close']))
           Date        High         Low        Open       Close      Volume   Adj Close
4466 2018-10-03  233.470001  229.779999  230.050003  232.070007  28654800.0  232.070007


TOP 5 значений:

In [29]: print(df.nlargest(5, ['Adj Close']))
           Date        High         Low        Open       Close      Volume   Adj Close
4466 2018-10-03  233.470001  229.779999  230.050003  232.070007  28654800.0  232.070007
4465 2018-10-02  230.000000  226.630005  227.250000  229.279999  24788200.0  229.279999
4445 2018-09-04  229.179993  226.630005  228.410004  228.360001  27390100.0  228.360001
4467 2018-10-04  232.350006  226.729996  230.779999  227.990005  32042000.0  227.990005
4444 2018-08-31  228.869995  226.000000  226.509995  227.630005  43340100.0  227.630005


Ответ 3


Логика такова:

line="Rosneft,07/19/06,00:00,220.32,220.32,203.03,203.95,51774,0"
elems=line.split(',')
date=elems[1]
prices = list(map(float,elems[3:7]))
print("На {} максимум: {}, минимум: {}".format(date, max(prices), min(prices)))


На выходе:

На 07/19/06 максимум: 220.32, минимум: 203.03

coding

Страницы

Поиск по вопросам

понедельник, 30 декабря 2019 г.

Нахождение max() и min() в столбце CSV файла

Ответы

Ответ 1

Ответ 2

Ответ 3

Комментариев нет:

Отправить комментарий

Страницы

Поиск по вопросам

понедельник, 30 декабря 2019 г.

Нахождение max() и min() в столбце CSV файла

Ответы

Ответ 1

Ответ 2

Ответ 3

Комментариев нет:

Отправить комментарий

понедельник, 30 декабря 2019 г.