Pandas, библиотека анализа данных для Python, теперь доступна в качестве кандидата на выпуск версии 1.0. Он включает добавление нового значения для представления скалярных отсутствующих значений и выделенного строкового типа данных.
Pandas-это библиотека с открытым исходным кодом, лицензированная BSD, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python. Он был разработан, чтобы предоставить разработчикам простой способ работы со структурированными данными, такими как таблицы, матрицы и временные ряды. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа данных в реальном мире на Python.
Одним из основных изменений в Pandas является версия Python, которую он поддерживает и ожидает. Новый выпуск больше не поддерживает ни одну версию Python, более раннюю, чем Python 3.6.1. В предыдущем выпуске уже была прекращена поддержка Python 2, так что это не такое серьезное изменение, как кажется.
Изменение, улучшающее работу с отсутствующими данными, заключается в добавлении нового значения для представления скалярных отсутствующих значений. До сих пор было несколько вариантов для этого в зависимости от типа данных — np.nan для данных с плавающей точкой, none для объекта-dtype и pd.NaT для даты-времени. Новое значение, pd.NA, используется для обеспечения “отсутствующего” индикатора, который может использоваться последовательно для разных типов данных. pd.NA в настоящее время используется целочисленными и логическими типами данных с нулевым значением и новым строковым типом данных.
Это аккуратно подводит нас к следующему усовершенствованию-добавлению выделенного строкового типа данных. StringDtype-это тип расширения, предназначенный для строковых данных. До сих пор строки обычно хранились в массивах NumPy типа object-dtype. Разработчики говорят, что тип расширения «string» решает несколько проблем с массивами NumPy object-dtype, поэтому вы не сможете случайно хранить смесь строк и не строк в массиве object dtype, поскольку stringArray может хранить только строки. Кроме того, новый тип не будет нарушать специфические для dtype операции, такие как DataFrame.select_dtypes (), так же, как это делает объект dtype.
В другом месте разработчики добавили способ определения пользовательских окон для прокатных операций. Теперь вы можете определить, как создаются границы окна во время операций прокатки. Пользователи могут определить свой собственный метод get_window_bounds в подклассе pandas.api.indexers.BaseIndexer (), который будет генерировать начальный и конечный индексы, используемые для каждого окна во время скользящей агрегации.