- Se agrega funcionalidad para leer archivos geográficos (SHP) y guardarlos en CSV con una columna GEOJSON, principalmente para compatibilidad con CKAN. Se lee la proyección en el .prj (si este existe) y se re-proyecta por default a EPSG 4326, salvo se especifique lo contrario.
- Se agrega capacidad de leer archivos excel en XLSX.
- Se agrega un parámetro opcional (
lower_words
) al métodonombre_propio
, para especificar palabras que no se capitalizan.
- Se remueven los caracteres de salto de línea de todos los valores.
- Se detectan los fields con títulos que usan la convencion upper CamelCase para interpretar que cada mayúscula comienza una palabra distinta
- Se arregla un bug en los métodos que operan con strings que transformaba missings nan de pandas en strings "nan".
- Se corrige capitalizer para evitar errores con cadenas de texto vacías.
- Se modifica la interfaz del algoritmo de clusterización de strings, agregando parámetros para sorting de tokens y remoción de duplicados de tokens. Ahora el algoritmo es extremadamente seguro, el default está en False en ambos casos con lo cual no reordena tokens ni elimina duplicados.
- El método clean no permite guardar un dataset en un CSV con formato que no sea el estándar.
- Las columnas nuevas se agregan en orden, justo después de las originales.
- Nueva regla de limpieza: reemplazo simple de strings (reemplazar_string).
- Agrega método de limpieza de e-mails
- Corrige varios problemas de encoding
- Chequea que no haya campos repetidos antes de cargar un csv
- Corrige bug en capitalizer() cuando el input es un integer o float
- Corrige bug en métodos que parsean fechas, devuelven empty string "" en lugar de NaN
- Se mejora el capitalizer de la regla nombre_propio()
- Se permite controlar al usuario si la o las columnas originales objeto de una limpieza se mantienen o se remueven
- Se agregan nuevos métodos de limpieza.
- Se modifica la interfaz de la lista de reglas.
- First release on PyPI.