fix for hgvs parser, csv indexes

CountESS-Project · Oct 23, 2023 · 759096c · 759096c
1 parent 0b22bb6
commit 759096c
Show file tree

Hide file tree

Showing 4 changed files with 16 additions and 17 deletions.
diff --git a/countess/core/pipeline.py b/countess/core/pipeline.py
@@ -173,7 +173,10 @@ def execute(self, logger: Logger, row_limit: Optional[int] = None):
             for pn in self.parent_nodes:
                 for data_in in pn.result:
                     logger.progress(self.name, None)
-                    self.result += list(self.plugin.process(data_in, pn.name, logger))
+                    try:
+                        self.result += list(self.plugin.process(data_in, pn.name, logger))
+                    except Exception as exc:  # pylint: disable=broad-exception-caught
+                        logger.exception(exc)
             logger.progress(self.name, 100)
             self.result += list(self.plugin.finalize(logger))
 

diff --git a/countess/plugins/csv.py b/countess/plugins/csv.py
@@ -177,10 +177,6 @@ def prepare(self, sources: list[str], row_limit: Optional[int] = None):
     def process(self, data: pd.DataFrame, source: str, logger: Logger):
         # reset indexes so we can treat all columns equally.
         # if there's just a nameless index then we don't care about it, drop it.
-
-        # XXX sometimes this doesn't seem to work?
-        # I've set "index=True" below to emit the indexes
-
         drop_index = data.index.name is None and data.index.names[0] is None
         dataframe = flatten_columns(data.reset_index(drop=drop_index))
 
@@ -204,7 +200,7 @@ def process(self, data: pd.DataFrame, source: str, logger: Logger):
             self.filehandle,
             header=emit_header,
             columns=self.csv_columns,
-            index=drop_index,
+            index=False,
             sep=self.SEPARATORS[self.parameters["delimiter"].value],
             quoting=bool(self.QUOTING[self.parameters["quoting"].value]),
         )  # type: ignore [call-overload]

diff --git a/countess/plugins/hgvs_parser.py b/countess/plugins/hgvs_parser.py
@@ -1,4 +1,5 @@
 import re
+from typing import Optional
 
 import pandas as pd
 
@@ -61,16 +62,15 @@ def process_dict(self, data: dict, logger: Logger):
         if len(variations) > max_variations:
             return None
 
-        output_vars = []
-        output_locs = []
-        for v in variations:
+        output_vars : list[Optional[str]] = [None] * max_variations
+        output_locs : list[Optional[str]] = [None] * max_variations
+        for n, v in enumerate(variations):
             if self.parameters["split"].value:
                 if m := re.match(r"([\d_]+)(.*)", v):
-                    output_locs.append(m.group(1))
-                    output_vars.append(m.group(2))
+                    output_locs[n] = m.group(1)
+                    output_vars[n] = m.group(2)
                     continue
-            output_locs.append(None)
-            output_vars.append(v)
+            output_vars[n] = v
 
         if self.parameters["multi"].value:
             output["var"] = output_vars

diff --git a/tests/output.csv.expected b/tests/output.csv.expected
@@ -1,4 +1,4 @@
-foo,bar,baz,qux,number,zz
-10,2,1,4,232,0.08620689655172414
-11,3,2,1,565,0.0584070796460177
-12,9,8,7,999,0.10810810810810811
+thing,foo,bar,baz,qux,number,zz
+bar,10,2,1,4,232,0.08620689655172414
+baz,11,3,2,1,565,0.0584070796460177
+qux,12,9,8,7,999,0.10810810810810811