Parallelization #1

dennissergeev · 2018-05-09T22:22:06Z

Add an option to execute functions in parallel processes

dennissergeev · 2018-05-14T10:38:31Z

Proof of concept:

def foo(df):
    flag = True
    if df.total_dist_km < 300.:
        flag = False
    if flag:
        if ((df.vortex_type != 0).sum() / df.shape[0] > 0.2):
            flag = False
    if flag:
        df['cat'] = 99
    return df

with concurrent.futures.ProcessPoolExecutor(4) as pool:
    TR.data = pd.concat(list(pool.map(foo, [j for i, j in TR.gb], chunksize=10)))

So far it doesn't give any speed-ups, but maybe it will for heavier computations.

dennissergeev · 2018-05-14T10:58:17Z

For track density calculation, concurrent execution reduces total time by 2. Example:

with concurrent.futures.ProcessPoolExecutor(4) as pool:
    res = list(pool.map(density, gb_list, chunksize=10))
dens = np.array(res).sum(axis=0)

Needs to be investigated further.

dennissergeev added the enhancement New feature or request label May 9, 2018

dennissergeev self-assigned this May 9, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Parallelization #1

Parallelization #1

dennissergeev commented May 9, 2018

dennissergeev commented May 14, 2018

dennissergeev commented May 14, 2018

Parallelization #1

Parallelization #1

Comments

dennissergeev commented May 9, 2018

dennissergeev commented May 14, 2018

dennissergeev commented May 14, 2018