[Feature] Support Medusa decode (Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads) #2950

yimuu · 2024-12-25T01:04:12Z

Motivation

Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads (https://github.com/FasterDecoding/Medusa) The proposed method can greatly improve the inference speed

Related resources

https://github.com/FasterDecoding/Medusa

Additional context

No response

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] Support Medusa decode (Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads) #2950

[Feature] Support Medusa decode (Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads) #2950

yimuu commented Dec 25, 2024

[Feature] Support Medusa decode (Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads) #2950

[Feature] Support Medusa decode (Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads) #2950

Comments

yimuu commented Dec 25, 2024

Motivation

Related resources

Additional context