hwchen2017

Hongwei Chen hwchen2017

Ph.D. in physics; machine learning for physics; high-performance computing

10 followers · 39 following

Microsoft

Achievements

Cute-Gemm-Optimization Public
Forked from DD-DuDa/Cute-Learning

Makefile MIT License Updated Nov 28, 2024
qserve Public
Forked from mit-han-lab/omniserve

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

Python Apache License 2.0 Updated Nov 9, 2024
tiny-flash-attention Public
Forked from 66RING/tiny-flash-attention

flash attention tutorial written in python, triton, cuda, cutlass

Cuda Updated Jun 18, 2024
multi-GPU-comm-bench Public
Forked from ParCoreLab/multi-GPU-comm-bench

Cuda Updated Jun 13, 2024
MatmulTutorial Public
Forked from KnowingNothing/MatmulTutorial

A Easy-to-understand TensorOp Matmul Tutorial

C++ Apache License 2.0 Updated Feb 27, 2024
flash-attention-v100 Public
Forked from ZRayZzz/flash-attention-v100

Cuda Updated Feb 19, 2024
how-to-optim-algorithm-in-cuda Public
Forked from BBuf/how-to-optim-algorithm-in-cuda

how to optimize some algorithm in cuda.

Cuda Updated Jan 22, 2024
flash-attention Public
Forked from Dao-AILab/flash-attention

Fast and memory-efficient exact attention

Python BSD 3-Clause "New" or "Revised" License Updated Jan 21, 2024
cute-gemm Public
Forked from reed-lau/cute-gemm

C++ Updated Dec 30, 2023
Awesome-System-for-Machine-Learning Public
Forked from HuaizhengZhang/AI-System-School

A curated list of research in machine learning systems (MLSys). Paper notes are also provided.

MIT License Updated Dec 15, 2023
cuda_hgemm Public
Forked from Bruce-Lee-LY/cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

Cuda MIT License Updated Nov 7, 2023
TheArtofHPC_pdfs Public
Forked from VictorEijkhout/TheArtofHPC_pdfs

All pdfs of Victor Eijkhout's Art of HPC books and courses

Updated Nov 1, 2023
numpy-ml Public
Forked from ddbourgin/numpy-ml

Machine learning, in numpy

Python GNU General Public License v3.0 Updated Oct 29, 2023
flash_attention_inference Public
Forked from ShaYeBuHui01/flash_attention_inference

Performance of the C++ interface of flash attention and flash attention v2 in large language model (LLM) inference scenarios.

C++ MIT License Updated Aug 31, 2023
ASD-kernel-fusion Public

C 1 Updated Jun 17, 2023
Optimize_SGEMM_on_Nvidia_GPU Public

Implementations of SGEMM algorithm on Nvidia GPU using different tricks to optimize the performance.

cuda matrix-multiplication code-optimization nvidia-gpu gemm-optimization

Cuda Updated May 28, 2023
Quantum Public
Forked from PaddlePaddle/Quantum

Jupyter Notebook Other Updated Apr 24, 2023
varbench Public
Forked from varbench/varbench

Python Apache License 2.0 Updated Apr 2, 2023
Lanczos_Neural_Network_Quantum_State Public

Supporting code for "Systematic improvement of neural network quantum states using Lanczos (NeurIPS 2022)""

metropolis-hastings variational-monte-carlo restricted-boltzmann-machines lanczos-iteration neural-network-quantum-states neurips-2022 quantum-many-body-physics

C++ 3 2 Updated Dec 18, 2022
DeepLearningExamples Public
Forked from NVIDIA/DeepLearningExamples

Deep Learning Examples

Python Updated Nov 4, 2022
physics_codes_publications Public
Forked from ryuikaneko/codes_for_my_publications

C MIT License Updated Oct 28, 2022
multi-gpu-programming-models Public
Forked from NVIDIA/multi-gpu-programming-models

Examples demonstrating available options to program multiple GPUs in a single node or a cluster

Cuda BSD 3-Clause "New" or "Revised" License Updated Oct 17, 2022
Linear-Algebra-and-Learning-from-Data Public
Forked from niuers/Linear-Algebra-and-Learning-from-Data

Solutions to the problems in the book: Linear Algebra and Learning from Data by Gilbert Strang, MIT

Jupyter Notebook Updated Sep 28, 2022
Optimize_DGEMM_on_Intel_CPU Public

Implementations of DGEMM algorithm using different tricks to optimize the performance.

matrix-multiplication avx2 code-optimization gemm-optimization

C 3 1 Updated Aug 27, 2022
oneDNN Public
Forked from oneapi-src/oneDNN

oneAPI Deep Neural Network Library (oneDNN)

C++ Apache License 2.0 Updated Aug 12, 2022
neural_network_quantum_state Public

Neural Network Quantum State

variational-monte-carlo metropolis-hastings-algorithm quantum-many-body neural-network-quantum-states

Jupyter Notebook 6 2 Updated Aug 11, 2022
oneMKL Public
Forked from uxlfoundation/oneMath

oneAPI Math Kernel Library (oneMKL) Interfaces

C++ Apache License 2.0 Updated Aug 9, 2022
cutlass Public
Forked from NVIDIA/cutlass

CUDA Templates for Linear Algebra Subroutines

C++ Other Updated Aug 9, 2022
resnet_food101_cifar10_pytorch Public

ResNet50 Implementation for Food101 and ResNet9 model for CIFAR10 in Pytorch

deep-learning resnet transfer-learning cifar10 resnet-50

Jupyter Notebook 1 Updated Aug 7, 2022
ising-model-gpu Public

Accelerating Monte Carlo simulations of 2D Ising Model using Nvidia GPU

monte-carlo cuda ising-model metropolis-algorithm

Cuda 3 Updated Aug 1, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hongwei Chen hwchen2017

Achievements

Achievements

Block or report hwchen2017

Cute-Gemm-Optimization Public

qserve Public

tiny-flash-attention Public

multi-GPU-comm-bench Public

MatmulTutorial Public

flash-attention-v100 Public

how-to-optim-algorithm-in-cuda Public

flash-attention Public

cute-gemm Public

Awesome-System-for-Machine-Learning Public

cuda_hgemm Public

TheArtofHPC_pdfs Public

numpy-ml Public

flash_attention_inference Public

ASD-kernel-fusion Public

Optimize_SGEMM_on_Nvidia_GPU Public

Quantum Public

varbench Public

Lanczos_Neural_Network_Quantum_State Public

DeepLearningExamples Public

physics_codes_publications Public

multi-gpu-programming-models Public

Linear-Algebra-and-Learning-from-Data Public

Optimize_DGEMM_on_Intel_CPU Public

oneDNN Public

neural_network_quantum_state Public

oneMKL Public

cutlass Public

resnet_food101_cifar10_pytorch Public

ising-model-gpu Public