El rock suena mejor en inglés porque la métrica del idioma y la música cuadran de manera natural, son inseparables de hecho. Es una cuestión de prosodia.
A nivel de palabra, las palabras en inglés coloquial (el que se usa en el rock) mayoritariamente son de dos sílabas (o monosílabos), y cuando tienen más de dos sílabas se tiende a dividirlas en grupos de dos sílabas, con un acento principal y uno secundario, además de que las sílabas no acentuadas tienden a no tener ninguna importancia o directamente a desaparecer.
A nivel de oración, el inglés es una lengua "stress-timed" y sólo las sílabas acentuadas de las palabras con contenido semántico (sustantivos, verbos, adjetivos, adverbios) tienen realmente peso. Las demás (pronombres, conjunciones, auxiliares, preposiciones) suelen ir no acentuadas y, como las sílabas dentro de las palabras, se pronuncian de forma muy relajada o directamente desaparecen. Este patrón natural de la lengua es perfecto para el rock.
https://es.coursera.org/lecture/composicion-canciones/silabas-acentuadas-frente-a-silabas-sin-acentuacion-OkzmF
El español es una lengua "syllable-timed". En el español hay muchas palabras de más de tres sílabas, el acento puede recaer sobre la última, la penúltima o la antepenúltima sílaba, y todas las sílabas - acentuadas o no - se pronuncian. Todo esto hace que sea mucho más difícil "cuadrar" el español en una canción rock, aunque nosotros tenemos otros géneros (toda nuestra música autóctona popular) donde la lengua también se integra de forma natural.
En resumen, si vas a hacer rock o blues o alguna canción que se base en la cultura popular anglosajona, en inglés vas a tener muchos menos quebraderos de cabeza métricamente. Y viceversa: trata de componer un bolero o una copla en inglés, y te encontrarás con problemas parecidos que al componer rock en español.
Disclaimer: que no digo que NO SE PUEDA, digo que ES MÁS DIFÍCIL y que en muchas ocasiones el resultado final suena poco natural.
Otro tema: no hay que traducir las letras. Muchas letras traducidas nos parecen "tontas", simplezas, pero es porque no tenemos el contexto ni las referencias culturales populares que son las que muchas veces incluyen "el mensaje" con el que los oyentes se identifican y que dan "profundidad" al contenido. Luego tenemos el "yeah, yeah, yeah" y el "doobie-doo, doobie-doo" y el "sha-na-na" equivalentes a nuestro "lolailo-lolailo-lailo" y nuestro "tiriti-traun-traun-traun", es decir relleno puro y duro - pero que también tienen su contenido cultural -.